Está en la página 1de 45

Introduccin La idea original de la "estadstica" era la recoleccin de informacin sobre y para el "estado".

La palabra estadstica se deriva directamente, no de races griegas o latinas clsica, sino de la palabra italiana estado. El nacimiento de la estadstica se ubica a mediados del siglo XVII. Un ciudadano comn llamado Juan Graunt, nacido en Londres, comenz a revisar la publicacin semanal de la iglesia, la cual era distribuida en la parroquia local y que listaba el nmero de nacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad tambin enumeraban las causas de las muertes. Graunt que era comerciante organiz estos datos en la forma que hoy llamamos estadstica descriptiva, la cual fue publicada como Observaciones Naturales y Polticas hechas sobre la tasa de Mortalidad. Luego de la publicacin, fue elegido como miembro de la sociedad real. De esta forma, la estadstica tomo prestados algunos conceptos de la sociologa, tal como el concepto de poblacin. El anlisis exploratorio de datos utiliza tcnicas grficas y numricas para estudiar patrones de conducta y el origen de los mismos. Las tcnicas de estadstica descriptiva normalmente usadas son: Distribucin de frecuencia; Histogramas, Boxplot, Grficos de Dispersin, diagramas de barras y errores, diagramas de diagnstico. Cuando se examina la distribucin de los datos, se debe detectar algunas caractersticas importantes, tales como forma, ubicacin, variabilidad, y valores inusuales. Mediante una cuidadosa observacin de los patrones en los datos, se puede generar conjeturas acerca las relaciones entre variables. La nocin de cmo una variable puede estar asociada a otra esta inmersa en casi todo el anlisis estadstico, lo que se puede realizar por ejemplo, mediante el anlisis regresin lineal. Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que la informacin es vlida para los objetivos planteados. El plan debe identificar las variables importantes que estn relacionadas con los objetivos, y especificar cmo estas van a ser medidas. Los datos son conocidos como informacin cruda y no como conocimientos en s. La secuencia que va desde los datos hasta el conocimiento aparece en la figura siguiente. Los datos se convierten en informacin, cuando se hacen relevantes para la toma de decisin de un problema. La informacin se convierte en hecho, cuando es respaldada por los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimiento instrumental es expresado junto con un cierto grado estadstico de confianza .

La figura anterior representa el hecho que a medida que la exactitud de un modelo estadstico aumenta, el nivel de mejoramiento en la toma de decisin aumenta. Esta es la razn del por que necesitamos la estadstica. La estadstica se creo por la necesidad de poner conocimiento en una base sistemtica de la evidencia. Esto requiri un estudio de las leyes de la probabilidad, del desarrollo de las propiedades de medicin, relacin de datos. La inferencia estadstica intenta determinar si alguna significancia estadstica puede ser adjudicada, luego que se permita una variacin aleatoria como fuente de error. Una inteligente y crtica inferencia no puede ser hecha por aquellos que no entiendan el propsito, las condiciones, y la aplicabilidad de las de diversas tcnicas para juzgar el significado.

Anlisis Exploratorio de Datos La finalidad del Anlisis Exploratorio de Datos (AED) o Estadstica Descriptiva es examinar los datos previamente a la aplicacin de cualquier tcnica estadstica. De esta forma el analista consigue un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. El Anlisis Exploratorio de Datos proporciona mtodos sencillos para organizar y preparar los datos, detectar fallas en el diseo y recogida de datos, tratamiento y evaluacin de datos ausentes, identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes. En este curso se va a dar una breve visin general de dicho conjunto de tcnicas exponiendo, brevemente, cul es su finalidad, ilustrada con ejemplos. Las preguntas ms frecuentes cuando tenemos un conjunto de datos son: Existe algn tipo de estructura (normalidad, multimodalidad, asimetra, curtosis, linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que se van a analizar? Existe algn sesgo en los datos recogidos? Hay errores en la codificacin de los datos? Cmo se sintetiza y presenta la informacin contenida en un conjunto de datos? Existen datos atpicos (outliers)? Cules son? Cmo tratarlos? Hay datos ausentes (missing)? Tienen algn patrn sistemtico? Cmo tratarlos? Los objetivos de este curso son: 1) Definir qu es el Anlisis Exploratorio de Datos (A.E.D.) y cules son sus objetivos. 2) Indicar cules son las etapas a seguir en la realizacin de un A.E.D. 3) Seleccionar los mtodos grfico y numrico apropiados para examinar las caractersticas de los datos y/o relaciones de inters. 4) Comprobar si se verifican algunas hiptesis de inters en los datos (normalidad, homocedasticidad). 5) Identificar casos atpicos univariantes. 6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial. Qu es el anlisis exploratorio de datos? El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes (normalidad, homocedasticidad). El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implcitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier anlisis estadstico. 3

Etapas del Anlisis Exploratorio de Datos Para realizar un A.E.D. conviene seguir las siguientes etapas: 1) Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica. 2) Realizar un examen grfico de la naturaleza de las variables individuales a analizar y un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos de los datos. 3) Realizar un examen grfico de las relaciones entre las variables analizadas y un anlisis descriptivo numrico que cuantifique el grado de interrelacin existente entre ellas. 4) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5) Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que puedan ejercer en anlisis estadsticos posteriores. 6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados. Preparacin de los datos El primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica. Ello conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo) y codificacin de los datos as como la de un paquete estadstico adecuado para procesarlos. Los paquetes estadsticos son conjuntos de programas que implementan diversas tcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA, MINITAB, S-PLUS, EVIEWS, STATGRAPHICS, MATLAB, R y la planilla Excel. (estos dos ltimos los usaremos en este curso). La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numricos, nominales, ordinales, etc). La inmensa mayora de los paquetes estadsticos permite realizar manipulaciones de los datos previas a un anlisis de los mismos. Algunas operaciones tiles son las siguientes: Combinar conjuntos de datos de dos archivos distintos Seleccionar subconjuntos de los datos Dividir el archivo de los datos en varias partes Transformar variables Ordenar casos Agregar nuevos datos y/o variables Eliminar datos y/o variables Guardar datos y/o resultados

Finalmente, y con el fin de aumentar la utilidad de los datos almacenados, conviene asociar a la base de datos utilizada, un libro de cdigos en el que se detallen los 4

nombres de las variables utilizadas, su tipo y su rango de valores, su significado as como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente citados permiten esta posibilidad. Anlisis estadstico unidimensional Una vez organizados los datos, el paso siguiente consiste en realizar un anlisis estadstico grfico y numrico de las variables del problema con el fin de tener una idea inicial de la informacin contenida en el conjunto de datos, as como tambin detectar la existencia de posibles errores en la codificacin de los mismos. Para iniciar el estudio del anlisis estadstico se definen algunos conceptos propios de la terminologa de la Estadstica Descriptiva o anlisis exploratorio de datos. Poblacin: es el universo de objetos al cual se refiere el estudio que se pretende realizar. Es decir, es el conjunto de todos los elementos de inters para un determinado problema. Por ejemplo, todas las piezas terminadas en una cadena de montaje, los nacidos en un da determinado, los coches de una determinada marca, etc. A los elementos que conforman la poblacin se les llama unidad observable o unidad de observacin. Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el nmero de alumnos de su colegio, o de su curso. Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tan grande que pudiese considerarse infinita. Como por ejemplo si se realiza un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacin podra considerarse infinita. Observacin o dato: a cualquier valor cualitativo o cuantitativo asociado a una variable Variable: es cualquier caracterstica objeto de estudio en la poblacin. Se les llama variables, ya que pueden variar de un individuo a otro. Por ejemplo, el grosor de una pieza, peso al nacer, consumo de gasolina, partido al que va a votar un individuo, etc. Muestra: Un subconjunto de una poblacin o universo que se selecciona para ser estudiada ya que la poblacin es demasiado grande como para analizarla en su totalidad. Es importante que el investigador defina total y cuidadosamente a la poblacin antes de recolectar la muestra, incluyendo una descripcin de los elementos. Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa que son estudiadas por un investigador; son los objetos bsicos sobre los cuales se ejecuta el estudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote de semillas. Una medida descriptiva relacionada, cuando consideramos toda la poblacin, se denomina parmetro. Los parmetros generalmente se designan por letras griegas. Uno de los parmetros mas utilizado es el promedio o media aritmtica y la desviacin estndar designados por , 2 respectivamente. 5

Una medida descriptiva relacionada con una muestra, se denomina estadstico. Los estadsticos tienen dos fines. Describen la muestra que est disponible y sirven como aproximacin a los parmetros correspondientes de la poblacin.

POBLACION PARAMETROS

MUESTRA

ESTADISTICOS

Ejemplo: Suponga que el gerente de una tienda desea saber el valor de , el gasto promedio por cliente de su tienda durante el ao pasado. El puede calcular el gasto promedio de los miles de clientes que compraron en su tienda durante el ao pasado; es decir, la media poblacional . En lugar de esto, el podra utilizar una estimacin de la media poblacional calculando la media de una muestra aleatoria de clientes. Si se encontrara que el valor fuera de $50000, estos $50000 seran su estimacin. Variables Cualitativas y Cuantitativas El tipo de anlisis a realizar depende del tipo, y la escala de medida de la variable a analizar. Si se observa una sola caracterstica a cada unidad observable, entonces la variable se denomina unidimensional. Si se observan simultneamente dos caractersticas a cada unidad observable, entonces la variable se denomina bidimensional o bivariada, y as sucesivamente. Se distinguen dos tipos de variables: cualitativa y cuantitativa. Variables Cualitativas Una variable cualitativa es aquella cuyos valores corresponden a conceptos, categoras atributos o cualidades como, por ejemplo, el sexo, la profesin de una persona, nivel de estudio, estado civil, etc. Si en dichas categoras hay un orden subyacente se denomina variable ordinal, si no se denomina variable nominal. Las variables nominales son aquellas que los valores se registran dentro de categoras o clases, donde no tiene sentido el orden. Se dice que las variables nominales que toman o pueden tomar uno de dos valores distintos como hombre o mujer son dicotmicos o binarios

Los datos o elementos de una variable cualitativa se agrupan en forma natural en diferentes categoras o clases y se cuenta el nmero de datos que aparecen en cada una de ellas, lo que se denomina tabla de frecuencias. Consideremos el siguiente ejemplo con la variable nominal estado civil Ejemplo 1.- Suponga que se extrae una muestra de 300 clientes de un supermercado y se les consulta por el estado civil de ellos. La tabla 1 muestra el conjunto de datos obtenidos de esta variable.
Tabla 1.
Estado Civil
1 2 3 Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo 4 5 6 7 8 9 10 11 Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo 12 13 14 15

1 Soltero Soltero 2 Soltero Soltero 3 Soltero Soltero 4 Soltero Soltero 5 Soltero Soltero 6 Soltero Soltero 7 Soltero Soltero 8 Soltero Soltero 9 Soltero Soltero 10 Soltero Soltero 11 Soltero Soltero 12 Soltero Soltero

Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado

Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado

13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 17 Soltero Viudo 18 Soltero Viudo 19 Soltero Viudo 20 Soltero Viudo
Soltero Soltero Soltero Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Casado Casado Casado Casado Casado Casado Soltero Casado Casado Casado Casado Casado Casado Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Soltero Soltero Soltero Soltero Casado Casado Soltero Casado Casado Casado Soltero Casado Casado Casado Soltero Casado Casado Casado

Para comprender y resumir estos datos, es til presentarlos en una tabla o grficos en la que aparezca los valores posibles de la variable, llamados clases ( ci ) y el nmero de veces que cada valor se repite. A ese nmero se le denomina frecuencia absoluta (ni) o simplemente frecuencia. La tabla se denomina tabla de frecuencias. La suma de las frecuencias absolutas es siempre igual a n, siendo n el nmero total de casos,

n = ni
i =1

donde k es el nmero de clases.

La frecuencia relativa ( fi ) Expresa los resultados en proporciones.

fi =
se cumple f i = 1
i =1 k

ni n

Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el nmero total de observaciones n.

hi =
Se cumple que hi = 100
i =1 k

ni *100 = f i *100% n

Tabla 1.1 Tabla de frecuencia variable Estado Civil Contar de Estado civil Estado civil Total Casado Separado Soltero Viudo Total general

305 4 77 16 402

E s ta d o C iv il
300
frecuencia absoluta

50

100

150

200

250

C a sa d o

S e p a ra d o

S o lte ro

V iud o

C a te g o ra s

Figura 1.1 Grafico de barra de la variable Estado Civil (Entregado por defecto por el software).

Grfico circular. Para el grfico circular se utiliza la sentencia: pie nombre de la tabla de frecuencia
igura 1.2 Grafico Circular de la variable Estado Civil (Entregado por defecto por el software).

Ejemplo 2.- Suponga que la distribucin de frecuencia del Nivel de Estudio (variable cualitativa ordinal) de cierta ciudad en un determinado ao es:
Nivel de estudios
Enseanza media incompleta Sin estudio Enseanza media completa Enseanza superior completa Enseanza superior completa Enseanza superior completa Sin estudio Enseanza media incompleta Enseanza superior completa Enseanza superior incompleta Sin estudio Estudios basicos Sin estudio Enseanza media incompleta Sin estudio Enseanza superior incompleta Enseanza superior incompleta Sin estudio Estudios basicos Sin estudio Sin estudio Sin estudio Estudios basicos Sin estudio Estudios basicos Enseanza media incompleta Enseanza media completa Enseanza media incompleta Enseanza media completa Enseanza media incompleta Enseanza media incompleta Enseanza media incompleta Enseanza media incompleta Enseanza superior completa Enseanza media incompleta Enseanza media incompleta Estudios basicos Enseanza superior completa Enseanza superior incompleta Enseanza superior completa Sin estudio Estudios basicos Estudios basicos

Enseanza superior completa Enseanza superior completa Enseanza superior completa Enseanza superior incompleta Enseanza media incompleta Estudios basicos Enseanza media incompleta

Para resumir los datos ordinales, es til presentarlos en una tabla o grficos similares a los obtenidos para las variables nominales. Los grficos utilizados en este caso son los de barra y circulares. Las tablas de resumen o de frecuencias adems, de la frecuencia absoluta y relativa tiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentual acumulada.

La Frecuencia acumulada Ni es el nmero de elementos de la poblacin o muestra cuya modalidad es inferior o equivalente a la modalidad ci, es decir es la suma de las frecuencias absolutas de la clase ci y las anteriores a ella,

N i = n j = N i 1 + ni
j =1

La frecuencia relativa porcentual ( Hi ) define el porcentaje de individuos menores o iguales a la clase i-sima

Hi =

Ni * 100 n

Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el nmero total de observaciones n. La tabla de frecuencia resultante es: Tabla 1.2 Variable Nivel de Estudio
Nivel de estudios Sin estudio Estudios basicos Enseanza media incompleta Enseanza media completa Enseanza superior incompleta Enseanza superior completa Total general ni 11 8 13 3 5 10 50 hi 22% 16% 26% 6% 10% 20% 100% Ni 11 19 32 35 40 50 Hi 22% 38% 64% 70% 80% 100%

Por ejemplo, la tercera clase dice que existen 13 personas con enseanza media incompleta, que corresponde al 26% del total, que 32 personas tienen a lo ms enseanza media incompleta, o bien el 64% de las 50 personas tienen enseanza media O bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sin estudio hasta estudios superiores completos se utiliza [c(se escriben los nmero que corresponden al orden alfabtico separados por comas)]
N iv e l d e E s tu d io s
12

Nivel de Estudios

Enseanza media incompleta


10
frecuencia absoluta

anza superior completa

Enseanza med

za superior incompleta
Sin estudio
s in e s t e s tb a s e ns m e d c o m C la s e s e ns s up c o m

Estudios basicos

Figura 1.3 Grfico de barra y circular de la variable Estado Civil

10

Variables Cuantitativas Variables cuantitativas son aquellas que se pueden expresar numricamente, es decir, pueden tomar valores reales. Una primera clasificacin, basada en el tipo de valores que puede tomar, permite distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto de valores que puede asumir la variable se puede enumerar. Este conjunto puede ser finito o infinito, por ejemplo, el nmero de paneles producidos en un da. y variables cuantitativas continuas que son aquellas que pueden asumir cualquier valor en algn intervalo real, por ejemplo, la temperatura aplicada en el proceso de produccin de los paneles. Las variables cuantitativas discretas con un nmero de valores que se repite, se tratan de forma similar a las variables cualitativas ordinales. La diferencia es que en estos casos se puede realizar un anlisis descriptivo numrico, el cual permite describir diferentes caractersticas del conjunto de datos. Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a las variables ordinales. Ejemplo 3.- El nmero de personas que viven en la casa de una muestra de 50 familias son:
Tabla 1.3 Tabla de datos del N de personas que viven en la casa
N de N de N de N de N de Corr. personas Corr. personas Corr. personas Corr. personas Corr. personas 1 1 11 4 21 6 31 4 41 3 2 2 12 6 22 5 32 2 42 1 3 1 13 5 23 2 33 1 43 2 4 3 14 4 24 2 34 3 44 5 5 4 15 2 25 2 35 4 45 6 6 5 16 2 26 1 36 5 46 4 7 2 17 3 27 3 37 2 47 3 8 1 18 3 28 2 38 2 48 2 9 3 19 1 29 5 39 1 49 1 10 5 20 1 30 6 40 2 50 3

Cuando el conjunto de datos discretos es pequeo se puede construir tablas de frecuencia donde cada clase es uno de sus valores numricos. La construccin de la tabla de frecuencia y los grficos de barra y circular para este tipo de datos es similar a la de las variables cualitativas ordinales.

11

Tabla 1.4.Tabla de frecuencias del N de personas que viven en casa


N de Personas 1 2 3 4 5 6 ni 10 14 9 6 7 4 fi 0.20 0.28 0.18 0.12 0.14 0.08 hi 20 28 18 12 14 8 Ni 10 24 33 39 46 50 Hi 20 48 66 78 92 100

N de personas que viven en una casa


14 frecuencia absoluta 0 2 4 6 8 10 12

3 Clases

Figura 1.4. Grfico de Barra N de personas que viven en casa

Se observa que en el 28% de las casas de los encuestados viven dos personas y que solo en un 8% de las casas viven 6 personas. (El anlisis numrico lo veremos ms adelante).
N de personas que viven en una casa

2 1

6 3

5 4

Figura 1.5. Grfico de Barra N de personas que viven en casa

Las variables cuantitativas continuas generalmente se miden por escala de intervalo o por escala de razn. La escala de intervalo, adems de todas las propiedades de la 12

escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones. Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicacin en una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5). Sobrepeso respecto de un patrn de comparacin. Nivel de aceite en el motor de un automvil medido con una vara graduada. La escala de razn permite, adems de lo de las otras escalas, comparar mediciones mediante un cuociente. Ejemplos de variables con la escala de razn son: Altura de personas. Cantidad de litros de agua consumido por una persona en un da. Velocidad de un auto en la carretera. La escala de intervalo tiene un cero que se establece por convencin y puede tener variaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, no sujeto a variaciones; es propio de la medicin hecha. Tablas estadsticas o tablas de frecuencias Distribucin de frecuencias Si la variable analizada es continua o discreta con un elevado nmero de valores distintos se tabula como una distribucin de frecuencias agrupadas y se representa grficamente mediante histogramas, polgonos de frecuencias, ojivas y boxplots con el fin de estudiar la forma de la distribucin y analizar, en particular, la posible existencia de varias modas en la misma que pongan de manifiesto la presencia de diversos grupos homogneos en la muestra. Cuando el tamao de la muestra y el recorrido de la variable son grandes, ser necesario agrupar en intervalos los valores de la variable. La tabla de frecuencia o distribucin de frecuencia ordena los datos y estos se dividen en clases o intervalos de clases mutuamente excluyentes (sin elementos comunes) y se registra el nmero de observaciones en cada clase. Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalos queremos? Observacin No existen criterios ptimos para elegir la cantidad de intervalos. En general, entre 5 y 15 intervalos deberan ser suficientes. Utilizar muchos o muy pocos intervalos puede ser poco informativo. Pero se pueden seguir las siguientes reglas: Algunas regla para agrupar los datos en intervalos o categoras 1. Decidir el nmero de intervalos o categoras o clases, que puede ser el nmero deseado de clases o si n es el nmero de observaciones se puede utilizar como referencia:

k n ,

si n no es grande

k 1 + 3.22log(n), en otro caso


2. Localizar la observacin mayor y menor, es decir el valor mximo y el valor mnimo de las observaciones. 13

3. Hallar la diferencia entre estos dos valores (restar mximo menos el mnimo). Esta diferencia se denomina rango o recorrido de los datos.

r = x mx x mn
4. Hallar la amplitud de la clase o del intervalo de clase ai se define por:

a=

xmx xmn k

As la divisin en clases o intervalos podra tomarse: l0 =xmn , l1 =l0 + a,, lk = l0 + ka. 5. Hallar la marca de clase de cada intervalo. Se define por

xi =

li + li 1 2

Distintos tipos de frecuencias Cuando se resume la informacin en una tabla a cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominan frecuencias: As tenemos los siguientes tipos de frecuencia: Frecuencia absoluta de la clase ci es el nmero de elementos en la poblacin o muestra perteneciente a la clase ci, se designa por ni. Se cumple que

n
i =1

= n.

Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el nmero total de observaciones n.

hi =
Se cumple que hi = 100
i =1 k

ni *100 n

Frecuencia acumulada Ni al nmero de elementos de la poblacin o muestra cuya modalidad es inferior o equivalente a la modalidad ci, es decir es la sume de las frecuencias absolutas de la clase ci y las anteriores a ella,
Ni = n j
j =1 i

Tambin se puede determinar la frecuencia relativa acumulada porcentual.

14

Se llama distribucin de frecuencias al conjunto de intervalos o clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadstica o tabla de frecuencias sirve para presentar en forma ordenada los datos. Su forma general es:
Tabla 1.5 Tabla de frecuencias o Distribucin de Frecuencias

Modalidad Intervalos o clases de clases ci c1 l0 l1 cj lj-1 -- lj ck lk-1 -- lk

Frec. Abs. ni n1 nj nk n

Frec. Rel. Porcentual hi f1= n1/n*100 fj=nj/n*100 fk=nk/n*100 100%

Frec. Abs. Acumu. Ni N1=n1 Nj=n1+n2++nj Nk=n

Marca de clases xi x1 xj xk

Ejemplo 4.- Los siguientes datos son los ingresos anuales de 60 ejecutivos de empresas en Estados Unidos. Los datos estn expresados en miles de dlares.
Datos ingreso anuales de 60 ejecutivos
58 64 79 74 69 71 65 55 73 40 76 76 74 38 62 54 79 75 72 50 89 34 56 69 56 31 47 62 64 74 45 65 71 79 38 69 46 57 69 61 67 45 85 61 69 62 77 77 51 69 34 39 87 71 79 39 66 36 50 73

Para construir la tabla de frecuencia en Excel se determina primero el nmero de clases. Suponga que se van a construir k = 7 clases o categoras, luego

a=

xmx xmn 89 31 = = 8,28 , la amplitud es de por lo menos 8,28 por ser ms fcil k 7

hacemos a = 10 y el lmite superior de la primera clase li+1 = 34. Completando la Tabla de frecuencia se obtiene:
Tabla 1.4 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos
Clases Intervalos 1 (24 , 34] 2 (34 , 44] 3 (44 , 54] 4 (54 , 64] 5 (64 , 74] 6 (74 , 84] 7 (84 , 94] ni 3 6 8 12 19 9 3 60 fi 0,05 0,10 0,13 0,20 0,32 0,15 0,05 hi 5,00 10,00 13,33 20,00 31,67 15,00 5,00 1 100 Ni 3 9 17 29 48 57 60 Hi 5,00 15,00 28,33 48,33 80,00 95,00 100,00 xi 29 39 49 59 69 79 89

15

Representacin grfica para variables discretas y continuas Un grfico estadstico es una representacin pictrica que permite dar un resumen visual de la informacin, y se utiliza para detectar tendencias, agrupacin de datos en torno a un valor central, variaciones cclicas, estacinales, etc. Grfico de tallo y hojas Un mtodo grfico para iniciar el anlisis exploratorio de datos, y que adems proporciona informacin visual rpida, es la representacin grfica de tallo y hoja. Entrega una primera aproximacin rpida de la distribucin de los datos sin perder de vista las observaciones. Un diagrama de tallo y hoja consiste en una serie de hileras horizontales de nmeros. El nmero utilizado para designar una hilera es su tallo, el resto de los nmeros de la hilera se denominan hojas. Ejemplo 5.- La siguiente tabla muestra los datos de la fuerza de compresin de 45 muestras de aleacin de aluminio-litio.
Tabla 1.5 Datos de la fuerza de compresin
96 108 125 112 134 120 93 94 155 135 119 103 88 148 155 132 97 113 117 156 103 111 89 124 127 139 112 125 118 138 95 142 127 104 136 113 94 117 106 125 96 107 120 139 143

a) b) c) d)

Se separa cada observacin en dos partes: tallo y hoja. Se lista en forma vertical y creciente los tallos y agregamos las hojas a la derecha del tallo. Generalmente las hojas es la unidad del nmero y el tallo es la decena, centena, etc. Se separa esos dgitos de los restantes, que constituirn los tallos.

8 | 89 9 | 3445667 10 | 334678 11 | 122337789 12 | 00455577 13 | 2456899 14 | 238 15 | 556 Qu podemos ver en este diagrama? Rango de las observaciones, valores mximo y mnimo. Forma de la distribucin: simetra, asimetra a la izquierda, asimetra a derecha y cuantas modas tiene la distribucin. 16

Posicin del centro de la distribucin y concentracin de los datos. Desviaciones marcadas respecto al comportamiento general: outlier o valores atpicos.

Los grficos de tallo y hoja tambin son tiles para comparar la distribucin de una variable en dos condiciones o grupos. El grfico se denomina grfico de tallo y hojas con espalda porque ambos grupos comparten los tallos. Ejemplo 6.- Consideremos la longitud en centmetros de 20 partes consecutivas de una lnea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una lnea de ensamble del proceso 2.
Tabla 1.6 Datos de longitud de 20 partes.
PROC1 PROC2 PROC1 PROC2 19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000 19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001 20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011 20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011 1996 1997 1998 1999 2000 2001 9 5 445 2478 112444788 1

9 644 9877531110000 100

En este caso vemos que el segundo proceso es menos variable que el primero que la longitud mxima para ambos proceso es 20.011 y longitud mnimo para el proceso 1 es 19.969 y para el proceso 2 es 19.989. Aunque en las tablas se puede mostrar gran cantidad de informacin estadstica, a veces es conveniente presentar esta informacin de una manera ms clara y efectiva por medio de grficos. Existen varios tipos de grficos o representaciones grficas utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est utilizando y los objetivos que se persiguen al presentar la informacin Los grficos utilizados en variables cuantitativas discretas o continuas con un gran nmero de datos que se encuentran en una distribucin de frecuencias son el histograma y el polgono de frecuencias. Un histograma se construye en el plano cartesiano. En el eje de las abscisas se coloca los lmites de cada intervalo y en el eje de las ordenadas las frecuencias de clase (absoluta, relativas o relativas porcentuales), representando sobre cada intervalo un rectngulo que tiene a este segmento como base y como altura la frecuencia de cada clase. Las caractersticas geomtricas del histograma nos permiten descubrir informacin til sobre los datos, por ejemplo: 17

1. La localizacin del centro de los datos. 2. El grado de dispersin. 3. El lado al cual se sesga, es decir, cuando no cae simtricamente en ambos lados del mximo. 4. El grado de agudeza del mximo.
Sueldo ejecutivos

ni

10

15

30

40

50

60

70

80

90

Sueldo

Figura 1.6. Histograma de los ingresos de los ejecutivos

El polgono de frecuencias es un grfico de lnea cerrado, en el eje de las abscisas va las marcas de clase y en el eje de las ordenadas alguna de las frecuencias (absoluta, relativas o relativas porcentuales) los puntos correspondientes a estos pares se unen mediante rectas. La marca de clase del primer y ltimo intervalo se une con la marca de clase anterior y siguiente, respectivamente.
Polgono de Frecuencias Sueldo Ejecutivos

ni

10

15

20

40 xi

60

80

100

Figura 1.7. Polgono de frecuencia de los ingresos de los ejecutivos

18

La Ojiva es un grfico de lnea, en el eje de las abscisas van lo lmites superiores de cada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuencia acumulada relativa porcentual.
Ojiva Sueldos Ejecutivos
60 Ni2 0 10 20 30 40 50

20

40

60 limsup

80

Figura 1.8. Ojiva de los ingresos de los ejecutivos

Grfico de tiempo Cuando los datos de una variable estn tomados a travs de tiempo, puede ser de gran inters el grfico de los datos a travs del tiempo o el orden en que los datos fueron obtenidos. Un grfico de tiempo llamado tambin grfico de series, es un grfico de las observaciones a travs del tiempo u orden en que fueron observados. Los puntos consecutivos se conectan con lneas para ayudarnos a determinar si se producen cambios en la distribucin a medida que pasa el tiempo. Ejemplo 7.- Los datos siguientes corresponden al nmero de estudiante que llegaron tarde al colegio A durante un periodo de tres semanas.
Tabla 1.7 Datos del N de estudiantes que llegan tarde

Semana 1 Semana 2 Semana 3

Lunes 10 14 9

Martes 7 5 3

Mircoles 6 10 6

Jueves 8 8 4

Viernes 11 7 6

Grfico de tiempo N de alumnos atrasados 15 10 5 0


s ar te s Lu ne Ju e Vi er ne s ve s

Semana 1 Semana 2 Semana 3

Tiempo

Figura 1.9. Grfico de tiempo N de estudiantes que llegaron tarde al colegio

19

Resumen numrico de los datos Para ampliar la informacin acerca de esta distribucin y completar as el anlisis descriptivo de una poblacin o muestra, es necesario recurrir a ciertos valores numricos que permiten cuantificar ciertas caractersticas de la distribucin. Se les llama a estos valores medidas estadsticas o estadgrafos. Las de uso frecuente en un anlisis descriptivo son las medidas de tendencia central y las medidas de dispersin. Las medidas descriptivas numricas que caracterizan lo mejor posible a los datos originales o a la distribucin de frecuencias mas frecuentes son: Las medidas tendencia central de los datos; Las medidas de dispersin o variacin con respecto a este centro; Las medidas de tendencia central permiten determinar un valor caracterstico de una distribucin de frecuencias ubicado hacia el centro de la distribucin. Las tres medidas ms usuales de tendencia central son: la media, la mediana, la moda. La media Llamada tambin promedio aritmtico o simplemente media o promedio, es una de las medidas ms importantes y de mayor uso en diversas aplicaciones estadsticas. Se denota por si es obtenida de la poblacin y por x si es obtenida de una muestra y se calcula de la siguiente manera:. i) Para datos no agrupados sea x1, x2,...xn un conjunto de n valores, entonces Poblacin (tamao N) Muestra (tamao n) Media o promedio aritmtico Media o promedio aritmtico poblacional muestral

xi
i =1

x =

i=1

x n

para datos agrupados Poblacin (tamao N) Muestra (tamao n) Media o promedio aritmtico Media o promedio aritmtico poblacional muestral

i =1

ni xi N

x=

n x
i =1 i

donde xi es la marca de clases

20

Observacin 1. En general, la media aritmtica obtenida a partir de las marcas de clase xi, diferir de la media obtenida con los valores reales, xi. Es decir, habr una prdida de precisin que ser tanto mayor, cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos. 2. La media aritmtica es sensible a valores extremos. 3. De las observaciones x1, x2, ..., xn se tiene la siguiente propiedad elemental que tendr grandes consecuencias en la definicin una medida de la variabilidad,
( xi x ) = 0

En efecto ( xi x ) = xi x =n( i =1
i =1 i =1 i =1

xi

) nx = nx nx = 0

Este resultado es en cierta manera desalentador, puesto que el error o desviacin de una observacin en particular respecto de la media es compensado con los dems errores, de manera que sumando los errores de esta forma no nos entrega informacin sobre la variabilidad o sobre cuan alejado estn las observaciones del promedio. De manera que si consideramos las desviaciones de la observacin respecto de la media como positivo, tendramos una medida del error. Podemos considerar las siguientes situaciones para medir el error,

i =1 n

( xi x ) xi x

Error cuadrtico Error cuadrtico error mximo

4.

i =1

i =1,2 ,...n

mx xi x

5. El error ms usual utilizado en estadstica es el error cuadrtico. Este error tiene interesantes propiedades. Veremos una de ellas. Supongamos que tenemos las observaciones x1, x2, ..., xn. Si elegimos cualquier representante de estas observaciones, digamos a , entonces el error cuadrtico ser mayor si elegimos la media como representante de estas observaciones, de otra forma si x a Entonces En efecto,
( xi x ) < ( xi a )
2 i =1 n n 2

i =1

21

i =1

( xi a ) = ( xi x + x a ) = (( xi x ) + ( x a ))
2 2 i =1 i =1

= (( xi x )2 + 2( xi x )( x a ) + ( x a )2 ) = ( xi x )2 + 2( x a ) ( xi x )+ ( x a )2 =1 2 3 i =1 i =1 24 1 4 3 i14 4
0 positivo i =1 n n n

luego = ( xi x )2
i =1 n

Vamos a ver otra propiedad interesante de la media. Supongamos que tenemos las siguientes observaciones x1, x2, ..., xn, por razones que ms adelante veremos puede ser altamente conveniente realizar una transformacin lineal de estas observaciones, por ejemplo hacer yi = a + b xi, entonces la media de estas nuevas variables y1, y2, ... , yn es y = a + bx . En efecto,

1 n 1 n 1 n 1 n 1 1 n yi = ( a + bxi ) = a + b xi = na + b xi = a + bx n i =1 n i =1 n i =1 n i =1 n n i =1
Ejemplo 8. Determinar el promedio de los sueldos de los ejecutivos para datos sin agrupados y agrupados Para datos sin agrupar la media es:
xi n
n

x=

i =1

58 + 76 + 89 + ... + 69 + 73 = 62,05 60

Para datos agrupados la media es:


Tabla 1.8 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos
Clases 1 2 3 4 5 6 7 Intervalos (24 (34 (44 (54 (64 (74 (84 , , , , , , , 34] 44] 54] 64] 74] 84] 94] ni 3 6 8 12 19 9 3 Ni 3 9 17 29 48 57 60 xi ni*xi 29 39 49 59 69 79 89 ni*xi^2

22

Suponga que los sueldos de los gerentes generales de estas empresas es una funcin lineal de los sueldos de los ejecutivos dada por yi = 230 xi + 300 determine le sueldo promedio de los gerentes de estas empresas.
n

x=

i =1

ni x i n

3 * 29 + 6 * 39 + 8 * 49 + 12 * 59 + 19 * 69 + 9 * 79 + 3 * 89 = 61,8333333 3, 60

yi = 230 xi + 300 y = 230 x + 300 = 230 * 62,05 + 300 = 14571,5


Propiedades de la media aritmtica o Puede ser calculada en distribuciones con escala relativa y de intervalos o .Todos los valores son incluidos en el cmputo de la media. o Una serie de datos solo tiene una media. o Es una medida muy til para comparar dos o ms poblaciones o Es la nica medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. o Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos. Desventajas de la media aritmtica o Si alguno de los valores es extremadamente grande o extremadamente pequeo, la media no es el promedio apropiado para representar la serie de datos. o No se puede determinar si en una distribucin de frecuencias hay intervalos de clase abiertos.

Ejemplo 9. a)
2 1 0 1 2 3

La media tambin se define como el punto de equilibrio Si la distribucin es simtrica, como en la figura a), la media est exactamente en el centro de la distribucin

Media =

23

b)
2 1 0 1 2 3 4 5

Cuando la observacin mayor se mueve ms a la derecha, como en la figura b) la media tiende hacia la observacin.

Media = c)
2 1 0 1 2

2,5

Si la distribucin tiene un valor extremo, como en la figura c) la media tiende hacia este valor extremo.
3 4 5 6 7 8 9 10 11

Media =

Promedio Ponderado. En muchas ocasiones, los datos observados no tienen la misma importancia relativa. Para hacer presente este hecho en la bsqueda de un 'centro' que represente a los datos, es necesario asignar a cada uno de stos, una ponderacin (peso o coeficiente) que represente su importancia dentro de la muestra. Por ejemplo, considrese el sistema de calificacin del curso donde las pruebas tienen distinta ponderaciones, segn su importancia en el proceso de evaluacin del trabajo del alumno. En este caso, no resulta apropiado el promedio simple. Cada nota parcial debe ser multiplicada por su coeficiente o ponderacin, para luego sumar estos resultados y dividirlos por la suma de los coeficientes respectivos. Definicin. Sean x1 ,x2 ,....,xn , n datos y w1 ,w2,....,wn, n, nmeros reales tales que wi 0; i=1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los datos, est dado por:

xw =

w1 x1 + w2 x2 + ... + wn xn i =1 = n w1 + w2 + ... + wn wi
i =1

wi xi

Si w i= k, k constante positiva, entonces x w coincide con x . Esto equivale a decir que, si cada observacin tiene la misma ponderacin, entonces el promedio y el promedio ponderado son iguales. 24

Ejemplo. Si un alumno obtiene un 5.5 en la primera evaluacin 4.9 en la segunda evaluacin si la primera evaluacin corresponde a un 45% y un 55% la segunda evaluacin. Cul es nota promedio de estas dos pruebas?

xw =

0,45 * 5,5 + 0 ,55 * 4 ,9 = 5,17 0,45 + 0 ,55

La media geomtrica. Como se puede observar en la grfica 1, la funcin logaritmo (en este caso logaritmo natural) "suaviza" los datos, si son muy grandes los datos los disminuye, y adems los "contrae", es decir si x1 y x2 estn muy separados, no lo estarn tanto los valores transformados ln ( x1) y ln ( x2).

. De tal manera que en el manejo de datos estadsticos a veces es conveniente utilizar la transformacin tales como, y = ln (x). Supongamos que tenemos un conjunto de observaciones x1, x2, ... , xn, luego si a cada una de estas observaciones le aplicamos logaritmo natural tenemos que yi = ln ( xi ). Vamos a calcular la media de estas nuevas observaciones y1, y2, ... , yn, esto es

y=

y1 + y 2 + ... + y n ln( x1 ) + ln( x2 ) + ... + ln( xn ) = n n 1 = ln( x1 x2 ...xn ) n = ln( x1 x2 ...xn ) e y = n ( x1 x2 ...xn )
25
1 n

y = ln n ( x1 x2 ...xn )

a la expresin de la derecha se le define como la media geomtrica, y se denota por

x g = n x1 x2 ...xn

Ejemplos. 1. Encontrar la media de los siguientes nmeros 2, 4, 8. obsrvese que entre ellos existe una razn o proporcin constante, cada uno de ellos es el doble del anterior, por tanto la media a utilizar es la media geomtrica, de la siguiente manera

xg = 3 2 * 4 * 8 = 4
Respuesta: la media geomtrica de los datos es 4 Un caso de aplicacin del promedio geomtrico, es el de clculo de inters en un depsito a plazo. Suponga que una persona desea depositar $1.000.000. durante un mes a una tasa de 2%. Esto significa que al trmino del mes, el banco le entrega $1.020.000.Al siguiente mes, toma el capital inicial ms los intereses y los deposita por otro mes. Esta vez el banco ofrece una tasa de 3%. Al trmino del segundo mes recibe $1.050.600. Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo al final $1.092.624. A qu tasa mensual debera ponerse el capital inicial para obtener el mismo capital final al cabo de los tres meses? Esta pregunta quiere dilucidar cul sera la tasa fija que el banco debiese haber aplicado en cada uno de los tres meses en que el capital estuvo depositado (con los intereses variables - 2%, 3%, 4% - que vimos). El capital total finalmente obtenido, puede expresarse como: 1000000*1.02*1.03*1.04 = 1000000*1.092624 Esto significa que la tasa total aplicada es de 9.2624% Entonces, la tasa mensual estara dada por la raz cbica de 1.092624, cuyo valor es 1.029968. Es decir, se habra necesitado una tasa mensual de 2.9968%. Cantidad levemente inferior al 3% que se obtendra si, errneamente, se hubiese promediado 2%, 3% y 4%. Para ver claramente cmo interviene el promedio geomtrico en este ejemplo, escribamos las tasas de inters como un factor multiplicativo del capital al cual se aplican. De este modo, las sucesivas tasas son: 1.02, 1.03, 1.04.

26

El promedio geomtrico de estos nmeros es:

x g = 3 1,02 * 1,03 * 1,04 = 1,029968


Propiedades de la media geomtrica La media geomtrica esta basada en todas las observaciones, por lo que est afectada por todos los valores de la variable. Sin embargo, da menos pesos a los valores extremadamente grandes que el que les da la media aritmtica. La media geomtrica es igual a cero si algunos de los valores es cero, y se puede volver imaginaria si ocurren valores negativos. Con la excepcin de estos dos casos, su valor siempre es definitivo y est rgidamente definido. La media geomtrica es la que se debe utilizar cuando lo que se va a promediar son tasas de cambios o proporciones, y se intenta dar igual peso a tasas de cambios iguales. La media armnica. Se denota por xa y se define como el valor inverso de la media de los valores recprocos de las observaciones x1, x2, ... , xn; esto es

xa =

n 1 1 1 + + ... + x1 x2 xn

Ejemplo Un.automvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje entre A y B a razn de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La velocidad promedio del viaje de ida y vuelta ser de

xa =

2 1 1 + 80 120

= 96 Km / hr

Propiedades de la media armnica o La media armnica se basa en todas las observaciones por lo que est afectada por todos los valores de la variable. Da a los valores extremadamente grandes un peso menor que el que les da la media geomtrica, mientras que a los valores pequeos les da un peso mayor que el que les da tanto la media aritmtica como la media geomtrica. o La media armnica esta indeterminada si alguno de los valores es cero, pues hallar el recproco de cero implica dividir entre cero, lo cual no es vlido. La media armnica est rgidamente definida y siempre es definitiva, excepto cuando uno de los valores es cero. o La media armnica es el promedio que se ha de usar, cuando lo que se va a promediar son proporciones donde los numeradores de las razones son los mismos para todas las proporciones. 27

Mediana Supongamos que tenemos un conjunto de observaciones x1, x2, ..., xn. Ordenamos estas observaciones de menor a mayor, y supongamos que el ordenamiento se consigue de la forma x(1), x(2), ..., x(n); es decir x(i) es el i-simo nmero en orden entre las n observaciones, en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x(n) es la mayor de todas las observaciones. La mediana es el valor central de la variable, despus que se ha ordenado en orden creciente, es el valor que divide en dos partes la muestra. Para calcular la mediana debemos tener en cuenta si la variable cuantitativa est sin agrupar o si est agrupada, si es discreta con muchos datos y rango pequeo o discreta o continua tabulada en intervalos. Clculo de la mediana en el caso discreto no agrupado Si el conjunto de observaciones los denotamos por x1,...,xn y al conjunto de observaciones ordenadas las denotamos por x(1) ,... ,x(n). Se define la posicin de la mediana como:

s = Pos ( Med ) =
Si s es un entero el valor de la mediana estado por

n +1 2

Med = xs
Si s no es un entero, entonces se determina un entero i tal que i<s<i + 1. Luego el valor de la mediana es:

Med =
Ejemplo 10.-

x ( i ) + x ( i 1 ) 2

n par n impar 1,4,6,7,8,9,12,16,20,24,25,27 1,4,6,7,8,9,12,16,20,24,25,27, 30 n=12 n=13 Trminos Centrales el 6 y 7 Trmino Central el 7 , 12 9 y 12 Me= (9+12)/2= Me=12

28

Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo, para los datos sin agrupar y agrupados. Para los datos sin agrupar primero ordenamos los datos
31 34 34 36 38 38 39 39 40 45 45 46 47 50 50 51 54 55 56 56 57 58 61 61 62 62 62 64 64 65 65 66 67 69 69 69 69 69 69 71 71 71 72 73 73 74 74 74 75 76 76 77 77 79 79 79 79 85 87 89

Como el nmero de elementos es par se ubican los dos valore centrales y se promedia.
Med = x ( i ) + x ( i 1) 2 = 65 + 65 = 65 2

Clculo de la mediana para datos agrupados Para el caso de datos agrupados las observaciones estn agrupadas en intervalos de clase, de manera que primero tenemos que fijarnos en la frecuencia absoluta acumulada, y en aquel intervalo de clase en que el valor correspondiente a la primera frecuencia absoluta acumulada que supera o es igual al 50% del nmero de observaciones, se dice que es el intervalo donde se encuentra la mediana.

n N i 1 ) 2 med = li 1 + ai ni (
Donde: li-1 : lmite inferior de la clase de la mediana n : nmero de observaciones Ni-1: frecuencia absoluta de la clase anterior a la clase mediana ni : frecuencia absoluta del intervalo mediano ai : amplitud del intervalo de la clase de la mediana Cambio en los valores extremos en los valores ordenados de la muestra no afectan significativamente a la mediana, no as la media. En efecto, supongamos la muestra anterior 1, 1, 2, 3, 3, 3, 4, 4, 5, 7, 8; donde la mediana es med = 3, y la media de esta muestra es x = 3,72; sin embargo si cambiamos el ltimo valor de esta muestra, que es 8, por 12, tenemos que la mediana sigue siendo la misma no obstante que la media cambia su valor a 4,09. De manera que, en algunas ocasiones es ms representativa la

29

mediana que la media, fundamentalmente en muestras en que aparecen observaciones extremas. Ejemplo. El ejemplo de los sueldos de los ejecutivos el valor de la mediana para datos agrupados se obtiene determinando la clase de la mediana, es la primera clase, donde la frecuencia acumulada supera o iguala a la mitad de los datos. En este ejemplo es la 5 clase.

n 60 Ni l 29 2 2 Med = l i 1 + * ai = 64 + * 10 = 64,5263158 ni 19
La moda En el lenguaje cotidiano, la palabra moda describe una situacin que es frecuente, que est mayoritariamente en uso, en particular y como ejemplo se utiliza mucho en el vestuario, sobre todo de las damas. Pues bien, en lo que respecta a la estadstica diramos que tiene el mismo significado, para el caso discreto es la observacin absoluta (o relativa) ms frecuente respecto de las observaciones vecinas, de modo que puede haber ms de una moda. Intentaremos dar un lenguaje ms formal a esta definicin. Como antes estudiaremos ambos casos, el discreto y el continuo. Caso discreto La moda es el valor de mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica. Pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso. Ejemplo: Supongamos que tenemos las siguientes observaciones (ordenadas) 1, 1, 2, 2, 2, 3, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9. En este caso podemos observar que hay dos modas, a saber: 2 y 5. Caso continuo En este caso tiene ms sentido hablar de intervalo modal. En efecto, esta vez nos fijamos en los intervalos de clase con sus respectivas frecuencias absolutas. Si un intervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se dice entonces que es un intervalo modal. De manera ms formal, diremos que (li - 1, li] es un intervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuencias adyacentes ni - 1 y ni + 1. Ahora el problema es qu valor elegir de este intervalo modal y definirlo como moda? De momento digamos que una moda se denotar por moda. 30

de modo que la moda es

donde ai es la amplitud del intervalo, que por lo general es constante. Esta estadstica debe usarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de datos, sin embargo, podra ser que por el solo hecho de haber una observacin extra en un punto aislado, ste pudiese aparecer como una moda. Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra, tal como es el caso que se observa en el grfico siguiente.

Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no se pone atencin al resto de las observaciones, se podra reportar este valor como la moda principal, lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentracin de datos. La mayor utilidad de la moda, se presenta al usarla con muestras relativamente grandes, donde la influencia de un dato individual no distorsiona el anlisis.

Ejemplo 11.- Determinar la moda del sueldo de los ejecutivos para datos agrupados y sin agrupar.

31

Relacin entre media, mediana y moda En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida entre la media y la moda (incluso ms cerca de la media) En las distribuciones que presentan valores extremos, es ms aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de inferencia suele ser ms apta la media.
Principales Caractersticas de la Moda, Mediana y Media

Moda

Mediana

Media

1 2 3

Es el valor mas frecuente en a distribucin. el punto mas alto en la funcin. Su valor es establecido por las frecuencia predominante, no por r los valores en la distribucin.

Es el valor del punto medio de los datos Es ordenados, tal que la mitad de los Es el valor promedio de todas las datos estn por arriba y la otra por observaciones debajo de ella. El valor de la mediana es fijado o por su u posicin en la seleccin, y no refleja valores individuales. La suma algebraica de sus desviaciones es cero. Una muestra tiene solo una media. Pueden ser manipuladas algebraicamente. Medias de subgrupos pueden ser combinadas cuando son ponderadas apropiadamente.

Una distribucin puede tener mas de 2 modas, Cada seleccin tiene solo una pero no existe moda en una distribucin mediana. rectangular. No puede ser manipulada No puede ser manipulada algebraicamente. algebraicamente. Modas de subgrupos no pueden ser ponderadas Medianas de subgrupos no pueden ser o combinadas. ponderadas o combinadas. Es inestable, puede ser influenciada en el proceso de agrupacin.

4 5 6 7 8

Es estable en cuanto a que Es estable en cuanto a que procedimientos para agrupar no afecta procedimientos para agrupar no afecta su su apreciacin. apreciacin. No es aplicable para datos cualitativos. Podra ser calculada igualmente cuando algn valor individual es desconocido, si se posee la suma de los valores y el tamao de la muestra.

Puede ser aplicada a datos cualitativos.

Puede ser calculada cuando los extremos de los valores de los grupos son abiertos. Valores no necesitan ser ordenados para su clculo.

No puede ser calculado de una tabla de Puede ser calculado cuando los valores frecuencia cuando sus valores extremos son abiertos. extremos son abiertos. Valores deben ser ordenados agrupados para su clculo. yLos valores no necesitan ser ordenados para su clculo.

32

Cuantiles Como sabemos, la mediana es un valor del recorrido de los datos que particiona a la distribucin de frecuencias en dos partes, cada una conteniendo el 50% del total de la distribucin. Podemos realizar una particin mayor de la distribucin de frecuencias dividindola en 4, 10 100 partes. Llamamos a estas particiones cuantiles y segn el nmero de divisiones obtenemos cuartiles, deciles o percentiles. Si los datos no estn agrupados al igual que en la mediana se debe ordenar el conjunto de datos y determinar primero la posicin para posteriormente determinar el valor.

s = Pos ( Pk ) = si

k (n + 1) si s entero Pk = x( s ) 100 s no es un entero s = t , r Pk = xt + 0, r * ( xt +1 + xt )

Si los datos estn agrupados de determina mediante la frmula:

n*k N i 1 Pk = li 1 + 100 * ai ni
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no se puede considerar como una medida de tendencia central. Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:

Q1 = P25

Q2 = P50= Med

Q3 = P75

De forma anloga se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamao. Ms precisamente, definamos D1, D2,...,D9 como:

Di = P10*i

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados estadsticos de posicin).

33

Medidas de variabilidad o dispersin Los estadsticos de tendencias central o posicin nos indican donde se sita un conjunto de observaciones. Los de variabilidad o dispersin nos indican si esas observaciones o valores estn prximas entre si o por el contrario estn o muy dispersas. Hasta ahora hemos estudiado en las observaciones los estadsticos de posicin (percentiles) y de tendencia central (medias, medianas y modas). Sin embargo debemos tener una nocin en cuanto a la relacin existente entre estas observaciones, una medida de cuan alejada est una determinada observacin del resto, o de una medida de disgregacin que tienen estas observaciones. En rigor la primera medida de dispersin que ya hemos estudiado es el rango de las observaciones. Pero es claro que esta medida presenta varios inconvenientes. En primer lugar solo considera dos observaciones, la ms pequea y la mayor, de modo que no puede ser muy fiable toda vez que uno de estos valores extremos se aleje demasiado y el resto se encuentre muy agrupado. En segundo lugar, podemos aumentar el nmero de observaciones, esto significa tener ms precisin en el fenmeno en estudio, y es posible que las nuevas observaciones se agrupen, por ejemplo en torno a la media, y el rango no disminuir. Finalmente, basta que una observacin nueva sea mayor o menor que el resto de las anteriores para que el rango aumente. De manera que es conveniente que creemos otras medidas de dispersin. Ejemplo 12. considere los siguientes conjuntos de datos: Datos 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65
Media =Moda =Mediana = 60

35

40

45

50

X X X XXXXXXXXXXX 55 60 65

70

75

80

85

Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70,75, 75, 80, 85
Media =Moda =Mediana = 60

X 35

X 40

X 45

X 50

X 55

X X X X 60

X 65

X 70

X 75

X 80

X 85

Se puede observar que lo datos1 estn muy cercanos alrededor del centro, mientras que en datos2 estn mas dispersos o alejados. Ahora, veremos medidas de dispersin mejores que la anterior. Estas se determinan en funcin de la distancia entre las observaciones y algunos estadsticos de tendencia central.

34

Desviacin media, DM Se define la desviacin media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, x1,...,xn entonces: Poblacin (tamao N) Desviacin Media Poblacinal Muestra (tamao n) Desviacin Media Muestral

DM =

| x
i =1

x|

DM =

| x x |
i =1 i

ii)

para datos agrupados Poblacin (tamao N) Desviacin Media Poblacinal Muestra (tamao n) Desviacin Media Muestral

DM =

| x i x | ni
i =1

DM =

| x x | n
i =1 i

Varianza y desviacin estndar La varianza, S2, se define como la media de las diferencias cuadrticas de n observaciones con respecto a su media aritmtica, es decir: Poblacin (tamao N) Varianza Poblacinal
( xi x )
N 2

Muestra (tamao n) Varianza Muestral


( xi x )
n 2

2 V ( X ) = X = i =1

2 V ( X ) = S X = i =1

n 1
2

V( X ) =

2 SX

2 xi i =1

nx N

2 V ( X ) = S X = i =1

( xi x )

n
2 2

2 V ( X ) = S X = i =1 n

xi nx

n 1
2 2

2 V ( X ) = S X = i =1

xi nx

35

iii)

para datos agrupados Poblacin (tamao N) Varianza Poblacinal Muestra (tamao n) Varianza Muestral

2 V ( X ) = S X = i =1

( xi x ) ni
2

N
2

2 V ( X ) = s X = i =1

( xi x ) ni
2

n 1
2

2 V( X ) = SX =

i =1

ni x i n x

2 V ( X ) = s X = i =1
k

( xi x ) ni

n
2

V ( X ) = s2 = X
V ( X ) = s2 = X

i =1
k

ni x i n x

n 1
i =1

ni x i n x

La varianza no tiene la misma magnitud que las observaciones (ej. Si las observaciones se miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la medida de dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su raz cuadrada, Por ello se define la desviacin estndar o tpica, como:

SX = V ( X )
Propiedades de la varianza. Supongamos que tenemos las siguientes observaciones x1, ..., xi, ..., xn, cuya varianza la denotaremos por V(X). Supongamos que sobre cada una de estas observaciones realizamos la siguiente transformacin

Entonces para estas nuevas observaciones transformadas linealmente calcularemos su varianza, esto es

36

Notemos lo siguiente, que si tenemos una serie de observaciones, a saber , entonces si hacemos un "traslado" de todas estas observaciones a una distancia que nos interesa, como por ejemplo

entonces, lo que nos dice la propiedad anterior, que la varianza es la misma que las observaciones anteriores. Es decir que si trasladamos "conjuntamente" las observaciones a otro sitio, las observaciones siguen manteniendo el mismo grado de dispersin. Finalmente, si hacemos un cambio de escala, es decir multiplicamos cada una de las observaciones por una cantidad constante, entonces la varianza de este cambio de escala ser proporcional a la anterior en un factor cuadrtico de la cantidad constante. Una ltima propiedad de la varianza que daremos sin demostracin es la siguiente: Si tenemos las observaciones , entonces en el intervalo real se encuentra al menos el 75% de las observaciones. La desviacin intercuartlica se define como:

RIQ = Q3 Q1

37

Caractersticas Principales de la Desviacin Cuartl, la Media de Desviacin Absoluta y la Desviacin Estndar


La Desviacin intercuatlica Desviacin media La Desviacin Estndar La Desviacin Estndar es normalmente mas til y mejor adaptada a un anlisis mas profundos que lo que es desviacin media. La desviacin intercuatlica es fcil de La Desviacin media tiene la calcular y entender. Sin embargo, esta ventaja de dar igual peso a la es inconsistente si existen brechas desviacin de cada valor con entre los datos alrededor de los respecto a la media o la cuartiles. mediana. Solo depende de dos valores, los cuales incluyen la mitad central de los mismos.

Es una medida de dispersin Es ms adaptable como estimador ms sensitiva que cualquiera de la dispersin de la poblacin que de las descritas anteriormente, cualquier otra medicin, haciendo y normalmente tiene errores de que la distribucin sea normal. muestreo ms pequeos. Es la ms amplia medida de dispersin usada, y la ms fcil de manejar algebraicamente.

Es ms fcil de calcular y Es normalmente superior al rango como entender, adems es menos una medida cruda de dispersin. sensible que la desviacin estndar a valores extremos. Esta podra ser determinada en una distribucin abierta en los extremos, o en una en la cual los datos pueden ser seleccionados pero no medidos cuantitativamente. Es muy til en distribuciones muy sesgadas, o en aquellas en las cuales otras medidas de dispersin serian deformadas por valores extremos.

Desafortunadamente, es muy En comparacin con los dems, esta difcil de manejar algebraicamente, dado que el es mas difcil de calcular y de entender. signo negativo debe ser ignorado cuando se calcula. Su aplicacin principal es la precisa eleccin de modelos en tcnicas de predicciones comparativas. Es normalmente afectada por valores extremos, los cuales podran ocasionar el sesgamiento de los datos.

Coeficiente de variacin Es un ndice que puede servir para la comparacin entre poblaciones en que se miden distintas caractersticas. Dada un conjunto de observaciones x1, x2, ..., xn se define el coeficiente de variacin, CV, como

CV =

S *100% x

Segn esta definicin, es claro que no tiene sentido para observaciones cuya media es nula. El CV es independiente de las unidades de medida. En la estimacin de un parmetro, cuando su CV es menos del 10%, la estimacin se asume aceptable. Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos por CVy al coeficiente de variacin de las y1, y2, ... yn, entonces Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos por CVy al coeficiente de variacin de las y1, y2, ... yn, entonces

38

Adems, y como es de prever, es invariante bajo cambio de escala, es decir si yi = a xi entonces CVy = CVx. En efecto, viene del hecho de que Sy = a Sx y de que y = a x En definitiva, si tenemos dos tipos de observaciones diferentes, esto es que miden dos atributos X e Y diferentes, entonces con el clculo de los coeficientes de variacin respectivos podemos tener una medida de que tipo de atributo est ms disperso (en torno de la media) en comparacin con el otro atributo. Esto es si CVx < CVy entonces los datos relativos al atributo Y estn ms dispersos que los datos del atributo X. Generalmente el coeficiente de variacin nos sirve para comparar la variacin de dos o ms conjuntos de datos Ejemplo 13.- Determinar las medidas de dispersin del ejemplo 4, ingresos de los ejecutivos para datos sin agrupar y agrupados.
Tabla 11. Medidas de dispersin Medidas de dispersin Datos no agrupados 58 Rango o recorrido 12,2783 Desviacin media 217,0475 Varianza 14,7325 Desviacin estndar

Datos agrupados 90 12,4056 226,9722 15,0656

39

Asimetra y apuntamiento Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el anlisis de la variable. En primer lugar, se estudia si la distribucin de los datos es la simetra. Un conjunto de datos que no se distribuye simtricamente, se llama asimtrico. La asimetra puede verse en el diagrama de tallo y hoja o en el histograma. Tambin puede verse a travs de la posicin relativa entre la media y la mediana. Estadsticos de asimetra Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto a qu. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para, de forma natural, decir que una distribucin de frecuencias es simtrica si el lado derecho de la grfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo.

Distribucin Sim trica


7 6 5 4 3 2 1 0 1 2 3 4 5 6 7

Dentro de los tipos de asimetra, vamos a destacar los dos fundamentales: Asimetra positiva Si las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras que en derecho hay frecuencias ms pequeas (cola)
Distribucin Asim trica Positiva 12 10 8 6 4 2 0 1 2 3 4 5 6 7

40

Asimetra negativa Si las frecuencias ms altas se encuentran en el lado derecho de la media, mientras que en el izquierdo hay frecuencias ms pequeas (cola)
Distribucin Asim trica Negativa
12 10 8 6 4 2 0 1 2 3 4 5 6 7

Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observando cuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias ms altas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra, a los que llamaremos ndices de asimetra, y que denotaremos mediante As.

AS =

M S

M p = i =1
donde
n

( xi x )

n
p

3 X

M p = i =1

( xi x ) ni

es denominado el psimo momento central (alrededor de la media) y


3 S X = ( V ( X ) )3

Apoyndonos en este ndice, diremos que hay asimetra positiva si As > 0 , y que la asimetra es negativa si

As < 0 y si As = 0

la distribucin es simtrica.

En las distribuciones sesgadas negativamente siempre la media est a la izquierda de la mediana y la moda a la derecha de ella. En las distribuciones sesgadas positivamente la moda est a la izquierda de la mediana y la media a la derecha de la mediana.

41

Curva bimodal (simtrica o asimtrica por estratos):


0.5 0.4 0.3 0.2 0.1 0 -3 2

Estadsticos de apuntamiento Uno de los coeficientes que nos indica el apuntamiento de una distribucin de frecuencia es el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por:

K=

M4
2 M2

De este modo, las distribuciones de frecuencias se clasifican en: 1) Leptocrtica: cuando, K>0, o sea, si la distribucin de frecuencias es ms apuntada que la normal: 2) Mesocrtica: cuando K=0, es decir, cuando la distribucin de frecuencias es tan apuntada como lo normal; 3) Platicrtica: cuando K<0, o sea, si la distribucin de frecuencias es menos apuntada que la normal

Ejemplo 14.- Las medidas descriptivas del ejemplo 3, ingreso de los ejecutivos para los datos no agrupados son: (obtenidos utilizando Excel)

42

Medidas descriptivas de la variable Ingreso de los Ejecutivos

Media Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra

62,05 65 69 14,8569 220,7263 -0,727577 -0,451824

Rango Mnimo Mximo Suma Cuenta

58 31 89 3723 60

Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con una desviacin estndar de US$ 14857. El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen un ingreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor. El ingreso mas frecuente es de US$ 69000. Como el valor de la curtosis es menor que 3 la curva es leptocrtica. El coeficiente de asimetra es negativo la curva o histograma es asimtrico a izquerda lo que significa que hay una mayor variacin de los ingresos en los entre los ejecutivos de menor ingreso.

43

Cmo Construir un BoxPlot Un BoxPlot es un grfico que tiene muchas caractersticas. Incluye la presencia de posibles outliers. Muestra el rango de los datos. Muestra una medida de dispersin tal como el cuartl superior, cuartl inferior y los rangos intercuartiles (RIC) de un conjunto de datos, as como tambin a la mediana como medida central ubicacin, el cual es til para comparar grupos de datos. Tambin indica acerca de la simetra o de la asimetra de la distribucin. La razn principal de utilizar los boxplots es porque ofrecen mucha informacin de una manera compacta. Pasos para Construir un Boxplot 1.- Calcular los 3 cuartiles (Q1, Q2, y Q3). La porcin central de la distribucin que se encuentre entre Q1 y Q3 se representa por una caja (no interesa el ancho de ella). Dentro de esta caja se ubica el valor de la mediana (Q2). 2.- Calcular el recorrido intercuartlico (Q). 3.- Calcular las barreras internas BI1 y BI2 en la forma: BI1 = Q1 1.5 Q BI2 = Q3 + 1.5 Q 4.- Calcular las barreras externas BE1 y BE2 en la forma: BE1 = Q1 3 Q BE2 = Q3 + 3 Q 5.- Identifique los puntos adyacentes Se llaman puntos adyacentes al mnimo y mximo dato que se encuentran dentro de las barreras internas. Desde los extremos de la caja se trazan lneas hasta los respectivos valores adyacentes. A estas lneas se les llama antenas o bigotes. 6.- Identificar los puntos atpicos y extremos: Se llaman puntos atpicos o outliers a aquellos datos que se encuentran fuera de las barreras internas y dentro de las barreras externas. Se llaman puntos extremos a aquellos puntos ubicados fuera de las barreras externas. Un punto atpico o extremo puede deberse, por ejemplo, a una mala lectura, mal registro, causa fortuita, etc. Este tipo de datos no puede eliminarse inmediatamente sin un anlisis preliminar de las causas que lo originan. A travs de un grfico caja podemos identificar el tipo de asimetra de una distribucin de frecuencias unimodal de la siguiente manera: i) Si la posicin de la mediana se encuentra en la mitad de la caja y las antenas tiene la misma longitud, la distribucin es simtrica.

44

ii) iii)

Sil a posicin de la mediana se encuentra ubicada ms cerca del primer cuartil y la antena superior es de mayor longitud que la antena inferior, la distribucin presenta sesgo positivo. Si la posicin de la mediana se encuentra ubicada ms cerca del tercer cuartil y la antena superior es de menor longitud que la antena inferior, la distribucin presenta sesgo negativo.

Ejemplo 15.- El grfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:
Box Plot Ingresos Ejecutivos 110 100 90 80 70 60 50 40 30 20 Ingreso Ejecutivos
Mediana= 65 Q1 = 51 Q3 = 74 No hay puntos outlier

45

También podría gustarte