Está en la página 1de 45

Introducción

La idea original de la "estadística" era la recolección de información sobre y para el


"estado". La palabra estadística se deriva directamente, no de raíces griegas o latinas
clásica, sino de la palabra italiana estado.
El nacimiento de la estadística se ubica a mediados del siglo XVII. Un ciudadano común
llamado Juan Graunt, nacido en Londres, comenzó a revisar la publicación semanal de la
iglesia, la cual era distribuida en la parroquia local y que listaba el número de
nacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad también
enumeraban las causas de las muertes. Graunt que era comerciante organizó estos
datos en la forma que hoy llamamos estadística descriptiva, la cual fue publicada como
Observaciones Naturales y Políticas hechas sobre la tasa de Mortalidad. Luego de la
publicación, fue elegido como miembro de la sociedad real. De esta forma, la estadística
tomo prestados algunos conceptos de la sociología, tal como el concepto de población.

El análisis exploratorio de datos utiliza técnicas gráficas y numéricas para estudiar


patrones de conducta y el origen de los mismos. Las técnicas de estadística descriptiva
normalmente usadas son: Distribución de frecuencia; Histogramas, Boxplot, Gráficos de
Dispersión, diagramas de barras y errores, diagramas de diagnóstico.

Cuando se examina la distribución de los datos, se debe detectar algunas características


importantes, tales como forma, ubicación, variabilidad, y valores inusuales. Mediante una
cuidadosa observación de los patrones en los datos, se puede generar conjeturas acerca
las relaciones entre variables. La noción de cómo una variable puede estar asociada a
otra esta inmersa en casi todo el análisis estadístico, lo que se puede realizar por
ejemplo, mediante el análisis regresión lineal.

Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que la
información es válida para los objetivos planteados. El plan debe identificar las variables
importantes que estén relacionadas con los objetivos, y especificar cómo estas van a ser
medidas.

Los datos son conocidos como información cruda y no como conocimientos en sí. La
secuencia que va desde los datos hasta el conocimiento aparece en la figura siguiente.
Los datos se convierten en información, cuando se hacen relevantes para la toma de
decisión de un problema. La información se convierte en hecho, cuando es respaldada
por los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimiento
instrumental es expresado junto con un cierto grado estadístico de confianza .

1
La figura anterior representa el hecho que a medida que la exactitud de un modelo
estadístico aumenta, el nivel de mejoramiento en la toma de decisión aumenta. Esta es la
razón del por que necesitamos la estadística. La estadística se creo por la necesidad de
poner conocimiento en una base sistemática de la evidencia. Esto requirió un estudio de
las leyes de la probabilidad, del desarrollo de las propiedades de medición, relación de
datos.

La inferencia estadística intenta determinar si alguna significancia estadística puede ser


adjudicada, luego que se permita una variación aleatoria como fuente de error. Una
inteligente y crítica inferencia no puede ser hecha por aquellos que no entiendan el
propósito, las condiciones, y la aplicabilidad de las de diversas técnicas para juzgar el
significado.

2
Análisis Exploratorio de Datos
La finalidad del Análisis Exploratorio de Datos (AED) o Estadística Descriptiva es
examinar los datos previamente a la aplicación de cualquier técnica estadística. De esta
forma el analista consigue un entendimiento básico de los datos y de las relaciones
existentes entre las variables analizadas.

El Análisis Exploratorio de Datos proporciona métodos sencillos para organizar y


preparar los datos, detectar fallas en el diseño y recogida de datos, tratamiento y
evaluación de datos ausentes, identificación de casos atípicos y comprobación de los
supuestos subyacentes en la mayor parte de las técnicas multivariantes.

En este curso se va a dar una breve visión general de dicho conjunto de técnicas
exponiendo, brevemente, cuál es su finalidad, ilustrada con ejemplos.

Las preguntas más frecuentes cuando tenemos un conjunto de datos son:


¿Existe algún tipo de estructura (normalidad, multimodalidad, asimetría, curtosis,
linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que se van
a analizar?
¿Existe algún sesgo en los datos recogidos?
¿Hay errores en la codificación de los datos?
¿Cómo se sintetiza y presenta la información contenida en un conjunto de datos?
¿Existen datos atípicos (outliers)? ¿Cuáles son? ¿Cómo tratarlos?
¿Hay datos ausentes (missing)? ¿Tienen algún patrón sistemático? ¿Cómo tratarlos?

Los objetivos de este curso son:


1) Definir qué es el Análisis Exploratorio de Datos (A.E.D.) y cuáles son sus objetivos.
2) Indicar cuáles son las etapas a seguir en la realización de un A.E.D.
3) Seleccionar los métodos gráfico y numérico apropiados para examinar las
características de los datos y/o relaciones de interés.
4) Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad,
homocedasticidad).
5) Identificar casos atípicos univariantes.
6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.

¿Qué es el análisis exploratorio de datos?


El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas cuya
finalidad es conseguir un entendimiento básico de los datos y de las relaciones
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D.
proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar
fallos en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes
(missing), identificación de casos atípicos (outliers) y comprobación de los supuestos
subyacentes en la mayor parte de las técnicas multivariantes (normalidad,
homocedasticidad).

El examen previo de los datos es un paso necesario, que lleva tiempo, y que
habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en
dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero
son una parte esencial de cualquier análisis estadístico.

3
Etapas del Análisis Exploratorio de Datos
Para realizar un A.E.D. conviene seguir las siguientes etapas:
1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.
2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y
un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de
los datos.
3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un
análisis descriptivo numérico que cuantifique el grado de interrelación existente entre
ellas.
4) Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas
técnicas estadísticas como, por ejemplo, la normalidad, linealidad y
homocedasticidad.
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que
puedan ejercer en análisis estadísticos posteriores.
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.

Preparación de los datos


El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística.
Ello conlleva la selección del método de entrada (por teclado o importados de un archivo)
y codificación de los datos así como la de un paquete estadístico adecuado para
procesarlos.

Los paquetes estadísticos son conjuntos de programas que implementan diversas


técnicas estadísticas en un entorno común. Algunos de los más utilizados son SAS,
BMDP, SPSS, SYSTAT, STATISTICA, STATA, MINITAB, S-PLUS, EVIEWS,
STATGRAPHICS, MATLAB, R y la planilla Excel. (estos dos últimos los usaremos en
este curso).

La codificación de los datos depende del tipo de variable. Los paquetes estadísticos
existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena,
numéricos, nominales, ordinales, etc).

La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los


datos previas a un análisis de los mismos. Algunas operaciones útiles son las siguientes:

- Combinar conjuntos de datos de dos archivos distintos


- Seleccionar subconjuntos de los datos
- Dividir el archivo de los datos en varias partes
- Transformar variables
- Ordenar casos
- Agregar nuevos datos y/o variables
- Eliminar datos y/o variables
- Guardar datos y/o resultados

Finalmente, y con el fin de aumentar la utilidad de los datos almacenados, conviene


asociar a la base de datos utilizada, un libro de códigos en el que se detallen los

4
nombres de las variables utilizadas, su tipo y su rango de valores, su significado así
como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente
citados permiten esta posibilidad.

Análisis estadístico unidimensional


Una vez organizados los datos, el paso siguiente consiste en realizar un análisis
estadístico gráfico y numérico de las variables del problema con el fin de tener una idea
inicial de la información contenida en el conjunto de datos, así como también detectar la
existencia de posibles errores en la codificación de los mismos.

Para iniciar el estudio del análisis estadístico se definen algunos conceptos propios de la
terminología de la Estadística Descriptiva o análisis exploratorio de datos.
Población: es el universo de objetos al cual se refiere el estudio que se pretende
realizar. Es decir, es el conjunto de todos los elementos de interés para un determinado
problema. Por ejemplo, todas las piezas terminadas en una cadena de montaje, los
nacidos en un día determinado, los coches de una determinada marca, etc. A los
elementos que conforman la población se les llama unidad observable o unidad de
observación.

Población finita: cuando el número de elementos que la forman es finito, por ejemplo el
número de alumnos de su colegio, o de su curso.

Población infinita: cuando el número de elementos que la forman es infinito, o tan


grande que pudiese considerarse infinita. Como por ejemplo si se realiza un estudio sobre
los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población
podría considerarse infinita.

Observación o dato: a cualquier valor cualitativo o cuantitativo asociado a una variable

Variable: es cualquier característica objeto de estudio en la población. Se les llama


variables, ya que pueden variar de un individuo a otro. Por ejemplo, el grosor de una
pieza, peso al nacer, consumo de gasolina, partido al que va a votar un individuo, etc.

Muestra: Un subconjunto de una población o universo que se selecciona para ser


estudiada ya que la población es demasiado grande como para analizarla en su totalidad.

Es importante que el investigador defina total y cuidadosamente a la población antes de


recolectar la muestra, incluyendo una descripción de los elementos.

Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa que
son estudiadas por un investigador; son los objetos básicos sobre los cuales se ejecuta el
estudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote de
semillas.

Una medida descriptiva relacionada, cuando consideramos toda la población, se


denomina parámetro. Los parámetros generalmente se designan por letras griegas. Uno
de los parámetros mas utilizado es el promedio o media aritmética y la desviación
estándar designados por µ , σ 2 respectivamente.

5
Una medida descriptiva relacionada con una muestra, se denomina estadístico. Los
estadísticos tienen dos fines. Describen la muestra que está disponible y sirven como
aproximación a los parámetros correspondientes de la población.

POBLACION MUESTRA

PARAMETROS
ESTADISTICOS

Ejemplo: Suponga que el gerente de una tienda desea saber el valor de µ, el gasto
promedio por cliente de su tienda durante el año pasado. El puede calcular el gasto
promedio de los miles de clientes que compraron en su tienda durante el año pasado; es
decir, la media poblacional µ. En lugar de esto, el podría utilizar una estimación de la
media poblacional calculando la media de una muestra aleatoria de clientes. Si se
encontrara que el valor fuera de $50000, estos $50000 serían su estimación.

Variables Cualitativas y Cuantitativas


El tipo de análisis a realizar depende del tipo, y la escala de medida de la variable a
analizar.

Si se observa una sola característica a cada unidad observable, entonces la variable se


denomina unidimensional. Si se observan simultáneamente dos características a cada
unidad observable, entonces la variable se denomina bidimensional o bivariada, y así
sucesivamente.

Se distinguen dos tipos de variables: cualitativa y cuantitativa.

Variables Cualitativas
Una variable cualitativa es aquella cuyos valores corresponden a conceptos, categorías
atributos o cualidades como, por ejemplo, el sexo, la profesión de una persona, nivel de
estudio, estado civil, etc.

Si en dichas categorías hay un orden subyacente se denomina variable ordinal, si no se


denomina variable nominal.

Las variables nominales son aquellas que los valores se registran dentro de categorías o
clases, donde no tiene sentido el orden.

Se dice que las variables nominales que toman o pueden tomar uno de dos valores
distintos – como hombre o mujer – son dicotómicos o binarios

6
Los datos o elementos de una variable cualitativa se agrupan en forma natural en
diferentes categorías o clases y se cuenta el número de datos que aparecen en cada una
de ellas, lo que se denomina tabla de frecuencias.

Consideremos el siguiente ejemplo con la variable nominal estado civil

Ejemplo 1.- Suponga que se extrae una muestra de 300 clientes de un supermercado y
se les consulta por el estado civil de ellos. La tabla 1 muestra el conjunto de datos
obtenidos de esta variable.

Tabla 1.
Estado Civil
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
2 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
3 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
4 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
5 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
6 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
7 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
8 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
9 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
10 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
11 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
12 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
17 Soltero Viudo Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Soltero Casado Casado
18 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
19 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
20 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado

Para comprender y resumir estos datos, es útil presentarlos en una tabla o gráficos en la que
aparezca los valores posibles de la variable, llamados clases ( ci ) y el número de veces que cada
valor se repite. A ese número se le denomina frecuencia absoluta (ni) o simplemente
frecuencia. La tabla se denomina tabla de frecuencias.

La suma de las frecuencias absolutas es siempre igual a n, siendo n el número total de casos,

k
n = ∑ ni
i =1
donde k es el número de clases.

7
La frecuencia relativa ( fi ) Expresa los resultados en proporciones.

ni
fi =
n
k
se cumple ∑ f i = 1
i =1

Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia


absoluta de la clase y el número total de observaciones n.

ni
hi = *100 = f i *100%
n
k
Se cumple que ∑ hi = 100
i =1

Tabla 1.1 Tabla de frecuencia variable Estado Civil

Contar de Estado civil


Estado civil Total
Casado 305
Separado 4
Soltero 77
Viudo 16
Total general 402

E s ta d o C iv il
300
250
200
frecuencia absoluta

150
100
50
0

C a sa d o S e p a ra d o S o lte ro V iud o

C a te g o ría s

Figura 1.1 Grafico de barra de la variable Estado Civil


(Entregado por defecto por el software).

8
Gráfico circular.

Para el gráfico circular se utiliza la sentencia: “pie” nombre de la tabla de frecuencia

igura 1.2 Grafico Circular de la variable Estado Civil


(Entregado por defecto por el software).

Ejemplo 2.- Suponga que la distribución de frecuencia del Nivel de Estudio (variable
cualitativa ordinal) de cierta ciudad en un determinado año es:

Nivel de estudios
Enseñanza media incompleta Sin estudio Enseñanza media incompleta
Sin estudio Estudios basicos Enseñanza media incompleta
Enseñanza media completa Sin estudio Enseñanza media incompleta
Enseñanza superior completa Sin estudio Enseñanza superior completa
Enseñanza superior completa Sin estudio Enseñanza media incompleta
Enseñanza superior completa Estudios basicos Enseñanza media incompleta
Sin estudio Sin estudio Estudios basicos
Enseñanza media incompleta Estudios basicos Enseñanza superior completa
Enseñanza superior completa Enseñanza media incompleta Enseñanza superior incompleta
Enseñanza superior incompleta Enseñanza media completa Enseñanza superior completa
Sin estudio Enseñanza media incompleta Sin estudio
Estudios basicos Enseñanza media completa Estudios basicos
Sin estudio Enseñanza media incompleta Estudios basicos
Enseñanza media incompleta Enseñanza superior completa Enseñanza superior completa
Sin estudio Enseñanza superior completa Enseñanza superior incompleta
Enseñanza superior incompleta Enseñanza media incompleta Enseñanza media incompleta
Enseñanza superior incompleta Estudios basicos

Para resumir los datos ordinales, es útil presentarlos en una tabla o gráficos similares a los
obtenidos para las variables nominales. Los gráficos utilizados en este caso son los de barra y
circulares. Las tablas de resumen o de frecuencias además, de la frecuencia absoluta y relativa
tiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentual
acumulada.

La Frecuencia acumulada Ni es el número de elementos de la población o muestra


cuya modalidad es inferior o equivalente a la modalidad ci, es decir es la suma de las
frecuencias absolutas de la clase ci y las anteriores a ella,

i
N i = ∑ n j = N i −1 + ni
j =1

La frecuencia relativa porcentual ( Hi ) define el porcentaje de individuos menores o


iguales a la clase i-ésima
Ni
Hi = * 100
n

9
Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia
absoluta de la clase y el número total de observaciones n.

La tabla de frecuencia resultante es:

Tabla 1.2 Variable Nivel de Estudio


Nivel de estudios ni hi Ni Hi
Sin estudio 11 22% 11 22%
Estudios basicos 8 16% 19 38%
Enseñanza media incompleta 13 26% 32 64%
Enseñanza media completa 3 6% 35 70%
Enseñanza superior incompleta 5 10% 40 80%
Enseñanza superior completa 10 20% 50 100%
Total general 50 100%

Por ejemplo, la tercera clase dice que existen 13 personas con enseñanza media
incompleta, que corresponde al 26% del total, que 32 personas tienen a lo más
enseñanza media incompleta, o bien el 64% de las 50 personas tienen enseñanza media
O bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sin
estudio hasta estudios superiores completos se utiliza [c(se escriben los número que
corresponden al orden alfabético separados por comas)]

N iv e l d e E s tu d io s Nivel de Estudios
12

Enseñanza media incompleta


10
frecuencia absoluta

anza superior completa


8

Enseñanza med
6
4
2

za superior incompleta

Sin estudio
0

s in e s t e s tb a s e ns m e d c o m e ns s up c o m
Estudios basicos
C la s e s

Figura 1.3 Gráfico de barra y circular de la variable


Estado Civil

10
Variables Cuantitativas
Variables cuantitativas son aquellas que se pueden expresar numéricamente, es decir,
pueden tomar valores reales.

Una primera clasificación, basada en el tipo de valores que puede tomar, permite
distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto de
valores que puede asumir la variable se puede enumerar. Este conjunto puede ser finito
o infinito, por ejemplo, el número de paneles producidos en un día. – y variables
cuantitativas continuas que son aquellas que pueden asumir cualquier valor en algún
intervalo real, por ejemplo, la temperatura aplicada en el proceso de producción de los
paneles.

Las variables cuantitativas discretas con un número de valores que se repite, se


tratan de forma similar a las variables cualitativas ordinales. La diferencia es que en estos
casos se puede realizar un análisis descriptivo numérico, el cual permite describir
diferentes características del conjunto de datos.

Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a las
variables ordinales.

Ejemplo 3.- El número de personas que viven en la casa de una muestra de 50 familias
son:

Tabla 1.3 Tabla de datos del Nº de personas que viven en la casa


Nº de Nº de Nº de Nº de Nº de
Corr. personas Corr. personas Corr. personas Corr. personas Corr. personas
1 1 11 4 21 6 31 4 41 3
2 2 12 6 22 5 32 2 42 1
3 1 13 5 23 2 33 1 43 2
4 3 14 4 24 2 34 3 44 5
5 4 15 2 25 2 35 4 45 6
6 5 16 2 26 1 36 5 46 4
7 2 17 3 27 3 37 2 47 3
8 1 18 3 28 2 38 2 48 2
9 3 19 1 29 5 39 1 49 1
10 5 20 1 30 6 40 2 50 3

Cuando el conjunto de datos discretos es pequeño se puede construir tablas de


frecuencia donde cada clase es uno de sus valores numéricos.

La construcción de la tabla de frecuencia y los gráficos de barra y circular para este tipo
de datos es similar a la de las variables cualitativas ordinales.

11
Tabla 1.4.Tabla de frecuencias del Nº de personas que viven en casa
Nº de
Personas ni fi hi Ni Hi
1 10 0.20 20 10 20
2 14 0.28 28 24 48
3 9 0.18 18 33 66
4 6 0.12 12 39 78
5 7 0.14 14 46 92
6 4 0.08 8 50 100

Nº de personas que viven en una casa


14
12
10
frecuencia absoluta

8
6
4
2
0

1 2 3 4 5 6

Clases

Figura 1.4. Gráfico de Barra Nº de personas que viven en casa

Se observa que en el 28% de las casas de los encuestados viven dos personas y que
solo en un 8% de las casas viven 6 personas. (El análisis numérico lo veremos más
adelante).

Nº de personas que viven en una casa

6
3

5
4

Figura 1.5. Gráfico de Barra Nº de personas que viven en casa

Las variables cuantitativas continuas generalmente se miden por escala de intervalo o


por escala de razón. La escala de intervalo, además de todas las propiedades de la

12
escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones.
Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicación en
una carretera respecto de un punto de referencia (Kilómetro 85 Ruta 5). Sobrepeso
respecto de un patrón de comparación. Nivel de aceite en el motor de un automóvil
medido con una vara graduada.

La escala de razón permite, además de lo de las otras escalas, comparar mediciones


mediante un cuociente. Ejemplos de variables con la escala de razón son: Altura de
personas. Cantidad de litros de agua consumido por una persona en un día. Velocidad
de un auto en la carretera.

La escala de intervalo tiene un cero que se establece por convención y puede tener
variaciones. Es arbitrario. Por otra parte, la escala de razón tiene un cero real, fijo, no
sujeto a variaciones; es propio de la medición hecha.

Tablas estadísticas o tablas de frecuencias


Distribución de frecuencias
Si la variable analizada es continua o discreta con un elevado número de valores
distintos se tabula como una distribución de frecuencias agrupadas y se representa
gráficamente mediante histogramas, polígonos de frecuencias, ojivas y boxplots con el fin
de estudiar la forma de la distribución y analizar, en particular, la posible existencia de
varias modas en la misma que pongan de manifiesto la presencia de diversos grupos
homogéneos en la muestra.

Cuando el tamaño de la muestra y el recorrido de la variable son grandes, será necesario


agrupar en intervalos los valores de la variable. La tabla de frecuencia o distribución de
frecuencia ordena los datos y estos se dividen en clases o intervalos de clases
mutuamente excluyentes (sin elementos comunes) y se registra el número de
observaciones en cada clase.

Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos


queremos?

Observación
No existen criterios óptimos para elegir la cantidad de intervalos. En general, entre 5 y 15
intervalos deberían ser suficientes. Utilizar muchos o muy pocos intervalos puede ser
poco informativo. Pero se pueden seguir las siguientes reglas:

Algunas regla para agrupar los datos en intervalos o categorías


1. Decidir el número de intervalos o categorías o clases, que puede ser el número
deseado de clases o si n es el número de observaciones se puede utilizar como
referencia:

k≈ n , si n no es grande
k ≈ 1 + 3.22log(n), en otro caso
2. Localizar la observación mayor y menor, es decir el valor máximo y el valor mínimo de
las observaciones.

13
3. Hallar la diferencia entre estos dos valores (restar máximo menos el mínimo). Esta
diferencia se denomina rango o recorrido de los datos.

r = x máx − x mín

4. Hallar la amplitud de la clase o del intervalo de clase ai se define por:

xmáx − xmín
a=
k
Así la división en clases o intervalos podría tomarse: l0 =xmín , l1 =l0 + a,…,
lk = l0 + ka.

5. Hallar la marca de clase de cada intervalo. Se define por

li + li − 1
xi =
2
Distintos tipos de frecuencias
Cuando se resume la información en una tabla a cada valor de la variable se le asocian
determinados números que representan el número de veces que ha aparecido, su
proporción con respecto a otros valores de la variable, etc. Estos números se denominan
frecuencias: Así tenemos los siguientes tipos de frecuencia:

Frecuencia absoluta de la clase ci es el número de elementos en la población o


k
muestra perteneciente a la clase ci, se designa por ni. Se cumple que ∑n
i =1
i = n.

Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia


absoluta de la clase y el número total de observaciones n.

ni
hi = *100
n
k
Se cumple que ∑ hi = 100
i =1

Frecuencia acumulada Ni al número de elementos de la población o muestra


cuya modalidad es inferior o equivalente a la modalidad ci, es decir es la sume de
las frecuencias absolutas de la clase ci y las anteriores a ella,

i
Ni = ∑ n j
j =1

También se puede determinar la frecuencia relativa acumulada porcentual.

14
Se llama distribución de frecuencias al conjunto de intervalos o clases junto a las
frecuencias correspondientes a cada una de ellas. Una tabla estadística o tabla de
frecuencias sirve para presentar en forma ordenada los datos.
Su forma general es:

Tabla 1.5 Tabla de frecuencias o Distribución de Frecuencias


Modalidad Intervalos Frec. Frec. Rel. Frec. Abs. Acumu. Marca de
o clases de clases Abs. Porcentual clases
ci ni hi Ni xi
c1 l0 – l1 n1 f1= n1/n*100 N1=n1 x1
… …
cj lj-1 -- lj nj fj=nj/n*100 Nj=n1+n2+…+nj xj

ck lk-1 -- lk nk fk=nk/n*100 Nk=n xk
n 100%

Ejemplo 4.- Los siguientes datos son los ingresos anuales de 60 ejecutivos de
empresas en Estados Unidos. Los datos están expresados en miles de dólares.

Datos ingreso anuales de 60 ejecutivos


58 76 89 45 67 34
64 76 34 65 45 39
79 74 56 71 85 87
74 38 69 79 61 71
69 62 56 38 69 79
71 54 31 69 62 39
65 79 47 46 77 66
55 75 62 57 77 36
73 72 64 69 51 50
40 50 74 61 69 73

Para construir la tabla de frecuencia en Excel se determina primero el número de clases.


Suponga que se van a construir k = 7 clases o categorías, luego
xmáx − xmín 89 − 31
a= = = 8,28 , la amplitud es de por lo menos 8,28 por ser más fácil
k 7
hacemos a = 10 y el límite superior de la primera clase li+1 = 34. Completando la Tabla de
frecuencia se obtiene:

Tabla 1.4 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos


Clases Intervalos ni fi hi Ni Hi xi
1 (24 , 34] 3 0,05 5,00 3 5,00 29
2 (34 , 44] 6 0,10 10,00 9 15,00 39
3 (44 , 54] 8 0,13 13,33 17 28,33 49
4 (54 , 64] 12 0,20 20,00 29 48,33 59
5 (64 , 74] 19 0,32 31,67 48 80,00 69
6 (74 , 84] 9 0,15 15,00 57 95,00 79
7 (84 , 94] 3 0,05 5,00 60 100,00 89
60 1 100

15
Representación gráfica para variables discretas y continuas
Un gráfico estadístico es una representación pictórica que permite dar un resumen visual
de la información, y se utiliza para detectar tendencias, agrupación de datos en torno a
un valor central, variaciones cíclicas, estaciónales, etc.

Gráfico de tallo y hojas


Un método gráfico para iniciar el análisis exploratorio de datos, y que además
proporciona información visual rápida, es la representación gráfica de tallo y hoja.
Entrega una primera aproximación rápida de la distribución de los datos sin perder de
vista las observaciones.

Un diagrama de tallo y hoja consiste en una serie de hileras horizontales de números. El


número utilizado para designar una hilera es su tallo, el resto de los números de la hilera
se denominan hojas.

Ejemplo 5.- La siguiente tabla muestra los datos de la fuerza de compresión de 45


muestras de aleación de aluminio-litio.

Tabla 1.5
Datos de la fuerza de compresión
96 93 88 117 127 95 113 96
108 94 148 156 139 142 94 107
125 155 155 103 112 127 117 120
112 135 132 111 125 104 106 139
134 119 97 89 118 136 125 143
120 103 113 124 138

a) Se separa cada observación en dos partes: tallo y hoja.


b) Se lista en forma vertical y creciente los tallos y agregamos las hojas a la
derecha del tallo.
c) Generalmente las hojas es la unidad del número y el tallo es la decena, centena,
etc.
d) Se separa esos dígitos de los restantes, que constituirán los tallos.

8 | 89
9 | 3445667
10 | 334678
11 | 122337789
12 | 00455577
13 | 2456899
14 | 238
15 | 556

¿Qué podemos ver en este diagrama?


• Rango de las observaciones, valores máximo y mínimo.
• Forma de la distribución: simetría, asimetría a la izquierda, asimetría a derecha y
cuantas modas tiene la distribución.

16
• Posición del centro de la distribución y concentración de los datos.
• Desviaciones marcadas respecto al comportamiento general: outlier o valores
atípicos.

Los gráficos de tallo y hoja también son útiles para comparar la distribución de una
variable en dos condiciones o grupos. El gráfico se denomina gráfico de tallo y hojas con
espalda porque ambos grupos comparten los tallos.

Ejemplo 6.- Consideremos la longitud en centímetros de 20 partes consecutivas de una


línea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una línea de
ensamble del proceso 2.

Tabla 1.6
Datos de longitud de 20 partes.
PROC1 19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000
PROC2 19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001

PROC1 20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011
PROC2 20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011

1996 9
1997 5
9 1998 445
644 1999 2478
9877531110000 2000 112444788
100 2001 1

En este caso vemos que el segundo proceso es menos variable que el primero que la
longitud máxima para ambos proceso es 20.011 y longitud mínimo para el proceso 1 es
19.969 y para el proceso 2 es 19.989.

Aunque en las tablas se puede mostrar gran cantidad de información estadística, a


veces es conveniente presentar esta información de una manera más clara y efectiva por
medio de gráficos. Existen varios tipos de gráficos o representaciones gráficas
utilizándose cada uno de ellos de acuerdo al tipo de información que se está utilizando y
los objetivos que se persiguen al presentar la información

Los gráficos utilizados en variables cuantitativas discretas o continuas con un gran


número de datos que se encuentran en una distribución de frecuencias son el
histograma y el polígono de frecuencias.

Un histograma se construye en el plano cartesiano. En el eje de las abscisas se coloca


los límites de cada intervalo y en el eje de las ordenadas las frecuencias de clase
(absoluta, relativas o relativas porcentuales), representando sobre cada intervalo un
rectángulo que tiene a este segmento como base y como altura la frecuencia de cada
clase.

Las características geométricas del histograma nos permiten descubrir información útil
sobre los datos, por ejemplo:

17
1. La localización del “centro” de los datos.
2. El grado de dispersión.
3. El lado al cual se sesga, es decir, cuando no cae simétricamente en ambos lados
del máximo.
4. El grado de agudeza del máximo.

Sueldo ejecutivos

15
10
ni

5
0

30 40 50 60 70 80 90

Sueldo

Figura 1.6. Histograma de los ingresos de los ejecutivos

El polígono de frecuencias es un gráfico de línea cerrado, en el eje de las abscisas va


las marcas de clase y en el eje de las ordenadas alguna de las frecuencias (absoluta,
relativas o relativas porcentuales) los puntos correspondientes a estos pares se unen
mediante rectas. La marca de clase del primer y último intervalo se une con la marca de
clase anterior y siguiente, respectivamente.

Polígono de Frecuencias Sueldo Ejecutivos


15
10
ni

5
0

20 40 60 80 100

xi

Figura 1.7. Polígono de frecuencia de los ingresos de los ejecutivos

18
La Ojiva es un gráfico de línea, en el eje de las abscisas van lo límites superiores de
cada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuencia
acumulada relativa porcentual.
Ojiva Sueldos Ejecutivos

60
50
40
Ni2

30
20
10
0

20 40 60 80

limsup

Figura 1.8. Ojiva de los ingresos de los ejecutivos

Gráfico de tiempo Cuando los datos de una variable están tomados a través de tiempo,
puede ser de gran interés el gráfico de los datos a través del tiempo o el orden en que
los datos fueron obtenidos.

Un gráfico de tiempo llamado también gráfico de series, es un gráfico de las


observaciones a través del tiempo u orden en que fueron observados. Los puntos
consecutivos se conectan con líneas para ayudarnos a determinar si se producen
cambios en la distribución a medida que pasa el tiempo.

Ejemplo 7.- Los datos siguientes corresponden al número de estudiante que llegaron
tarde al colegio “A” durante un periodo de tres semanas.

Tabla 1.7 Datos del Nº de estudiantes que llegan tarde


Lunes Martes Miércoles Jueves Viernes
Semana 1 10 7 6 8 11
Semana 2 14 5 10 8 7
Semana 3 9 3 6 4 6

Gráfico de tiempo
N° de alumnos

15
atrasados

Semana 1
10
Semana 2
5
Semana 3
0
s

s
s
ne

te

ne
ve
ar

e
Lu

er
Ju
M

Vi

Tiempo

Figura 1.9. Gráfico de tiempo Nº de estudiantes que llegaron tarde al colegio

19
Resumen numérico de los datos
Para ampliar la información acerca de esta distribución y completar así el análisis
descriptivo de una población o muestra, es necesario recurrir a ciertos valores numéricos
que permiten cuantificar ciertas características de la distribución. Se les llama a estos
valores medidas estadísticas o estadígrafos. Las de uso frecuente en un análisis
descriptivo son las medidas de tendencia central y las medidas de dispersión.

Las medidas descriptivas numéricas que caracterizan lo mejor posible a los datos
originales o a la distribución de frecuencias mas frecuentes son:

Las medidas tendencia central de los datos;


Las medidas de dispersión o variación con respecto a este centro;

Las medidas de tendencia central permiten determinar un valor característico de una


distribución de frecuencias ubicado hacia el centro de la distribución.
Las tres medidas más usuales de tendencia central son: la media, la mediana, la moda.

La media
Llamada también promedio aritmético o simplemente media o promedio, es una de las
medidas más importantes y de mayor uso en diversas aplicaciones estadísticas. Se
denota por µ si es obtenida de la población y por x si es obtenida de una muestra y se
calcula de la siguiente manera:.
i) Para datos no agrupados sea x1, x2,...xn un conjunto de n valores, entonces

Población (tamaño N) Muestra (tamaño n)


Media o promedio aritmético Media o promedio aritmético
poblacional muestral
N n
∑ xi ∑ x i
µ= i =1
x = i=1
N n
para datos agrupados

Población (tamaño N) Muestra (tamaño n)


Media o promedio aritmético Media o promedio aritmético
poblacional muestral
N n

∑ ni xi ∑n x i i

µ = i =1 x= i =1

N n

donde xi es la marca de clases

20
Observación
1. En general, la media aritmética obtenida a partir de las marcas de clase xi, diferirá de
la media obtenida con los valores reales, xi. Es decir, habrá una pérdida de precisión
que será tanto mayor, cuanto mayor sea la diferencia entre los valores reales y las
marcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos.
2. La media aritmética es sensible a valores extremos.
3. De las observaciones x1, x2, ..., xn se tiene la siguiente propiedad elemental que
tendrá grandes consecuencias en la definición una medida de la variabilidad,

∑ ( xi − x ) = 0

n
n n n
∑ xi
En efecto ∑ ( xi − x ) = ∑ xi − ∑ x =n( i =1 ) − nx = nx − nx = 0
i =1 i =1 i =1 n

Este resultado es en cierta manera desalentador, puesto que el error o desviación de


una observación en particular respecto de la media es compensado con los demás
errores, de manera que sumando los errores de esta forma no nos entrega
información sobre la variabilidad o sobre cuan alejado están las observaciones del
promedio. De manera que si consideramos las desviaciones de la observación
respecto de la media como positivo, tendríamos una medida del error. Podemos
considerar las siguientes situaciones para medir el error,

n
∑ ( xi − x )
2
Error cuadrático
i =1
n
∑ xi − x Error cuadrático
4. i =1
máx xi − x error máximo
i =1,2 ,...n

5. El error más usual utilizado en estadística es el error cuadrático. Este error tiene
interesantes propiedades. Veremos una de ellas.

Supongamos que tenemos las observaciones x1, x2, ..., xn. Si elegimos cualquier
representante de estas observaciones, digamos a , entonces el error cuadrático será
mayor si elegimos la media como representante de estas observaciones, de otra
forma si x ≠ a

n n
∑ ( xi − x ) < ∑ ( xi − a )
2 2
Entonces
i =1 i =1

En efecto,

21
n n n
∑ ( xi − a ) = ∑ ( xi − x + x − a ) = ∑ (( xi − x ) + ( x − a ))
2 2 2
i =1 i =1 i =1
n
= ∑ (( xi − x )2 + 2( xi − x )( x − a ) + ( x − a )2 )
i =1
n n n
= ∑ ( xi − x )2 + 2( x − a ) ∑ ( xi − x )+ ∑ ( x − a )2
i =1 =1424
i1 3 i1 =14243
0 positivo

luego
n
= ∑ ( xi − x )2
i =1

Vamos a ver otra propiedad interesante de la media. Supongamos que tenemos las
siguientes observaciones x1, x2, ..., xn, por razones que más adelante veremos puede ser
altamente conveniente realizar una transformación lineal de estas observaciones, por
ejemplo hacer yi = a + b xi, entonces la media de estas nuevas variables y1, y2, ... , yn es
y = a + bx . En efecto,

1 n 1 n 1 n 1 n 1 1 n
∑ yi = ∑ ( a + bxi ) = ∑ a + b ∑ xi = na + b ∑ xi = a + bx
n i =1 n i =1 n i =1 n i =1 n n i =1

Ejemplo 8. Determinar el promedio de los sueldos de los ejecutivos para datos sin
agrupados y agrupados

Para datos sin agrupar la media es:

n
∑ xi 58 + 76 + 89 + ... + 69 + 73
i =1
x= = = 62,05
n 60

Para datos agrupados la media es:

Tabla 1.8 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos

Clases Intervalos ni Ni xi ni*xi ni*xi^2


1 (24 , 34] 3 3 29
2 (34 , 44] 6 9 39
3 (44 , 54] 8 17 49
4 (54 , 64] 12 29 59
5 (64 , 74] 19 48 69
6 (74 , 84] 9 57 79
7 (84 , 94] 3 60 89

22
Suponga que los sueldos de los gerentes generales de estas empresas es una función
lineal de los sueldos de los ejecutivos dada por yi = 230 xi + 300 determine le sueldo
promedio de los gerentes de estas empresas.

n
∑ ni x i 3 * 29 + 6 * 39 + 8 * 49 + 12 * 59 + 19 * 69 + 9 * 79 + 3 * 89
i =1
x= = = 61,8333333 3,
n 60

yi = 230 xi + 300
y = 230 x + 300 = 230 * 62,05 + 300 = 14571,5

Propiedades de la media aritmética


o Puede ser calculada en distribuciones con escala relativa y de intervalos
o .Todos los valores son incluidos en el cómputo de la media.
o Una serie de datos solo tiene una media.
o Es una medida muy útil para comparar dos o más poblaciones
o Es la única medida de tendencia central donde la suma de las desviaciones de cada
valor respecto a la media es igual a cero.
o Por lo tanto podemos considerar a la media como el punto de balance de una serie de
datos.

Desventajas de la media aritmética


o Si alguno de los valores es extremadamente grande o extremadamente pequeño, la
media no es el promedio apropiado para representar la serie de datos.
o No se puede determinar si en una distribución de frecuencias hay intervalos de clase
abiertos.

Ejemplo 9.
a)
2 La media también se define como el
1 punto de equilibrio Si la distribución es
0 simétrica, como en la figura a), la media
1 2 3 está exactamente en el centro de la
distribución
Media = 2

23
b)
2 Cuando la observación mayor se mueve
más a la derecha, como en la figura b) la
1 media tiende hacia la observación.
0
1 2 3 4 5

Media = 2,5

c)
2
Si la distribución tiene un valor
extremo, como en la figura c) la
1 media tiende hacia este valor
extremo.
0
1 2 3 4 5 6 7 8 9 10 11

Media = 4

Promedio Ponderado.
En muchas ocasiones, los datos observados no tienen la misma importancia relativa.
Para hacer presente este hecho en la búsqueda de un 'centro' que represente a los
datos, es necesario asignar a cada uno de éstos, una ponderación (peso o coeficiente)
que represente su importancia dentro de la muestra.

Por ejemplo, considérese el sistema de calificación del curso donde las pruebas tienen
distinta ponderaciones, según su importancia en el proceso de evaluación del trabajo del
alumno. En este caso, no resulta apropiado el promedio simple. Cada nota parcial debe
ser multiplicada por su coeficiente o ponderación, para luego sumar estos resultados y
dividirlos por la suma de los coeficientes respectivos.

Definición. Sean x1 ,x2 ,....,xn , n datos y w1 ,w2,....,wn, n, números reales tales que wi ≥ 0;
i=1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los datos, está
dado por:

n
∑ wi xi
w1 x1 + w2 x2 + ... + wn xn i =1
xw = = n
w1 + w2 + ... + wn ∑ wi
i =1

Si w i= k, k constante positiva, entonces x w coincide con x .

Esto equivale a decir que, si cada observación tiene la misma ponderación, entonces el
promedio y el promedio ponderado son iguales.

24
Ejemplo.
Si un alumno obtiene un 5.5 en la primera evaluación 4.9 en la segunda evaluación si la
primera evaluación corresponde a un 45% y un 55% la segunda evaluación. ¿Cuál es
nota promedio de estas dos pruebas?

0,45 * 5,5 + 0 ,55 * 4 ,9


xw = = 5,17
0,45 + 0 ,55

La media geométrica.
Como se puede observar en la gráfica 1, la función logaritmo (en este caso logaritmo
natural) "suaviza" los datos, si son muy grandes los datos los disminuye, y además los
"contrae", es decir si x1 y x2 están muy separados, no lo estarán tanto los valores
transformados ln ( x1) y ln ( x2).

De tal manera que en el manejo de datos estadísticos a veces es conveniente utilizar la


transformación tales como, y = ln (x). Supongamos que tenemos un conjunto de
observaciones x1, x2, ... , xn, luego si a cada una de estas observaciones le aplicamos
logaritmo natural tenemos que yi = ln ( xi ). Vamos a calcular la media de estas nuevas
observaciones y1, y2, ... , yn, esto es

y1 + y 2 + ... + y n ln( x1 ) + ln( x2 ) + ... + ln( xn )


y= =
n n
1
= ln( x1 x2 ...xn )
n
1
= ln( x1 x2 ...xn ) n

y = ln n ( x1 x2 ...xn )
e y = n ( x1 x2 ...xn )

25
a la expresión de la derecha se le define como la media geométrica, y se denota por

x g = n x1 x2 ...xn

Ejemplos.

1. Encontrar la media de los siguientes números 2, 4, 8. obsérvese que entre ellos existe
una razón o proporción constante, cada uno de ellos es el doble del anterior, por tanto
la media a utilizar es la media geométrica, de la siguiente manera

xg = 3 2 * 4 * 8 = 4

Respuesta: la media geométrica de los datos es 4

Un caso de aplicación del promedio geométrico, es el de cálculo de interés en un


depósito a plazo.

Suponga que una persona desea depositar $1.000.000. durante un mes a una tasa de
2%. Esto significa que al término del mes, el banco le entrega $1.020.000.Al siguiente
mes, toma el capital inicial más los intereses y los deposita por otro mes. Esta vez el
banco ofrece una tasa de 3%. Al término del segundo mes recibe $1.050.600.
Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo al
final $1.092.624. ¿A qué tasa mensual debería ponerse el capital inicial para obtener el
mismo capital final al cabo de los tres meses?

Esta pregunta quiere dilucidar cuál sería la tasa fija que el banco debiese haber aplicado
en cada uno de los tres meses en que el capital estuvo depositado (con los intereses
variables - 2%, 3%, 4% - que vimos).

El capital total finalmente obtenido, puede expresarse como:

1000000*1.02*1.03*1.04 = 1000000*1.092624

Esto significa que la tasa total aplicada es de 9.2624%

Entonces, la tasa mensual estaría dada por la raíz cúbica de 1.092624, cuyo valor es
1.029968. Es decir, se habría necesitado una tasa mensual de 2.9968%. Cantidad
levemente inferior al 3% que se obtendría si, erróneamente, se hubiese promediado 2%,
3% y 4%. Para ver claramente cómo interviene el promedio geométrico en este ejemplo,
escribamos las tasas de interés como un factor multiplicativo del capital al cual se
aplican. De este modo, las sucesivas tasas son: 1.02, 1.03, 1.04.

26
El promedio geométrico de estos números es:

x g = 3 1,02 * 1,03 * 1,04 = 1,029968

Propiedades de la media geométrica


La media geométrica esta basada en todas las observaciones, por lo que está
afectada por todos los valores de la variable. Sin embargo, da menos pesos a los
valores extremadamente grandes que el que les da la media aritmética.
La media geométrica es igual a cero si algunos de los valores es cero, y se puede
volver imaginaria si ocurren valores negativos. Con la excepción de estos dos casos,
su valor siempre es definitivo y está rígidamente definido.
La media geométrica es la que se debe utilizar cuando lo que se va a promediar son
tasas de cambios o proporciones, y se intenta dar igual peso a tasas de cambios
iguales.

La media armónica. Se denota por xa y se define como el valor inverso de la media de


los valores recíprocos de las observaciones x1, x2, ... , xn; esto es

n
xa =
1 1 1
+ + ... +
x1 x2 xn

Ejemplo

Un.automóvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje
entre A y B a razón de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La
velocidad promedio del viaje de ida y vuelta será de

2
xa = = 96 Km / hr
1 1
+
80 120
Propiedades de la media armónica
o La media armónica se basa en todas las observaciones por lo que está afectada por
todos los valores de la variable. Da a los valores extremadamente grandes un peso
menor que el que les da la media geométrica, mientras que a los valores pequeños
les da un peso mayor que el que les da tanto la media aritmética como la media
geométrica.
o La media armónica esta indeterminada si alguno de los valores es cero, pues hallar el
recíproco de cero implica dividir entre cero, lo cual no es válido. La media armónica
está rígidamente definida y siempre es definitiva, excepto cuando uno de los valores
es cero.
o La media armónica es el promedio que se ha de usar, cuando lo que se va a
promediar son proporciones donde los numeradores de las razones son los mismos
para todas las proporciones.

27
Mediana
Supongamos que tenemos un conjunto de observaciones x1, x2, ..., xn. Ordenamos estas
observaciones de menor a mayor, y supongamos que el ordenamiento se consigue de la
forma x(1), x(2), ..., x(n); es decir x(i) es el i-ésimo número en orden entre las n observaciones,
en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x(n)
es la mayor de todas las observaciones.
La mediana es el valor central de la variable, después que se ha ordenado en orden
creciente, es el valor que divide en dos partes la muestra.

Para calcular la mediana debemos tener en cuenta si la variable cuantitativa está sin
agrupar o si está agrupada, si es discreta con muchos datos y rango pequeño o discreta
o continua tabulada en intervalos.

Cálculo de la mediana en el caso discreto no agrupado


Si el conjunto de observaciones los denotamos por x1,...,xn y al conjunto de
observaciones ordenadas las denotamos por x(1) ,... ,x(n). Se define la posición de la
mediana como:

n +1
s = Pos ( Med ) =
2
Si s es un entero el valor de la mediana estado por

Med = xs
Si s no es un entero, entonces se determina un entero i tal que i<s<i + 1. Luego el valor
de la mediana es:
x ( i ) + x ( i −1 )
Med =
2
Ejemplo 10.-
n par n impar
1,4,6,7,8,9,12,16,20,24,25,27 1,4,6,7,8,9,12,16,20,24,25,27, 30
n=12 n=13
Términos Centrales el 6º y 7º Término Central el 7º , 12
9 y 12
Me= (9+12)/2= Me=12

28
Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo, para
los datos sin agrupar y agrupados.

Para los datos sin agrupar primero ordenamos los datos

31 45 57 65 71 76
34 46 58 66 71 77
34 47 61 67 72 77
36 50 61 69 73 79
38 50 62 69 73 79
38 51 62 69 74 79
39 54 62 69 74 79
39 55 64 69 74 85
40 56 64 69 75 87
45 56 65 71 76 89
Como el número de elementos es par se ubican los dos valore centrales y se promedia.

x ( i ) + x ( i − 1) 65 + 65
Med = = = 65
2 2

Cálculo de la mediana para datos agrupados

Para el caso de datos agrupados las observaciones están agrupadas en intervalos de


clase, de manera que primero tenemos que fijarnos en la frecuencia absoluta acumulada,
y en aquel intervalo de clase en que el valor correspondiente a la primera frecuencia
absoluta acumulada que supera o es igual al 50% del número de observaciones, se dice
que es el intervalo donde se encuentra la mediana.

n
− N i −1 )
(
med = li −1 + 2 ai
ni

Donde:
li-1 : límite inferior de la clase de la mediana
n : número de observaciones
Ni-1: frecuencia absoluta de la clase anterior a la clase mediana
ni : frecuencia absoluta del intervalo mediano
ai : amplitud del intervalo de la clase de la mediana

Cambio en los valores extremos en los valores ordenados de la muestra no afectan


significativamente a la mediana, no así la media. En efecto, supongamos la muestra
anterior 1, 1, 2, 3, 3, 3, 4, 4, 5, 7, 8; donde la mediana es med = 3, y la media de esta
muestra es x = 3,72; sin embargo si cambiamos el último valor de esta muestra, que es
8, por 12, tenemos que la mediana sigue siendo la misma no obstante que la media
cambia su valor a 4,09. De manera que, en algunas ocasiones es más representativa la

29
mediana que la media, fundamentalmente en muestras en que aparecen observaciones
extremas.

Ejemplo.
El ejemplo de los sueldos de los ejecutivos el valor de la mediana para datos agrupados
se obtiene determinando la clase de la mediana, es la primera clase, donde la frecuencia
acumulada supera o iguala a la mitad de los datos.

En este ejemplo es la 5ª clase.

n 60
− Ni − l − 29
Med = l i −1 + 2 * ai = 64 + 2 * 10 = 64,5263158
ni 19

La moda
En el lenguaje cotidiano, la palabra moda describe una situación que es frecuente, que
está mayoritariamente en uso, en particular y como ejemplo se utiliza mucho en el
vestuario, sobre todo de las damas. Pues bien, en lo que respecta a la estadística
diríamos que tiene el mismo significado, para el caso discreto es la observación absoluta
(o relativa) más frecuente respecto de las observaciones vecinas, de modo que puede
haber más de una moda. Intentaremos dar un lenguaje más formal a esta definición.
Como antes estudiaremos ambos casos, el discreto y el continuo.

Caso discreto
La moda es el valor de mayor frecuencia absoluta, la que más se repite, es la única
medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no
precisa la realización de ningún cálculo.

Por su propia definición, la moda no es única. Pues puede haber dos o más valores de la
variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos
una distribución bimodal o polimodal según el caso.

Ejemplo: Supongamos que tenemos las siguientes observaciones (ordenadas)


1, 1, 2, 2, 2, 3, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9. En este caso podemos observar que hay
dos modas, a saber: 2 y 5.

Caso continuo
En este caso tiene más sentido hablar de intervalo modal. En efecto, esta vez nos
fijamos en los intervalos de clase con sus respectivas frecuencias absolutas. Si un
intervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se dice
entonces que es un intervalo modal. De manera más formal, diremos que (li - 1, li] es un
intervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuencias
adyacentes ni - 1 y ni + 1.

Ahora el problema es ¿qué valor elegir de este intervalo modal y definirlo como moda?
De momento digamos que una moda se denotará por moda.

30
de modo que la moda es

donde ai es la amplitud del intervalo, que por lo general es constante.

Esta estadística debe usarse con cuidado. Su objetivo es identificar zonas donde se
producen aglomeraciones de datos, sin embargo, podría ser que por el solo hecho de
haber una observación extra en un punto aislado, éste pudiese aparecer como una
moda.

Este inconveniente es especialmente delicado cuando hay pocas observaciones en la


muestra, tal como es el caso que se observa en el gráfico siguiente.

Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no se pone
atención al resto de las observaciones, se podría reportar este valor como la moda
principal, lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentración
de datos. La mayor utilidad de la moda, se presenta al usarla con muestras relativamente
grandes, donde la influencia de un dato individual no distorsiona el análisis.

Ejemplo 11.- Determinar la moda del sueldo de los ejecutivos para datos agrupados y
sin agrupar.

31
Relación entre media, mediana y moda
En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida
entre la media y la moda (incluso más cerca de la media)
En las distribuciones que presentan valores extremos, es más aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propósitos estadísticos y de
inferencia suele ser más apta la media.

Principales Características de la Moda, Mediana y Media


Moda Mediana Media
Es el valor del punto medio de los datos
Es el valor mas frecuente en a distribución. Es ordenados, tal que la mitad de los Es el valor promedio de todas las
1 el punto mas alto en la función. datos están por arriba y la otra por observaciones
debajo de ella.
Su valor es establecido por las frecuencia El valor de la mediana es fijado o por
La suma algebraica de sus desviaciones
2 predominante, no por r los valores en la su u posición en la selección, y no
es cero.
distribución. refleja valores individuales.
Una distribución puede tener mas de 2 modas,
Cada selección tiene solo una
3 pero no existe moda en una distribución
mediana.
Una muestra tiene solo una media.
rectangular.
No puede ser manipulada Pueden ser manipuladas algebraicamente.
No puede ser manipulada algebraicamente.
algebraicamente. Medias de subgrupos pueden ser
4 Modas de subgrupos no pueden ser ponderadas
Medianas de subgrupos no pueden ser combinadas cuando son ponderadas
o combinadas.
ponderadas o combinadas. apropiadamente.
Es estable en cuanto a que Es estable en cuanto a que
Es inestable, puede ser influenciada en el
5 proceso de agrupación.
procedimientos para agrupar no afecta procedimientos para agrupar no afecta su
su apreciación. apreciación.
Podría ser calculada igualmente cuando
algún valor individual es desconocido, si
6 Puede ser aplicada a datos cualitativos. No es aplicable para datos cualitativos.
se posee la suma de los valores y el
tamaño de la muestra.
No puede ser calculado de una tabla de
Puede ser calculada cuando los extremos de Puede ser calculado cuando los valores
7 los valores de los grupos son abiertos. extremos son abiertos.
frecuencia cuando sus valores
extremos son abiertos.
Valores no necesitan ser ordenados para su Valores deben ser ordenados yLos valores no necesitan ser ordenados
8 cálculo. agrupados para su cálculo. para su cálculo.

32
Cuantiles
Como sabemos, la mediana es un valor del recorrido de los datos que particiona a la
distribución de frecuencias en dos partes, cada una conteniendo el 50% del total de la
distribución.

Podemos realizar una partición mayor de la distribución de frecuencias dividiéndola en 4,


10 ó 100 partes. Llamamos a estas particiones cuantiles y según el número de divisiones
obtenemos cuartiles, deciles o percentiles.

Si los datos no están agrupados al igual que en la mediana se debe ordenar el conjunto
de datos y determinar primero la posición para posteriormente determinar el valor.

k
s = Pos ( Pk ) =
(n + 1) si s entero Pk = x( s )
100
si s no es un entero s = t , r Pk = xt + 0, r * ( xt +1 + xt )

Si los datos están agrupados de determina mediante la fórmula:

n*k
− N i −1
Pk = li −1 + 100 * ai
ni
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la
distribución, por lo que no se puede considerar como una medida de tendencia central.

Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:

Q1 = P25 Q2 = P50= Med Q3 = P75


De forma análoga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamaño. Más precisamente, definamos D1,
D2,...,D9 como:
Di = P10*i
Los percentiles (que incluyen a la mediana, cuartiles y deciles) también son denominados
estadísticos de posición).

33
Medidas de variabilidad o dispersión
Los estadísticos de tendencias central o posición nos indican donde se sitúa un conjunto
de observaciones. Los de variabilidad o dispersión nos indican si esas observaciones o
valores están próximas entre si o por el contrario están o muy dispersas.

Hasta ahora hemos estudiado en las observaciones los estadísticos de posición


(percentiles) y de tendencia central (medias, medianas y modas). Sin embargo debemos
tener una noción en cuanto a la relación existente entre estas observaciones, una
medida de cuan alejada está una determinada observación del resto, o de una medida de
disgregación que tienen estas observaciones. En rigor la primera medida de dispersión
que ya hemos estudiado es el rango de las observaciones. Pero es claro que esta
medida presenta varios inconvenientes. En primer lugar solo considera dos
observaciones, la más pequeña y la mayor, de modo que no puede ser muy fiable toda
vez que uno de estos valores extremos se aleje demasiado y el resto se encuentre muy
agrupado. En segundo lugar, podemos aumentar el número de observaciones, esto
significa tener más precisión en el fenómeno en estudio, y es posible que las nuevas
observaciones se agrupen, por ejemplo en torno a la media, y el rango no disminuirá.
Finalmente, basta que una observación nueva sea mayor o menor que el resto de las
anteriores para que el rango aumente. De manera que es conveniente que creemos otras
medidas de dispersión.

Ejemplo 12. considere los siguientes conjuntos de datos:


Datos 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65
Media =Moda =Mediana = 60
X
X
X
XXXXXXXXXXX
35 40 45 50 55 60 65 70 75 80 85

Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70,75, 75, 80, 85
Media =Moda =Mediana = 60
X
X
X
X X X X X X X X X X X
35 40 45 50 55 60 65 70 75 80 85

Se puede observar que lo datos1 están muy cercanos alrededor del centro, mientras que
en datos2 están mas dispersos o alejados.

Ahora, veremos medidas de dispersión mejores que la anterior. Estas se determinan en


función de la distancia entre las observaciones y algunos estadísticos de tendencia
central.

34
Desviación media, DM
Se define la desviación media como la media de las diferencias en valor absoluto de los
valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,
x1,...,xn entonces:

Población (tamaño N) Muestra (tamaño n)


Desviación Media Poblaciónal Desviación Media Muestral
N n

∑| x i −x| ∑| x − x | i
DM = i =1
DM = i =1

N n

ii) para datos agrupados

Población (tamaño N) Muestra (tamaño n)


Desviación Media Poblaciónal Desviación Media Muestral

k k

∑ | x i − x | ni ∑| x − x | n i i
DM = i =1
DM = i =1

N n

Varianza y desviación estándar


La varianza, S2, se define como la media de las diferencias cuadráticas de n
observaciones con respecto a su media aritmética, es decir:

Población (tamaño N) Muestra (tamaño n)


Varianza Poblaciónal Varianza Muestral

N n
∑ ( xi − x ) ∑ ( xi − x )
2 2

V ( X ) = σ X2 = i =1 V ( X ) = S X2 = i =1
N n −1
n
∑ ( xi − x )
2
N
∑ xi
2
− nx 2
V ( X ) = S X2 = i =1
i =1
V( X ) = S X2 = n
N n
∑ xi − nx
2 2

V ( X ) = S X2 = i =1
n −1
n
∑ xi − nx
2 2

V ( X ) = S X2 = i =1
n

35
iii) para datos agrupados

Población (tamaño N) Muestra (tamaño n)


Varianza Poblaciónal Varianza Muestral

N n
∑ ( xi − x ) ni ∑ ( xi − x ) ni
2 2

V ( X ) = S X2 = i =1 V ( X ) = s X2 = i =1
N n −1
k n
∑ ni x i − n x ∑ ( xi − x ) ni
2 2
i =1
V ( X ) = S X2 = V ( X ) = s X2 = i =1
N n
k
∑ ni x i − n x
2
i =1
V ( X ) = s 2X =
n −1
k
∑ ni x i − n x
2
i =1
V ( X ) = s 2X =
n

La varianza no tiene la misma magnitud que las observaciones (ej. Si las observaciones
se miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la
medida de dispersión sea de la misma dimensionalidad que las observaciones bastará
con tomar su raíz cuadrada, Por ello se define la desviación estándar o típica, como:

SX = V ( X )
Propiedades de la varianza.
Supongamos que tenemos las siguientes observaciones x1, ..., xi, ..., xn, cuya varianza la
denotaremos por V(X). Supongamos que sobre cada una de estas observaciones
realizamos la siguiente transformación

Entonces para estas nuevas observaciones transformadas linealmente calcularemos su


varianza, esto es

36
Notemos lo siguiente, que si tenemos una serie de observaciones, a saber ,
entonces si hacemos un "traslado" de todas estas observaciones a una distancia que nos
interesa, como por ejemplo

entonces, lo que nos dice la propiedad anterior, que la varianza es la misma que las
observaciones anteriores. Es decir que si trasladamos "conjuntamente" las
observaciones a otro sitio, las observaciones siguen manteniendo el mismo grado de
dispersión.

Finalmente, si hacemos un cambio de escala, es decir multiplicamos cada una de las


observaciones por una cantidad constante, entonces la varianza de este cambio de
escala será proporcional a la anterior en un factor cuadrático de la cantidad constante.

Una última propiedad de la varianza que daremos sin demostración es la siguiente: Si


tenemos las observaciones , entonces en el intervalo real
se encuentra al menos el 75% de las observaciones.

La desviación intercuartílica se define como:

RIQ = Q3 – Q1

37
Características Principales de
la Desviación Cuartíl, la Media de Desviación Absoluta y la Desviación Estándar
La Desviación intercuatílica Desviación media La Desviación Estándar
La desviación intercuatílica es fácil de La Desviación media tiene la La Desviación Estándar es
calcular y entender. Sin embargo, esta ventaja de dar igual peso a la normalmente mas útil y mejor
1 es inconsis- tente si existen brechas desviación de cada valor con adaptada a un análisis mas
entre los datos alrededor de los respecto a la media o la profundos que lo que es desviación
cuartiles. mediana. media.
Es una medida de dispersión
Es más adaptable como estimador
Solo depende de dos valores, los más sensitiva que cualquiera
de la dispersión de la población que
2 cuales incluyen la mitad central de los de las descritas anteriormente,
cualquier otra medición, haciendo
mismos. y normalmente tiene errores de
que la distribución sea normal.
muestreo más pequeños.
Es más fácil de calcular y
Es la más amplia medida de
Es normalmente superior al rango como entender, además es menos
3 dispersión usada, y la más fácil de
una medida cruda de dispersión. sensible que la desviación
manejar algebraicamente.
estándar a valores extremos.
Esta podría ser determinada en una Desafortunadamente, es muy
distribución abierta en los extremos, o difícil de manejar En comparación con los demás, esta
4 en una en la cual los datos pueden ser algebraicamente, dado que el es mas difícil de calcular y de
seleccionados pero no medidos signo negativo debe ser entender.
cuantitativamente. ignorado cuando se calcula.
Es muy útil en distribuciones muy Su aplicación principal es la Es normalmente afectada por valores
sesgadas, o en aquellas en las cuales precisa elección de modelos extremos, los cuales podrían
5
otras medidas de dispersión serian en técnicas de predicciones ocasionar el sesgamiento de los
deformadas por valores extremos. comparativas. datos.

Coeficiente de variación
Es un índice que puede servir para la comparación entre poblaciones en que se miden
distintas características. Dada un conjunto de observaciones x1, x2, ..., xn se define el
coeficiente de variación, CV, como

S
CV = *100%
x
Según esta definición, es claro que no tiene sentido para observaciones cuya media es
nula.

El CV es independiente de las unidades de medida. En la estimación de un parámetro,


cuando su CV es menos del 10%, la estimación se asume aceptable.

Si a la muestra x1, x2, ..., xn le hacemos la transformación yi = xi + b, y si denotamos por


CVy al coeficiente de variación de las y1, y2, ... yn, entonces

Si a la muestra x1, x2, ..., xn le hacemos la transformación yi = xi + b, y si denotamos por


CVy al coeficiente de variación de las y1, y2, ... yn, entonces

38
Además, y como es de prever, es invariante bajo cambio de escala, es decir si yi = a xi
entonces CVy = CVx. En efecto, viene del hecho de que Sy = a Sx y de que y = a x

En definitiva, si tenemos dos tipos de observaciones diferentes, esto es que miden dos
atributos X e Y diferentes, entonces con el cálculo de los coeficientes de variación
respectivos podemos tener una medida de que tipo de atributo está más disperso (en
torno de la media) en comparación con el otro atributo. Esto es si CVx < CVy entonces los
datos relativos al atributo Y están más dispersos que los datos del atributo X.

Generalmente el coeficiente de variación nos sirve para comparar la variación de dos o


más conjuntos de datos

Ejemplo 13.- Determinar las medidas de dispersión del ejemplo 4, ingresos de los
ejecutivos para datos sin agrupar y agrupados.

Tabla 11.
Medidas de dispersión
Medidas de dispersión Datos no agrupados Datos agrupados
Rango o recorrido 58 90
Desviación media 12,2783 12,4056
Varianza 217,0475 226,9722
Desviación estándar 14,7325 15,0656

39
Asimetría y apuntamiento
Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones
de una variable sobre una muestra y sabemos cómo calcular la dispersión que ofrecen
los mismos con respecto al valor de central. Nos proponemos dar un paso más allá en el
análisis de la variable. En primer lugar, se estudia si la distribución de los datos es la
simetría. Un conjunto de datos que no se distribuye simétricamente, se llama asimétrico.
La asimetría puede verse en el diagrama de tallo y hoja o en el histograma. También
puede verse a través de la posición relativa entre la media y la mediana.

Estadísticos de asimetría
Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto
a qué. Un buen candidato es la mediana, ya que para variables continuas, divide al
histograma de frecuencias en dos partes de igual área. Podemos basarnos en ella para,
de forma natural, decir que una distribución de frecuencias es simétrica si el lado
derecho de la gráfica (a partir de la mediana) es la imagen por un espejo del lado
izquierdo.

Distribución Sim étrica

7
6
5
4
3
2
1
0
1 2 3 4 5 6 7

Dentro de los tipos de asimetría, vamos a destacar los dos fundamentales:

Asimetría positiva
Si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras que
en derecho hay frecuencias más pequeñas (cola)

Distribución Asim étrica Positiva

12
10
8
6
4
2
0
1 2 3 4 5 6 7

40
Asimetría negativa
Si las frecuencias más altas se encuentran en el lado derecho de la media, mientras que
en el izquierdo hay frecuencias más pequeñas (cola)

Distribución Asim étrica Negativa

12

10

0
1 2 3 4 5 6 7

Cuando realizamos un estudio descriptivo es altamente improbable que la distribución


de frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de
frecuencias es simétrica si lo es de un modo aproximado. Por otro lado, aún observando
cuidadosamente la gráfica, podemos no ver claro de qué lado están las frecuencias más
altas. Conviene definir entonces unos estadísticos que ayuden a interpretar la asimetría,
a los que llamaremos índices de asimetría, y que denotaremos mediante As.

n
∑ ( xi − x )
p

M 3
M p = i =1
AS = 3 donde
n
S n
∑ ( xi − x ) ni
X p

M p = i =1
n
es denominado el p–ésimo momento central (alrededor de la media) y

S X3 = ( V ( X ) )3

Apoyándonos en este índice, diremos que hay asimetría positiva si As > 0 , y que la
asimetría es negativa si As < 0 y si As = 0 la distribución es simétrica.

En las distribuciones sesgadas negativamente siempre la media está a la izquierda de la


mediana y la moda a la derecha de ella. En las distribuciones sesgadas positivamente la
moda está a la izquierda de la mediana y la media a la derecha de la mediana.

41
Curva bimodal (simétrica o asimétrica por estratos):

0.5

0.4

0.3

0.2

0.1

0
-3 2

Estadísticos de apuntamiento
Uno de los coeficientes que nos indica el apuntamiento de una distribución de frecuencia
es el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por:

M4
K=
M 22

De este modo, las distribuciones de frecuencias se clasifican en:


1) Leptocúrtica: cuando, K>0, o sea, si la distribución de frecuencias es más apuntada
que la normal:
2) Mesocúrtica: cuando K=0, es decir, cuando la distribución de frecuencias es tan
apuntada como lo normal;
3) Platicúrtica: cuando K<0, o sea, si la distribución de frecuencias es menos apuntada
que la normal

Ejemplo 14.- Las medidas descriptivas del ejemplo 3, ingreso de los ejecutivos para los
datos no agrupados son: (obtenidos utilizando Excel)

42
Medidas descriptivas de la variable Ingreso de los Ejecutivos
Media 62,05 Rango 58
Mediana 65 Mínimo 31
Moda 69 Máximo 89
Desviación estándar 14,8569 Suma 3723
Varianza de la muestra 220,7263 Cuenta 60
Curtosis -0,727577
Coeficiente de asimetría -0,451824

Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con una
desviación estándar de US$ 14857.
El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen un
ingreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor.
El ingreso mas frecuente es de US$ 69000.
Como el valor de la curtosis es menor que 3 la curva es leptocúrtica.
El coeficiente de asimetría es negativo la curva o histograma es asimétrico a izquerda lo
que significa que hay una mayor variación de los ingresos en los entre los ejecutivos de
menor ingreso.

43
Cómo Construir un BoxPlot
Un BoxPlot es un gráfico que tiene muchas características. Incluye la presencia de
posibles outliers. Muestra el rango de los datos. Muestra una medida de dispersión tal
como el cuartíl superior, cuartíl inferior y los rangos intercuartiles (RIC) de un conjunto de
datos, así como también a la mediana como medida central ubicación, el cual es útil para
comparar grupos de datos. También indica acerca de la simetría o de la asimetría de la
distribución. La razón principal de utilizar los boxplots es porque ofrecen mucha
información de una manera compacta.

Pasos para Construir un Boxplot


1.- Calcular los 3 cuartiles (Q1, Q2, y Q3). La porción central de la distribución que se
encuentre entre Q1 y Q3 se representa por una caja (no interesa el ancho de ella). Dentro
de esta caja se ubica el valor de la mediana (Q2).

2.- Calcular el recorrido intercuartílico (Q).

3.- Calcular las barreras internas BI1 y BI2 en la forma:

BI1 = Q1 – 1.5 ⋅ Q
BI2 = Q3 + 1.5 ⋅ Q

4.- Calcular las barreras externas BE1 y BE2 en la forma:

BE1 = Q1 – 3 ⋅ Q
BE2 = Q3 + 3⋅ Q

5.- Identifique los puntos adyacentes

Se llaman puntos adyacentes al mínimo y máximo dato que se encuentran dentro de las
barreras internas. Desde los extremos de la caja se trazan líneas hasta los respectivos
valores adyacentes. A estas líneas se les llama “antenas” o “bigotes”.

6.- Identificar los puntos atípicos y extremos:

Se llaman puntos atípicos o outliers a aquellos datos que se encuentran fuera de las
barreras internas y dentro de las barreras externas. Se llaman puntos extremos a
aquellos puntos ubicados fuera de las barreras externas.

Un punto atípico o extremo puede deberse, por ejemplo, a una mala lectura, mal registro,
causa fortuita, etc. Este tipo de datos no puede eliminarse inmediatamente sin un análisis
preliminar de las causas que lo originan.

A través de un gráfico caja podemos identificar el tipo de asimetría de una distribución de


frecuencias unimodal de la siguiente manera:

i) Si la posición de la mediana se encuentra en la mitad de la caja y las antenas


tiene la misma longitud, la distribución es simétrica.

44
ii) Sil a posición de la mediana se encuentra ubicada más cerca del primer cuartil y la
antena superior es de mayor longitud que la antena inferior, la distribución
presenta sesgo positivo.
iii) Si la posición de la mediana se encuentra ubicada más cerca del tercer cuartil y la
antena superior es de menor longitud que la antena inferior, la distribución
presenta sesgo negativo.

Ejemplo 15.- El gráfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:

Box Plot Ingresos Ejecutivos


110
100
90
80
70
60
50
40 Mediana= 65
Q1 = 51
30 Q3 = 74

20 No hay puntos outlier


Ingreso Ejecutivos

45

También podría gustarte