Está en la página 1de 39

ESTADISTICA DESCRIPTIVA

INDICE

I. INTRODUCCIÓN 1

II. CLASIFICACION DE VARIABLES. 4

III. PRESENTACIÓN DE DATOS UNIDIMENSIONALES. 7


III.1 TABLAS DE FRECUENCIAS UNIDIMENSIONALES. 7
III.2 REPRESENTACION GRAFICA DE DATOS UNIDIMENSIONALES. 13

IV MEDIDAS DESCRIPTIVAS PARA UNA VARIABLE. 21


IV.1 MEDIDAS DE POSICION 21
IV.2 MEDIDAS DE DISPERSION. 30
IV.3 MEDIDAS DE FORMA. 34

V. MEDIDAS DESCRIPTIVAS EN DATOS ESTRATIFICADOS. 36

ESTADISTICA DESCRIPTIVA
I. INTRODUCCIÓN

Hasta ahora ha habido muchos adelantos científicos logrados mediante la investigación, la


experimentación y también muchos inventos tecnológicos. En todos ellos se ha empleado el
método científico, que es el procedimiento que se aplica al ciclo completo de la
investigación, desde la detección del problema hasta la interpretación de los resultados.

Más aún, el desarrollo actual de la administración moderna requiere cada vez más respaldar
las decisiones que se toman permanentemente con información sólida y validada
científicamente, pues los costos de los errores son muy grandes.

Las etapas del método científico pueden establecerse como:

1. Detección y enunciado del problema. La detección dependerá tanto de los juicios de


valor del investigador como de las condiciones en que se encuentre en ese momento
el desarrollo de la ciencia.

2. Desarrollo de una teoría que procure explicar o resolver el problema.

3. Formulación de las hipótesis que se desprenden de la teoría y que deberán ser


contrastadas con la realidad mediante observaciones rigurosas y experimentos.

4. Factibilidad de las hipótesis a fin de que los conceptos involucrados puedan ser
medidos de acuerdo a reglas precisas, válidas y confiables

5. Contrastación de las hipótesis, con hechos observados o experimentos elaborados


especialmente para poner a prueba las hipótesis, de tal forma que si resultan
falseadas, entonces se pueda concluir que la teoría que las originó está mal
elaborada.

6. Interpretación de los resultados (conclusión), en el sentido de aceptar o no la la


teoría que procuraba explicar el problema, con el propósito de reelaborar la teoría si
resulta rechazada, o de preparar nuevos expermentos para ponerla otra vez a prueba.

Quién proporciona las técnicas para llevar a la práctica aquellas etapas del método
científico que requieren recolección y análisis de información es el método estadístico.

El método estadístico es un conjunto de procedimientos aplicados en secuencia lógica a la


obtención y análisis de datos, los cuales son influidos por múltiples factores.

En el método estadístico se distinguen básicamente tres etapas: La planificación, la


ejecución y el análisis de los resultados.

La planificación es el planteamiento teórico de la investigación, de manera que mientras


mejor planeada esté una investigación, será más fácil su ejecución.
1
ESTADISTICA DESCRIPTIVA
En la planificación hay que considerar los siguientes puntos:

- Definición de los objetivos, es decir, indicar detalladamente qué es lo que se


pretende investigar; el qué, el cómo, el dónde, el cuándo y el porqué.

- Definición del universo, es decir, especificar con precisión el conjunto o población


de elementos del cuál se extraerá la información y a la cual se referirán los
resultados.

- Diseño de las muestras de elementos que serán obsrvados o sometidos a


experimentación aplicando los principios probabilísticos que permiten la
generalización de los resultados obtenidos.

- Determinación de las grupos de control, en casos que la investigación de una


hipótesis requiera de experimentos complejos. El grupo de control (o testigo) es
aquel que no se somete a la acción de un estímulo intencionado. En cambio el grupo
de elementos que son sometidos a dicha acción se denomina "grupo de estudio".

- Determinación de la información necesaria para cumplir con los objetivos, la que


debe ser accesible y medible con un error mínimo a fin de lograr los objetivos de la
investigación y que no ocurra que falte información para sacar conclusiones o que
sobre, lo que significa pérdida de recursos.

- Determinación de la fuente de origen de la información requerida y de los


procedimientos que se emplearán para obtenerla, etableciendo las unidades de
medición y escalas de clasificación adecuadas a los propósitos de la investigación.

- Elaboración del plan de tabulación y análisis de la información con el objetivo de


sacar las conclusiones.

En esta etapa de planificación, también se debe determinar la duración aproximada de las


diversas etapas de la ejecución, el personal que debe intervenir, su adiestramiento, el tipo
de análisis computacional y se debe estimar todos los costos involucrados en la
investigación.

En la ejecución se debe llevar a cabo todo lo planificado: recolección de la información,


elaboración de la información y análisis de los resultados.

El análisis de los resultados puede ser descriptivo censal, o bien, inferencial de acuerdo con
el origen de los datos; tod la población o una muestra probabilística de ella. La estadística
descriptiva comprende aquellos métodos usados para organizar los datos y describir la
población estudiada, mientras que la inferencia estadística comprende aquellos métodos y

2
ESTADISTICA DESCRIPTIVA
técnicas usados para hacer generalizaciones, predicciones o estimaciones sobre poblaciones
a partir de una muestra o experimento.

En resumen, podemos decir que la estadística es el método científico de recopilar,


clasificar, presentar, analizar e interpretar conjuntos de datos u observaciones obtenidos de
hechos reales para orientar racionalmente la toma de decisiones y predecir en lenguaje
probabilístico cuantitativo los fenómenos que nos afectan.

En ciertas ocasiones para tener una visión más clara de la estrategia de investigación es
conveniente determinar el tipo de investigación a realizar, clasificación que dependerá de los
siguientes factores: los objetivos de la investigación, la existencia de hipótesis, la fuente de
origen de la información, el orden en que se recogen los datos y el manejo de las variables.

TIPOS DE INVESTIGACION.

1. Investigación retrospectiva, actual y prospectiva. Con respecto a la relación entre


tiempo de ocurrencia y el registro de la información se define la información
retrospectiva como aquella que averigua hechos ocurridos en el pasado, la
investigación actual va registrando la información a medida que se va produciendo y la
prospectiva, basada en los resultados de las anteriores provee información probable de
lo que se espera que ocurra.

2. Investigación descriptiva y explicativa. La investigación descriptiva tiene como


objetivo mostrar una situación, mientras que la explicativa pretende averiguar el
porqué de las situaciones observadas, es decir las causas de los fenómenos observados.

3. Investigación experimental y no-experimental. La investigación experimental tiene


como característica principal que el investigador puede manejar la variable
independiente, en cambio la no experimental no manipula los fenómenos; sólo los
observa tal como ocurren.

En el caso de la investigación explicativa, lo ideal es usar el método experimental sin


embaro, muchas veces resulta muy costoso o imposible. En ese caso, se utilizan
procedimientos descriptivos complejos para etablecer las correlaciones entre múltiples
variables que afectan la situación. En cambio, la investigación descriptiva suele ser no-
experimental.

3
ESTADISTICA DESCRIPTIVA
II. CLASIFICACION DE VARIABLES.

Los estadísticos denominan como "variable" a las características cualitativas y cuantitativas de


los elementos de una población (unidades de observación). Por ejemplo, en una población
humana, características importantes son la edad, el sexo, el estado civil, el nivel educacional,
etc.; características que suelen variar de un individuo a otro.

Como los datos a manejar en una investigación son de distinta naturaleza, la clasificación de
las variables en estudio se hace necesaria para decidir el método adecuado de análisis
estadístico que se empleará.

La característica específica de una unidad de observación de la población es el valor de la


variable para ese elemento. Por ejemplo, para la variable sexo, un individuo puede ser hombre
o mujer; es decir la variable puede tomar dos valores: 1. Hombre ó 2. Mujer.

Existen diversos criterios para clasificar variables, los que no son excluyentes y se
complementan.

II.1 CLASIFICACION BASICA.

Básicamente hay dos tipos de variables: las cualitativas y las cuantitativas.

Una variable es cualitativa cuando es no-numérica y se expresa en categorías. Por ejemplo: el


sexo se expresa en las categorías femenino y masculino; la religión se expresa en las
categorías católica, bautista, presbiteriana, anglicana, etc.

Una variable es cuantitativa cuando puede ser expresada en forma numérica. Por ejemplo:
edad en años; duración en horas de la batería de un teléfono celular; ingreso mensual en pesos
de una familia, etc.

II.2 CLASIFICACION SEGUN NIVELES O ESCALAS DE MEDICION

Para describir un objeto, un individuo u otra identidad hacemos referencia a las propiedades o
atributos que posee, estos atributos pueden expresarse en escalas de diferente nivel de
medición.

1. Escala Nominal.

Este es el nivel de medición más débil que sólo permite distinguir las distintas
clases, asignándoles números o símbolos a las unidades para identificar a la clase
que pertenecen.

4
ESTADISTICA DESCRIPTIVA
En una escala nominal, el conjunto de elementos se divide en subconjuntos
mutuamente excluyentes en que la única relación implicada es la de equivalencia
(relación que es reflexiva, simétrica y transitiva).

La escala nominal es única hasta una transformación de uno a uno, esto significa
que los números o símbolos que designan las distintas subclases en la escala pueden
ser intercambiados de manera total y consistente.

Las estadísticas descriptivas, que estudiaremos más adelante, admisibles en este tipo
de escalas son aquellas que no se ven alteradas por las transformaciones uno a uno,
como por ejemplo el conteo de frecuencias y la moda.

Ejemplos de variables en esta escala: Número de cédula de identidad, sexo, número


de la camiseta en los jugadores de fútbol, religión, etc.

2. Escala Ordinal o de Rangos.

En esta escala el número asignado además de nombre indica jerarquía entre todas
las clases. Esta relación de jerarquía es irreflexiva, asimétrica y transitiva, por lo que
el único tipo de transformación que acepta es monótona, es decir, aquella que
mantiene el orden de los objetos.

Ejemplos: los grupos socioeconómicos, los grados en el ejército, el tamaño de cierto


elemento (pequeño, mediano, grande, extragrande), etc.

3. Escala de Intervalos.

En este caso el número indica nombre, jerarquía y tiene sentido la diferencia con
cualquier otro número de la escala, pero donde el cero es arbitrario.

En este nivel cualquier cambio en los números asociados con las posiciones de los
objetos debe conservar el orden y las diferencias relativas entre los objetos, es
decir, la escala de intervalos es única hasta una transformación lineal; como ocurre
por ejemplo entre las escalas Celsius y Farenheit para medir temperatura.

Esta escala es la primera cuantitativa que vemos, por lo que es posible calcular todas
las estadísticas descriptivas comunes (media, desviación estándar, correlación, etc.).
Ejemplos: Medición de temperatura en escala Celsius, medición de altura de vuelo,
año o fecha en que vivimos, puntajes de coeficiente intelectual, etc.

4. Escala de Razón.

En este caso el número indica lo mismo que en la escala de intervalos (nombre


jerarquía y valor), pero con el cero real.

5
ESTADISTICA DESCRIPTIVA
En este nivel de medición cualquier operación aritmética es aplicable (con una
interpretación válida).

Ejemplos de variables: peso, estatura, ingreso, cantidad de hijos, etc.

II.3 CLASIFICACION DE ACUERDO AL RECORRIDO.

Según los valores numéricos que asuma una variable, ésta puede ser:

1. Discreta.

Una variable se clasifica como discreta, si los valores que asume son finitos o
infinitos numerables (contables). Ejemplo: Cantidad de hijos, número de personas
en una fila, valores de los billetes, etc.

2. Continua.

Una variable es continua si tiene un recorrido infinito no numerable, o bien, si entre


dos valores cualesquiera siempre existe la posibilidad de que se encuentre otro
valor observable. Ejemplo: duración de una batería, edad, resistencia a la tensión,
temperatura, etc.

En algunos casos en que la variable asume dos valores (presencia o ausencia de una
característica) se clasifican como dicotómicas. Por ejemplo, para indicar si una persona
fuma o no, se asigna 1 a fuma y 0 a no fuma.

II.4 CLASIFICACION SEGUN LA ORIENTACION DESCRIPTIVA DE LAS


VARIABLES.

Las variables pueden clasificarse según si ellas describen o son descritas por otras
variables, clasificación que depende de los objetivos del estudio y no de la
estructura matemática de las variables. Esta clasificación puede ser en:

1. Independiente, variable que es fijada (o manejada) por el investigador.

2. Dependiente, variable que el investigador no puede manejar, sino a través de


cambios en la variable independiente.

Ejemplo: Ingreso (independiente) y gasto (dependiente).

6
ESTADISTICA DESCRIPTIVA
III. PRESENTACIÓN DE DATOS UNIDIMENSIONALES.

Las técnicas visuales para presentar los datos, que son suficientemente numerosos, en forma
ordenada y resumida son las tablas de frecuencia y los gráficos.

III.1 TABLAS DE FRECUENCIAS UNIDIMENSIONALES.

Una tabla de frecuencias es un cuadro numérico que permite la clasificación de los datos en
categorías. Una tabla de frecuencias se dice que es unidimensional si se refiere al estudio de
una variable, bidimensional si se refiere a la presentación en forma conjunta de dos variables y
multidimensional cuando se refiere a la presentación de información conjunta de dos o más
variables.

Estas tablas son útiles cuando se necesita resumir los datos para posteriormente analizar la
información registrada para cada una de las variables.

Se denominan de frecuencia por que esta es la información que se coloca en cada una de las
categorías de las variables.

El formato general de este tipo de tablas para una variable es el siguiente:

TITULO DE LA TABLA
Nombre de la Tipo de
variable frecuencia

Categorías de Frecuencias
la variable observadas
Μ

FUENTE:

El título de la tabla debe indicar por lo menos qué información se presenta, dónde fueron
registrados los datos y cuándo se obtuvo la información.

El nombre de la variable puede utilizarse completo, con sus respectivas unidades de medida,
o bien, alguna sigla previamente definida.

Las categorías que tendrá la variable van a depender del tipo de variable según nivel de
medición o recorrido. De acuerdo a esto veremos la construcción de distintos tipos de tablas.

7
ESTADISTICA DESCRIPTIVA
TIPOS DE FRECUENCIA:

1. FRECUENCIA ABSOLUTA o simplemente FRECUENCIA es el número de veces


que se presenta un valor o una categoría de una variable. Se acostumbra a denotar por
ni, que indica la frecuencia en la clase o categoría i de la variable. En toda tabla,
siempre ni = n , donde n es el número total de observaciones de la variable.

2. FRECUENCIA RELATIVA es la proporción del total de datos que se presenta en un


valor o una categoría de una variable. Se acostumbra a denotar por hi (también se usa fi
o pi) a la proporción de elementos del total que está en el valor o categoría i, valor que
se obtiene por hi = ni / n, con hi = 1 . Esta frecuencia resulta ser en la mayoría de los
casos más clara e informativa, sobretodo si se desea comparar conjuntos de datos con
distinto número (n) de observaciones. Por lo general, en la presentación de una tabla
esta frecuencia se muestra como porcentaje, es decir hi⋅100.

Tanto la frecuencia absoluta como la frecuencia relativa se pueden usar en todo tipo de
variables. Cuando las variables son de un nivel de medición al menos ordinal, podría
ser de utilidad usar alguna de las dos siguientes frecuencias.

3. FRECUENCIA ABSOLUTA ACUMULADA es el número de datos que se presenta


hasta un valor o una categoría de una variable. Se acostumbra a denotar por Ni al
número de observaciones hasta la clase i entre el total de datos.

4. FRECUENCIA RELATIVA ACUMULADA es la proporción de datos hasta un valor


o una categoría de una variable. Se acostumbra a denotar por Hi (Fi o Pi) a la
proporción de observaciones hasta la clase i en el total de datos, pudiéndose usar
también en valores porcentuales.

CONSTRUCCION DE TABLAS UNIDIMENSIONALES.

1. Variable en nivel de medición nominal.

En este caso cada valor que asume la variable pasa a ser una categoría y se disponen en
un orden arbitrario en la tabla.

EJEMPLO.
Los siguientes datos corresponden al sexo de un grupo de personas en estudio:
M-M-F-M-F-M-M-F-F-M-F-M-F-F-M-F-F-M-M-M -F-M -
F-M-F-M-M-F-F-F-M-M.
La tabla de frecuencias para este caso es como sigue:

8
ESTADISTICA DESCRIPTIVA
DISTRIBUCIÓN DE LAS PERSONAS DE ACUERDO A SU SEXO.

Cantidad de Porcentaje de
SEXO personas (ni) personas (hi⋅100)
Femenino 15 46,875
Masculino 17 53,125
TOTAL 32 100,000

FUENTE: Elaboración propia.

Tome nota que en esta tabla, las frecuencias acumuladas no tendrían ningún sentido
práctico.

3. Variable en nivel de medición al menos ordinal y discreta con una cantidad pequeña de
valores distintos (alrededor de 20). En este caso cada valor que asume la variable
pasa a ser una categoría y se disponen según el orden implícito de la variable .

EJEMPLOS.

a) Construir la tabla de frecuencias para los siguientes datos corresponden al


número de días ausentes en un semestre de los alumnos a la clase de
Estadística:
1-3-2-7-4-0-1-2-0-5-5-4-2-7-0-1-3-2
0 - 1 - 2 - 0 - 4 - 3 - 0- 2 - 3 - 2 - 1 - 1 - 1 - 0 - 1 - 3 - 2 - 2

Como la variable es discreta con un número de valores que va desde 0 hasta 7,


cada valor pasa a ser una categoría, quedando la tabla como sigue:

DISTRIBUCION DE LOS ALUMNOS DEL CURSO DE ACUERDO A SUS


AUSENCIAS DURANTE EL SEMESTRE.

Cantidad de Cantidad Proporción de Proporción


DIAS alumnos Acumulada alumnos Acumulada de
AUSENTES de alumnos alumnos (Hi)
(ni) (Ni) (hi)
0 7 7 0,1944 0,1944
1 8 15 0,2222 0,4167
2 9 24 0,2500 0,6667
3 5 29 0,1389 0,8056
4 3 32 0,0833 0,8889
5 2 34 0,0556 0,9444
6 0 34 0,0000 0,9444
7 2 36 0,0556 1,0000
TOTAL 36 1,0000
Fuente: Elaboración propia.

9
ESTADISTICA DESCRIPTIVA
Nota: Un buen ejercicio será interpretar algunos de los valores de la tabla, por
ejemplo, n4=5 indica que durante el semestre hubo 5 alumnos que faltaron 3
días a la clase de estadística y H5=0,8889 indica que el 88,89% de los alumnos
del curso faltaron a lo más 4 días a la clase.

b) La siguiente tabla resume las respuestas de 30 dueñas de casa a la pregunta ¿Es


usted quien hace las compras en el supermercado?

DISTRIBUCIÓN DE LAS DUEÑAS DE CASA DE ACUERDO A SUS


HÁBITOS DE COMPRAS
Cantidad de Porcentaje de
RESPUESTA amas de casa amas de casa
Siempre 12 0,4000
Casi siempre 10 0,3333
A veces 4 0,1333
Casi nunca 3 0,1000
Nunca 1 0,0333
Total 30 1,0000
Fuente: Elaboración propia.

4. Variable en nivel al menos de intervalos y continua, o bien, variable discreta que


asume demasiados valores distintos (>21).

En esta tabla se pierde información, ya que las clases estarán formadas por intervalos
de valores, cuyos puntos medios se denominan marcas de clase y se denotan por xi
(para la variable X). A veces se denominan tablas de datos agrupados, ya que en ellas
se pierde información al disponer las observaciones en intervalos. Estas tablas de
frecuencia deberían tener las siguientes características para su construcción:
uniformidad (cada clase debe tener la misma amplitud), unicidad (dos clases no se
traslapan) y exhaustivas (cada uno de los datos debe pertenecer a alguna clase).
Aunque la característica de uniformidad no es estrictamente necesaria.

Los pasos para la construcción de estas tablas con intervalos de igual amplitud son:

- Determinar el rango o recorrido R de la variable: R = máx - mín.

- Establecer el número k de intervalos a usar. En caso de no tener una buena idea


de cuantos usar se puede recurrir a una de las fórmulas empíricas existentes,
como la regla de Sturges que establece una buena aproximación de k como la
parte entera de [1+ 3,3 log n].

- Determinar la amplitud c de cada clase, es decir la diferencia entre el límite


superior (LS) de una clase y su límite inferior (LI) . Para ello se divide R por k

10
ESTADISTICA DESCRIPTIVA
y el resultado se aproxima al valor siguiente con la misma cantidad de cifras
decimales que los datos, si esta división resulta con más decimales; si la
división resulta tener igual o menor cantidad de decimales que los datos se
conserva ese mismo resultado como valor de c.

- Si el valor de c se ha obtenido por aproximación, se procede a multiplicarlo por


k, obteniendo como resultado el rango R' que tendrán los datos en la tabla. Para
no sesgar demasiado los datos en la tabla respecto de los reales conviene hacer
la diferencia entre R' y R repartiendo ésta en partes lo más equitativas posibles
entre el mínimo y el máximo. Al mínimo se le resta aproximadamente la mitad
de la diferencia y al máximo se le suma el resto, conservando siempre el
número de cifras decimales de los datos para lograr una visión clara de ellos.

Si el valor de c no se ha obtenido por aproximación, el recorrido R de los datos


será el mismo que el de la tabla.

- Construir la tabla comenzando por el mínimo obtenido en el paso anterior y


agregar en cada intervalo el valor c de la amplitud., empleando el mismo valor
en el límite superior de una clase y en el límite inferior de la clase siguiente,
sólo que para colocar las frecuencias se debe tener presente que la convención
en los límites de los intervalos es que los límites inferiores son siempre
cerrados y los límites superiores abiertos, exceptuando el último límite superior
que siempres es cerrado.

Se debe hacer notar que en la construcción de estas tablas existen otros criterios para
trabajar con los límites de los intervalos, en la metodología que se emplea aquí se
trabaja directamente con los límites reales de clase, también llamados fronteras de
clase; en los caso en que se trabaja con valores distintos entre el límite superior de una
clase y el límite inferior de la clase siguiente se dice que se trabaja simplemente con
los límites de clase.

EJEMPLO:

Los siguientes datos corresponden a los tiempos, en minutos, requeridos para atender
a 50 clientes en una caja de supermercado, obtenidos en un control de eficiencia de
éste:

2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.

Construir la tabla de frecuencias, con todas las frecuencias incluyendo la marca de


clase.

11
ESTADISTICA DESCRIPTIVA
Solución:

R = Xmáx - Xmín = 6,0 - 0,3 = 5,7

k = [1 + 3,3 log 50] = 6

R/k = 0,95 c= 1

Pero 1⋅ 6 = 6 = R'

R' - R = 0,3, cifra que repartimos lo más iguales posibles conservando un decimal,
entre el mínimo y el máximo. En este caso procederemos a restar 0,1 al mínimo y a
sumar 0,2 al máximo (0,1 + 0,2 = 0,3 ).

Por tanto, nuestra tabla comenzará con el valor 0,2 y terminará con el valor 6,2;
teniendo cada intervalo una amplitud igual a 1.

DISTRIBUCIÓN DE LOS CLIENTES SEGÚN EL TIEMPO DE ATENCIÓN EN


LA CAJA.

TIEMPO Tiempo Cantidad Proporción Cantidad Proporción


(minutos) promedio de clientes de clientes Acumulada de Acumulada de
clientes (Ni ) clientes (Hi )
[ LI - LS [ (Xi ) (ni ) (hi )
0,2 - 1,2 0,7 19 0,38 19 0,38
1,2 - 2,2 1,7 16 0,32 35 0,70
2,2 - 3,2 2,7 6 0,12 41 0,82
3,2 - 4,2 3,7 4 0,08 45 0,90
4,2 - 5,2 4,7 1 0,02 46 0,92
5,2 - 6,2 5,7 4 0,08 50 1,00
Total 50 1,00

Fuente: Elaboración propia con base en los resultados de la medición de eficiencia.

Nota: Algunas interpretaciones en esta tabla son: h4 indica que el 8% de los clientes
demoran en ser atendidos entre 3,2 y 4,2 minutos; N5 indica que 46 clientes demoraron
menos de 5,2 minutos.

Todas las tablas mostradas en esta sección permiten hacer un primer análisis de lo que está
ocurriendo con los datos, con frecuencia en este análisis se indica en que valores se encuentra
la mayoría de las observaciones, donde se encuentra la minoría y en qué punto se encuentra
aproximadamente la mitad de las observaciones.

12
ESTADISTICA DESCRIPTIVA
III.2 REPRESENTACION GRAFICA DE DATOS UNIDIMENSIONALES.

Una gráfica es una forma ilustrada de representar y resumir datos; de modo de hacer evidentes
visualmente ciertas características de los datos, son una alternativa a las tablas de frecuencia,
incluso a veces representa mejor sus características que las tablas de frecuencias.

Al construir un gráfico se debe tener presente los siguientes puntos:

- Sencillez y autoexplicación.
- Evitar distorsiones por mala elección de escala.
- Elección apropiada del tipo de gráfico, según los objetivos del estudio y el nivel de
medición de las variables.

III.2.1 PICTOGRAMA.

Son representaciones de la información mediante dibujos de los objetos que son motivo de
estudio, con un formato que dé una rápida idea visual de la distribución de frecuencia. Este
tipo de gráficas es una de las más antiguas en uso y son especialmente útiles para fines
publicitarios por ser atractivos y de fácil comprensión.

EJEMPLO:

El siguiente pictograma muestra la cantidad de dinero circulante en tres países fronterizos:

País A B C

III.2.2 DIAGRAMA DE TALLO Y HOJAS O HISTOGRAMA DIGITAL.

Este es un diagrama semigráfico en forma de árbol que tiene la ventaja de presentar todas las
observaciones y por tanto no se pierde información como en una tabla de frecuencias en
intervalos y resulta especialmente útil cuando cuando el número total de datos es pequeño
(<50). Los principios para la realización del diagrama son los siguientes:

- Redondear los datos a dos o tres cifras significativas.

- Disponer los datos en dos columnas separadas por una línea vertical de tal forma que
para los datos con dos dígitos la cifra de las decenas se encuentre a la izquierda de la
línea vertical (tallo del diagrama), y a la derecha las unidades (hojas o ramas del

13
ESTADISTICA DESCRIPTIVA
diagrama). Para datos con tres dígitos, el tallo estará formado por los dígitos de las
centenas y las decenas, que se escribirán a la izquierda de la línea vertical y las hojas
estarán formadas por el dígito de las unidades, que se escribirá a la derecha de la línea
vertical.

- Cada tallo define una clase y se escribe sólo una vez. A su derecha se van escribiendo
por orden las sucesivas hojas correspondientes a ese tallo. El número de hojas para
cada tallo representa la frecuencia de cada clase.

EJEMPLO:

Construir el diagrama de tallo y hojas para los datos de tiempo de espera en el ejemplo de la
página 15.

Solución.
Recordemos que los datos eran:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.

Luego, el diagrama de tallo y hoja es:

0 3344557777899999
1 0112233445556667788
2 33456
3 02225
4 5
5 299
6 0

III.2.3 GRAFICOS SECTORIALES, DE TORTA O DE PIE.

Corresponden a la representación circular de las frecuencias, en forma proporcional a los 360°


de una circunsferencia, en que las categorías se identifican como sectores de la
circunsferencia. Son útiles para estudiar la distribución de frecuencias de datos categóricos y
nominales con pocas categorías.

EJEMPLO:

La representación de los datos de la tabla III.1.3 sería como sigue:

14
ESTADISTICA DESCRIPTIVA
Nunca
Casi nunca 3%
10%
A veces Siem pre
13% 41%

Casi
siem pre
33%

III.2.4 GRAFICOS DE BARRAS SEPARADAS.

Se utilizan para representar la distribución de frecuencias (absolutas o relativas) de una


variable discreta; en que cada categoría se representa por una barra cuyo alto (o largo) indica
la frecuencia de observaciones en dicha categoría.

EJEMPLO:

La siguiente tabla corresponde a la distribución porcentual de un grupo de familias según la


cantidad de hijos:
Cantidad de hijos Porcentaje de familias
0 15
1 22
2 28
3 19
4 10
5 6

El correspondiente gráfico de barras para esta tabla es el siguiente:

30
Porcentaje de familias

25
20
15
10
5
0
0 1 2 3 4 5
Cantidad de hijos

15
ESTADISTICA DESCRIPTIVA
III.2.5 GRAFICOS DE BARRAS AGRUPADAS.

Se usan para comparar dos o más grupos de datos en un nivel de medición nominal u ordinal.

EJEMPLO:
La siguiente tabla muestra las distribuciones de los empleados y empleadas de cierta empresa
clasificados según antigüedad en la empresa, en años.

Antigüedad Porcentaje de Porcentaje de


(años) empleados empleadas
0-1 12 10
1-2 24 16
2-3 36 32
3-4 14 24
4-5 10 12
≥5 4 6

40
Porcentaje de

30
empleados

Hombres
20
Mujeres
10

0
0 - 1 1 - 2 2 - 3 3 - 4 4 - 5 >=5
Antigüedad

III.2.6 GRAFICOS DE BARRAS DIVIDIDAS.

Son similares a los anteriores, es decir, son útiles para estudiar la distribución de frecuencias
de una variable discreta dentro de diferentes niveles de otra variable discreta, de manera de
poder establecer comparaciones entre tales niveles.

EJEMPLO:
Para los datos del ejemplo anterior, el gráfico de barras divididas que denota los porcentajes de
las antigüedades para hombres y mujeres, quedaría como sigue:

16
ESTADISTICA DESCRIPTIVA
100%
>=5
80%
4-5
60%
3-4
40%
2-3
20%
1-2
0% 0-1
Hombres Mujeres

III.2.7 HISTOGRAMA Y POLIGONO DE FRECUENCIAS.

Ambos gráficos se usan para representar las frecuencias (absolutas o relativas) de variables en
un nivel de medición de intervalos o de razón y continuas; también se pueden usar con
variables discretas con un gran número de valores distintos .

El histograma consiste en una serie de rectángulos adyacentes cuyas áreas son proporcionales
a la frecuencia del intervalo sobre el cual se ubican. Si los intervalos son de igual amplitud, los
rectángulos tendrán una altura proporcional a la frecuencia correspondiente; en todo caso si la
amplitud del intervalo es ci, su frecuencia ni y si k es una constante cualquiera, idéntica para
cada intervalo, la altura de la barra hi debe satisfacer la siguiente igualdad:
n
hi = k ⋅ i
ci

El polígono de frecuencias es un gráfico de líneas trazado sobre las marcas de clase sucesivas,
a la altura de la frecuencia (absoluta o relativa ) de cada intervalo y en el que se deben crear
dos marcas de clase ficticias, una antes del primer intervalo y otra después del último, para
cerrar el polígono.

EJEMPLO:

El volumen de ventas diario que realizan un vendedor de una tienda que se dedica al rubro
electrónico, se resume en el siguiente cuadro:

17
ESTADISTICA DESCRIPTIVA
Ventas Venta promedio Cantidad de días
(miles de $) (miles de $)
900 - 1.000 950 6
1.000 - 1.100 1.050 12
1.100 - 1.200 1.150 18
1.200 - 1.300 1.250 10
1.300 - 1.400 1.350 4

El histograma y polígono de frecuencias para estos datos están en el siguiente gráfico de


rectángulos dibujado con los límites de clase y el gráfico de líneas trazado sobre las marcas de
clase, respectivamente.

Cantidad de días
18

12
10
6 4
4

Ventas
850 950 1.050 1.150 1.250 1.350 1.450 [m$]

III.2.8 GRAFICO ESCALONADO

Es el gráfico de la distribución acumulada (absoluta o relativa) de una variable discreta. En


éste, las frecuencias acumuladas se van presentando en forma de escalera, en que el punto
inicial del peldaño incluye al valor en la escala de la variable y el punto final excluye al punto
en la escala de la variable; con un salto entre clases consecutivas y en que las distancias entre
los distintos escalones representan las frecuencias de cada clase.

EJEMPLO:

La siguiente tabla muestra la distribución acumulada del número de habitaciones desocupadas


durante los últimos cien días en el hotel "X".

18
ESTADISTICA DESCRIPTIVA
Cantidad de habitaciones Porcentaje acumulado de días

0 10
1 26
2 26
3 44
4 68
5 82
6 92
7 100

Su correspondiente gráfica es:

Incluye al 6

Porcentaje Acumulado de días

100
92
82 Excluye al 7

68

44

26

10
N° de
0 1 2 3 4 5 6 7 8 9 habitaciones

III.2.9 OJIVA.

Es el gráfico de la distribución de frecuencias acumulada (absoluta o relativa) de una variable


continua. Es un gráfico de líneas que une las frecuencias acumuladas en los límites inferiores
(y superiores) de cada intervalo.

EJEMPLO:
Usando los datos usados para el histograma y polígono de frecuencias dibujar la ojiva.

Solución.

La tabla de frecuencias acumuladas es como sigue:

19
ESTADISTICA DESCRIPTIVA
Ventas Cantidad Acumulada
(miles de $) de días
900 - 1.000 6
1.000 - 1.100 18
1.100 - 1.200 36
1.200 - 1.300 46
1.300 - 1.400 50

La ojiva es:
DISTRIBUCIÓN ACUMULADA DE LAS VENTAS DIARIAS

Nº acumulado
de días
50 ∞
46
36

18

6 Ventas
0
900 1.000 1.100 1.200 1.300 1.400 1.500 (m$)

20
ESTADISTICA DESCRIPTIVA
IV MEDIDAS DESCRIPTIVAS PARA UNA VARIABLE.

Los conjuntos de datos tienen distintas características que los hace diferenciarse de otros
conjuntos de datos. Estas características se denominan medidas descriptivas y se clasifican en:
medidas de posición, medidas de dispersión y medidas de forma.

Estas medidas descriptivas se pueden obtener tanto en la muestra como en la población.


Cuando los datos corresponden a una muestra, las medidas se denominan estadígrafos y
cuando los datos son de la población, las medidas se denominan parámetros.

IV.1 MEDIDAS DE POSICION

Por lo general, las medidas de posición tienen como objetivo resumir el conjunto de datos de
forma de tener un panorama general de ellos, de manera que sirva como representante de la
globalidad de la información. La mayoría de las medidas de posición indican donde se ubica el
centro de la distribución, por lo que se les llama medidas de tendencia central.

Las medidas de tendencia central son: la media aritmética, la mediana, la moda, la media
geométrica y la media armónica. Las medidas de posición son las cuantilas (cuartiles,
quintiles, octiles, deciles, percentiles).

IV.1.1 LA MEDIA O PROMEDIO ARITMETICO (M ó µ ó x ).

DEFINICION: La media aritmética se define como la suma de todos los valores observados
dividida por el número de datos.

Si los datos son los valores X1, X2,…, XN de la población de tamaño N (finito), la media se
N
X i
i=1
denota por µ y la definición dice que: µ =
; si los datos corresponden a una
N
muestra x1, x2, …, xn de la población, la media aritmética se denota por x , o bien, M(x) y la
n
xi
aplicación de la definición es: x = i =1
.
n
Si los datos de una muestra están ordenados en una tabla de frecuencias, entonces la definición
k
xi ⋅ ni
se transforma en: x= i =1
= xi ⋅ hi ; donde xi es el valor de la variable o marca de
n
clase si los datos son de una variable X discreta o continua, respectivamente.

21
ESTADISTICA DESCRIPTIVA
EJEMPLO:

La siguiente tabla muestra la distribución del saldo de 120 cuentas de crédito, en miles de $,
que maneja en sus archivos la empresa XX.
Saldo Cantidad de cuentas
(miles de $)
0 – 30 10
30 – 60 25
60 – 90 40
90 – 120 20
120 – 150 15
150 – 180 10

Obtener la media aritmética

Solución.

Para obtener la media aritmética, se deben calcular las marcas de clase xi, según se describe
en el siguiente cuadro:

Saldo promedio(xi) Cantidad de cuentas


(miles de $)
15 10
45 25
75 40
105 20
135 15
165 10

La media aritmética está dada por:

15 ⋅ 10 + 45 ⋅ 25 + 75 ⋅ 40 + 105 ⋅ 20 + 135 ⋅ 15 + 165 ⋅ 10


x= = 83,75 [miles de $], lo que se interpreta
120
como "el saldo promedio de las cuentas de crédito de la empresa XX sería de $83.750".

Propiedades de la media.

La media aritmética tiene la gran desventaja de que se ve muy influenciada por los valores
extremos, pero aún así es la medida de tendencia central que más se usa, ya que posee las
siguientes propiedades:

1. La media aritmética de una constante k es igual a la misma constante, es decir,


M(k)=k.
2. La media del producto de una constante a por una variable X, es igual al producto de la
constante por la media de la variable, es decir, M(a⋅ X) = a ⋅ M(X).

22
ESTADISTICA DESCRIPTIVA
3. La media del producto de una constante a por una variable X más otra constante,
digamos b, es igual a la constante a por la media de la variable X más la constante b, es
decir, M(a⋅ X + b) = a ⋅ M(X) + b.
4. La media de la suma de dos variables X e Y, es igual a suma de las medias de cada
una de esas variables, es decir, M ( X + Y ) = M( X ) + M( Y ).
5. xmín ≤ x ≤ xmáx.
n
6. En toda distribución ( xi − x ) = 0 .
i =1
n
7. En toda distribución ( xi − a) 2 es mínimo para a = x .
i =1

Usos de la media aritmética.

La media aritmética resulta ser la mejor medida indicadora de tendencia central cuando la
distribución es más bien simétrica, es decir, no hay observaciones extremas y cuando el nivel
de medición es intervalar o de razón. En caso que no se den estas condiciones la medida más
representativa de la tendencia central es la mediana.

IV.1.2 LA MEDIANA (Me ó ~ ó ~x ).

DEFINICION: La mediana es el valor que está justo al centro del conjunto de datos
ordenados según magnitud; es decir es la observación que supera a no más del 50% de los
datos y es superado por no más del 50% de las observaciones.

Obtención de la mediana:

x n +1
si n es impar
2

x n
+x n
+1
2 2
Me(X) = si n es par
2
n
− N k −1
LI k + c k ⋅ 2 si los datos están ordenados en una tabla de frecuencias con intervalos.
nk

donde: x(i) indica la observación que está en el lugar i del conjunto de datos ordenados.
LIk es el límite real inferior del intervalo que contiene a la mediana.

El intervalo que contiene a la mediana es aquél cuya frecuencia absoluta acumulada alcanza el
n
valor , o bien, su frecuencia relativa acumulada alcanza el valor 0,5.
2

23
ESTADISTICA DESCRIPTIVA
EJEMPLOS:

1) Sea el siguiente número impar de datos: 2 - 5 - 6 - 6 - 7 - 7 - 7- 8 - 9 - 9 -10.

Solución.

El valor mediano de estos datos ordenados es 7. Su interpretación es que el 50% de las


observaciones es al menos igual a 7 y el resto a lo más igual a 7.

2) Sea el siguiente número par de datos: 2 - 2 - 3 - 4 - 4 - 5 - 6 - 6 - 7 - 8.

Solución.

Su mediana es (4+5)/2 = 4,5.

3) La siguiente tabla muestra la distribución de un grupo de familias clasificadas según el


número de hijos:

Nº de hijos Nº de familias
0 12
1 18
2 24
3 32
4 22
5 12
6 2

Para obtener la mediana en este caso debemos obtener las frecuencias acumuladas.

Nº de hijos Nº acumulado de familias


0 12
1 30
2 54
3 86
4 108
5 120
6 122

Por ser un número par de datos, la mediana es el promedio de las observaciones


centrales, que están en la posición 61 y 62, lo que corresponde a 3 hijos; esto significa
que el 50% de las familias tiene a lo menos tres hijos y el otro 50% tiene a lo más tres
hijos.

24
ESTADISTICA DESCRIPTIVA
4) Obtener la mediana en la tabla de frecuencias del ejemplo de la media, de las 120
cuentas.

Solución.
n
Primero se debe calcular el valor y obtener las frecuencias acumuladas.
2

Saldo Cantidad de cuentas Cantidad acumulada


(miles de $) de cuentas

0 – 30 10 10
30 – 60 25 35
60 – 90 40 75
90 – 120 20 95
120 – 150 15 110
150 – 180 10 120

n
= 60 El intervalo que contiene a la mediana es el tercero.
2
60 − 35
Me(x) = 60 + 30 ⋅ = 78,75 [m$], esto significa que el 50% de las cuentas
40
tendrían un saldo de a lo más $78.750 y el 50% restante un saldo de a lo menos
$78.750.

Propiedades de la mediana:

1. El cálculo de la mediana se ve afectado por el número de observaciones y no por la


magnitud de cualesquiera de los extremos, pero no utiliza toda la información como la
media.
2. Cualquier observación seleccionada al azar es igual de fácil que supere a la mediana o
que la mediana supere a la observación.
3. La suma de las diferencias absolutas en torno a la mediana es un mínimo, es decir,
n
x i − a = Mínimo si a = Me .
i =1
4. Escala de medición al menos ordinal.

IV.1.3 LA MODA O MODO (Mo).

DEFINICION: Es el valor más común observado en un conjunto de datos.

Esta es la única medida descriptiva que se puede utilizar en datos medidos en una escala
nominal. Si la variable es continua, la moda (o las modas) corresponden a aquellos valores de
la variable en los cuales la función alcanza un máximo local y habrá tantas modas como

25
ESTADISTICA DESCRIPTIVA
máximos locales; pero si el máximo es global, la moda es única y se habla de distribución
unimodal y si la función es uniforme, entonces no tiene moda.

Obtención de la moda:

- Si los datos están sin agrupar, o bien, si corresponden a una variable discreta ordenada
en una tabla de frecuencias, se aplica la definición para obtenerla.
- Si los datos corresponden a una variable continua agrupada en intervalos, sólo se
puede calcular la moda si los intervalos son de igual amplitud y el intervalo con mayor
frecuencia se denomina clase modal y el valor modal está dado por:
(n k − n k −1 )
Mo(x) = LI k + c ⋅ ,
(n k − n k −1 ) + (n k − n k +1 )
donde, el subíndice k denota al intervalo que contiene la moda, c denota la amplitud de
los intervalos y las nj se refieren a las frecuencias absolutas o relativas.

RELACION ENTRE MEDIA, MEDIANA Y MODA.

Si la distribución es simétrica, las tres medidas coinciden. Gráficamente es:

M=Me=Mo

Si la distribución es unimodal y asimétrica positiva (con cola a la derecha), entonces


M>Me>Mo. Gráficamente es:

Mo Me M

Si la distribución es unimodal y asimétrica negativa (con cola a la izquierda), entonces


M<Me<Mo. Gráficamente es:

M Me Mo

26
ESTADISTICA DESCRIPTIVA
IV.1.4 LAS CUANTILAS.

Las cuantilas son medidas de posición que dividen el conjunto de datos ordenados en un
número determinado de partes iguales. Una de estas medidas es la mediana que divide en dos
partes iguales. Cuando el conjunto ordenado de datos se divide en cuatro partes iguales, los
puntos de división se llaman cuartiles (Qi) y cuando el conjunto ordenado de datos se divide en
cinco partes iguales, los puntos de división se llaman quintiles (Fi); se podría seguir
mencionando otras medidas, pero son los percentiles (Pi) los puntos que denotan la mayor
cantidad de divisiones en partes iguales, dividen el conjunto ordenado en cien partes iguales.
Es la partición más fina de los datos. Como es posible establecer una equivalencia entre los
percentiles y cualquier otra cuantila, como por ejemplo, P50 = Q2 = Me y P20 = F1, será a los
percentiles a quienes estudiaremos en detalle.

El percentil Pk puede definirse como el valor en que el k % de las observaciones es igual o


inferior a él y el (100 - k)% de las observaciones es igual o superior a él.

Obtención de los percentiles:


x k ⋅n +x k ⋅n
+1
100 100 k⋅n
si ∈ℵ
2 100 si los datos sólo se han ordenado de menor a mayor (no se han tabulado).
k⋅n
→x k ⋅n
si ∉ℵ
Pk = +1 100
100

k⋅n
− N k −1
LI k + c k ⋅ 100 si los datos están ordenados en una tabla de frecuencia s con intervalos .
nk

El paréntesis [] indica parte entera y x(i) denota a la observación de la posición i en el conjunto


de datos ordenados.

k ⋅n
Para obtener el resto de las cuantilas, sólo se debe cambiar en la expresión: , el divisor
100
100 por el número de partes en que divide los datos la cuantila.

EJEMPLO:

Los trabajadores de una empresa clasificados según su rendimiento mensual, cuantificado en


cientos de miles de $, dan origen a la distribución presentada en la tabla siguiente.

27
ESTADISTICA DESCRIPTIVA
Rendimiento Cantidad de trabajadores

50 - 70 18
70 - 90 27
90 - 110 20
110 - 130 12
130 - 150 11
150 - 170 9
170 - 190 3

a) Obtenga e interprete P20.

b) ¿Qué porcentaje de trabajadores supera a $11.700.000 en rendimiento?

Solución.
k ⋅n
a) Para obtener P20 primero se debe obtener el valor y compararlo con las
100
frecuencias acumuladas.

Rendimiento Cantidad de trabajadores Cantidad Acumulada de trabajadores

50 - 70 18 18
70 - 90 27 45
90 - 110 20 65
110 - 130 12 77
130 - 150 11 88
150 - 170 9 97
170 - 190 3 100

k ⋅ n 20 ⋅100
= = 20 El intervalo que contiene al valor P20 es el 2º.
100 100
20 − 18
P20 = 70 + 20 ⋅ = 71,48[cientos de miles de $] , es decir, el 20% de los
27
trabajadores tiene un rendimiento de a lo más $7.148.000.

b) Se desea obtener el valor de 100- k tal que Pk = 117.


k − 65
117 = 110 + 20 ⋅ k = 69,2% , es decir el 100-69,2 =30,8% de los
12
trabajadores tiene un rendimiento superior a los $11.700.000.

Existen, además otras medidas de tendencia central pero que son de uso más específico, ellas
son la media geométrica y la media armónica.

28
ESTADISTICA DESCRIPTIVA
IV.1.5 LA MEDIA GEOMETRICA (MG).

DEFINICION: MG = n x1 ⋅ x 2 ⋅ Κ ⋅ x n

La media geométrica se utiliza en el cálculo de promedios de tasas de variación y en la


elaboración de números índices; con el inconveninte que no se puede calcular cuando hay
algún valor igual o inferior a cero.

EJEMPLO:

El PNB de cierto país ha aumentado de 550 u.m. a 1200 u.m. en 10 años, ¿Cuál ha sido la tasa
media de crecimiento?

Solución.
1200
10 = 1,0811 La tasa media de crecimiento anual fue de 8,11%.
550

IV.1.6 LA MEDIA ARMONICA (MH).

1 n
DEFINICION: MH = =
1 ni
M
X yi
La media armónica se usa para obtener un valor representativo de un conjunto de datos
expresados en forma de tasas, esto es, tantas unidades de un tipo por cada unidad de otra
especie.

EJEMPLO: Una persona conduce su vehículos a 60 km/hora los primeros 40 km y a 100


km/hora los siguientes 60 km. ¿Cuál fue la velocidad media en todo el trayecto?

40 + 60
Solución. MH = = 78,95 km/hora.
40 60
+
60 100

NOTA: En cualquier distribución se cumple que: MH<MG<M.

29
ESTADISTICA DESCRIPTIVA
IV.2 MEDIDAS DE DISPERSION.

Son medidas que describen la variabilidad de los datos.

IV.2.1 EL RANGO, AMPLITUD O RECORRIDO(R ó Rx).

DEFINICION: Es la diferencia entre el mayor valor y el menor valor de una serie de


datos, es decir, Rx = xmáx - xmín

Esta es la medida de dispersión más simple de calcular y entender, que sólo tiene
sentido calcularla cuando los datos están en un nivel de medición intervalar o de razón.
Por depender sólo de los valores extremos, su utilidad es muy restringida, ya que estos
pueden presentarse en forma accidental. Se usa bastante en Control de Calidad.

IV.2.2 RANGO INTERCUARTILICO O AMPLITUD INTERCUARTILICA (Q).

DEFINICION: Es la diferencia entre el cuartil tres y el cuartil uno, es decir, Q = Q 3 − Q1 .


Esto se interpreta como la mayor diferencia entre los valores del 50% de
las observaciones centrales en los datos ordenados.

A pesar de ser más adecuada que la anterior, ya que elimina la influencia de los valores
extremos, no permite hacer una interpretación precisa de un valor dentro de la distribución. Al
igual que el rango, se usa bastante en Control de Calidad.

IV.2.3 LA VARIANZA Y LA DESVIACION ESTANDAR.

DEFINICION: La varianza poblacional, que se denota por σ2 (sigma cuadrado), se define


como el promedio de las desviaciones cuadráticas de los valores de la
distribución y su media. Es decir:
N
(x i − )2
2 i =1
=
N
De todas las medidas descriptivas, esta es la única en que es distinta la fórmula poblacional de
la muestral. La varianza muestral, que se denota por s2, está dada por:

n n
(x i − x )2 x i2 − n (x )2
s2 = i =1
= i =1
La última igualdad corresponde al
n −1 n −1
desarrollo de la sumatoria, con lo que se logra una fórmula más fácil para el cálculo. En caso
que los datos estén en tablas de frecuencia la varianza muestral se obtiene por:

30
ESTADISTICA DESCRIPTIVA
n
x i2 ⋅ n i − n (x )2
s2 = i =1
, donde xi es la marca de clase o valor de la clase i y ni corresponde a la
n −1
frecuencia absoluta de la clase i.

El valor numérico de la varianza cuantifica el grado de dispersión de los valores observados de


la variable respecto de su media aritmética, de manera que mientras mayor es la dispersión de
las observaciones, mayor es la magnitud de sus desviaciones respecto a la media aritmética y
por lo tanto, más alto es el valor numérico de la varianza.

Las unidades de medición de la varianza son iguales al cuadrado de las unidades con que se
mide la variable. El valor de la varianza nunca será negativo y como las unidades cuadráticas
son de difícil comprensión es que se usa la desviación estándar, que corresponde a la raíz
cuadrada positiva de la varianza, es decir:
= + 2 corresponde a la desviación estándar poblacional y s = + s 2 corresponde a la
desviación estándar muestral. Las unidades de medición de la desviación estándar son las
mismas con que se mide a la variable.

Para tener una idea de si el valor obtenido en la desviación estándar indica que la dispersión
de los datos es grande o pequeña, podemos usar el teorema de Chebyshev, que establece que
1
la expresión 1 − representa la proporción mínima de los datos que dista no más de k
k2
desviaciones estándar de la media si k ≥ 1; expresado en otros téminos la siguiente afirmación
1
equivale al teorema de Chebyshev: A lo más ⋅100 % de los datos de cualquier conjunto,
k2
distan más de k desviaciones estándar de la media, con k ≥ 1.

Propiedades de la varianza:

Para presentar las propiedades tanto de la varianza poblacional como de la varianza muestral,
se denotará con la letra V a la varianza.
1. La varianza de una constante es cero. V(a) = 0, si a es constante.
2. La varianza del producto de una constante por una variable es igual a la constante al
cuadrado multiplicada por la varianza de la variable. V(b⋅X) = b2 ⋅ V(X).
3. De 1. y 2. podemos concluir lo siguiente:
a) V(a + b⋅X) = b2 ⋅ V(X)
b) V(a - b⋅X) = b2 ⋅ V(X)

(Las demostraciones de estas propiedades se pueden obtener fácilmente aplicando la


definición y las propiedades de la sumatoria y de la media aritmética).

31
ESTADISTICA DESCRIPTIVA
EJEMPLO:

Usando los datos del ejemplo de la media, que se refería a la distribución del saldo de 120
cuentas de crédito,

a) Obtenga la desviación estándar.

b) Si se sabe que por las condiciones económicas los saldos han aumentado un 20%,
determine la nueva desviación estándar.

Solución.

a) Recordemos que los datos para los cálculos son:


Saldo promedio(xi) Cantidad de cuentas
(miles de $)
15 10
45 25
75 40
105 20
135 15
165 10

Suponiendo que los datos son de una muestra, la desviación estándar muestral se
calcularía como sigue:
(15 2 ⋅10 + ... + 165 2 ⋅10) − 120 ⋅ (83,75)2
s= = 41,23 [miles de $]
119

b) Sea X: saldo antiguo


e Y: saldo nuevo
Y = X + 0,2 X = 1,2 X
Aplicando propiedades se tiene que s y = 1,2 s x = 49,48 [miles de $]

Usos de la varianza.

La varianza (o la desviación estándar) se usa como medida de dispersión cuando se ha


utilizado la media aritmética como medida de tendencia central.

También se usa para comparar la dispersión de dos o más distribuciones, cuando ellas
presentan igual media aritmética y las observaciones están en la misma unidad de medida. Por
ejemplo, no se podrá usar en la comparación de la dispersión del rendimiento de la gasolina
de dos vehículos si uno está medido en Km por litro y el otro en millas por galón.

32
ESTADISTICA DESCRIPTIVA
Cuando las distribuciones tienen distinta media aritmética o están en unidades diferentes, se
usa una medida de dispersión relativa, como es el coeficiente de variación.

IV.2.4. EL COEFICIENTE DE VARIACIÓN (CV(x) ó CVx).

DEFINICION: Es el cuociente entre la desviación estándar y la media aritmética. Es decir,


sx
CV(X) = x
para datos poblacionales y CV(X) = para datos muestrales.
x x
Se interpreta como la proporción de variabilidad con respecto a la media. Indica cuán
homogénea o heterogénea es una distribución. Es una medida sin unidades, que multiplicada
por 100 indica la dispersión en términos porcentuales.
Las propiedades matemáticas del coeficiente de variabilidad se obtienen de la aplicación de las
respectivas propiedades en la desviación estándar y la media.

Así como se tiene una medida de dispersión relativa, también existe una medida de posición
relativa, que se llama puntaje típico o estándar.

EJEMPLO:

Con los datos del ejemplo anterior obtener e interpretar el coeficiente de variación.

Solución.

41,23
CV(x) = = 0,4923 Esto significa que hay un 49,23% de variabilidad en los saldos respecto
83,75
del saldo promedio.

PUNTAJE TIPICO O ESTANDAR (zi).

xi − xi − x
DEFINICION: Zi = =
s
Indica el número de desviaciones estándar en que un valor de un conjunto de datos se
encuentra bajo la media (si zi<0) o sobre la media (si zi>0), luego lo que hace es determinar la
posición relativa de una observación dentro de un conjunto, de manera de poder establecer un
ranking con algunas observaciones en particular.

EJEMPLO: Los siguientes datos corresponden a los resultados semestrales de un alumno y


los valores de las medias y desviaciones estándar del curso.

Curso Nota alumno µ σ


A 4,8 4,3 1,2
B 4,5 4,1 0,8
¿En cuál de los dos cursos tuvo mejor desempeño el alumno?

33
ESTADISTICA DESCRIPTIVA
Solución. Se tiene que ZA = 0,4167 y ZB = 0,5; por lo tanto en el curso B tuvo mejor
desempeño, ya que está a una mayor cantidad de unidades de desviación
estándar sobre la media.

IV.3 MEDIDAS DE FORMA.

Existen dos medidas de este tipo, son la asimetría y la curtosis.

IV.3.1 ASIMETRIA

DEFINICION: La asimetría es la medición de la deformación de una distribución respecto


de una curva simétrica o "normal".

Existen varios coeficientes para medir la asimetría (o simetría), entre ellos están:

x − Mo 3(x − Me )
1. AS = = Estos dos coeficientes fueron determinados empíricamente
s s
por Pearson.
n
(x i − x )3
i =1

2. AS = n
3
n
(x i − x ) 2

i =1
n

En todos los coeficientes ocurre que si AS = 0, la distribución es simétrica; si AS<0, la


distribución es asimétrica negativa y si AS>0 la distribución es asimétrica positiva.

IV.3.2 CURTOSIS.

DEFINICION: La curtosis es el grado de apuntamiento de una distribución. Las


distribuciones pueden ser platicúrticas (achatadas), mesocúrticas (normal), o
bien leptocúrticas (elevadas).

Entre las medidas de curtosis está la siguiente:

34
ESTADISTICA DESCRIPTIVA
n
(x i − x )4
i =1
b2 = n
2
n
(x i − x ) 2

i =1
n

Para una distribución normal b2=3, para una platicúrtica b2<3 y para una leptocúrtica b2>3.

DIAGRAMAS DE CAJA Y BIGOTE.

Es una presentación visual que describe tanto la tendencia central como la dispersión, la
asimetría y además los valores atípicos.

El diagrama es una caja alineada en forma vertical u horizontal, el rectángulo se forma con la
amplitud intercuartílica, lo atraviesa una línea que corresponde al cuartil dos. De ambas aristas
del rectángulo nace una línea o bigote que se extiende hasta los valores extremos (máximo y
mínimo) si la distancia a los cuartiles uno y tres respectivamente no supera 1,5 veces la
amplitud intercuartílica. En caso de que esa distancia esté entre 1,5 y 3 veces el rango
intercuartílico se dibujan con círculos llenos los valores, que se denominan atípicos; los puntos
que están más allá de 3 amplitudes intercuartílicas de los bordes de la caja se dibujan con
círculos vacíos y se denominan valores atípicos extremos.

La estructura general es:

Variable
xmín Q1 Q2 Q3 xmáx

35
ESTADISTICA DESCRIPTIVA
III. MEDIDAS DESCRIPTIVAS EN DATOS ESTRATIFICADOS.

En ciertas ocasiones la información de un conjunto de datos se presenta para una cantidad L de


grupos o estratos y de cada estrato se tiene la siguiente información:

n i = tamaño del estrato i ó proporción del estrato i , con i = 1, 2, …, L

xi = media aritmética del estrato i, con i = 1, 2, …, L

σ2i = varianza del estrato i, con i = 1, 2, …, L

En este caso podemos obtener dos medidas descriptivas para el total de los elementos: la
media total y la varianza total.

La media total ( x T ) se obtiene como una media de las medias de los estratos, esto es:
L
xi ⋅ni
L
i =1
xT = donde n = ni
n
h =1

La variación total de los datos tiene dos fuentes de variación, la variación que hay en las
observaciones dentro de los estratos, que se mide con la intravarianza y se denota por σ w2 , y la
variación que se produce entre los distintos estratos, que se mide con la intervarianza y se
denota por σ B2 . Por lo tanto, la varianza total σ T2 se obtiene por:

σ T2 = σ W2 + σ B2

La intravarianza se define como el promedio de las varianzas de los estratos, esto significa
que:
L

σ i2 ⋅ n i
σ W2 = i =1

La intervarianza se define como la varianza de las medias de los estratos, es decir:


L

(x i
− xT ) ⋅ni
2

σ B2 = i =1

n
EJEMPLO:

La siguiente información corresponde al contenido de folacina (Vitamina B) para


especímenes escogidos al azar de cuatro marcas de té.

36
ESTADISTICA DESCRIPTIVA
Marca Cantidad de especímenes Media Varianza
(nh) ( xh ) ( s 2h )
A 7 8,271 2,139
B 5 7,500 2,825
C 6 6,350 1,123
D 6 5,817 2,406

Obtener la varianza total e indicar dónde se produce mayor variación en el contenido de


folacina, entre las distintas marcas o dentro de las marcas.

Solución.
8 , 271 ⋅ 7 + 7 , 5 ⋅ 5 + 6 , 35 ⋅ 6 + 5 ,817 ⋅ 6
xT = = 7 , 0166
24

8,2712 ⋅ 7 + 7,5 2 ⋅ 5 + 6,35 2 ⋅ 6 + 5,817 2 ⋅ 6


σ B2 = − (7,0166) = 0,9785
2

24

2,139 ⋅ 7 + 2,825 ⋅ 5 + 1,123 ⋅ 6 + 2,406 ⋅ 6


σ W2 = = 2,0947
24
σ T2 = 0,9785 + 2,0947 = 3,0732

Existe mayor variabilidad en el contenido de folacina al interior de las marcas, ya que σ W2 > σ B2 .

37
ESTADISTICA DESCRIPTIVA

También podría gustarte