Resumen Modulo Estadistica Drscriptiva

2.
0 Distribución de frecuencias
Es un método para organizar y resumir datos. Bajo éste, los datos que componen
una serie se clasifican y ordenan, indicándose el número de veces que se repite el
valor.
La tabla de frecuencias tiene como finalidad presentar en forma ordenada los

valores que toman las diferentes características tenidas en consideración en un
caso particular, de tal forma que le permitan al lector una visión de conjunto,
aclarando el texto del informe o complementándolo. Bajo este principio los datos
se clasifican y ordenan de acuerdo a ciertas características cualitativas y/o
cuantitativas, indicando el número de veces que se repiten.
2.0.1 Atributos
A continuación se presenta como ejemplo la tabla 1 para mostrar cómo se clasifica

o tabula la información, indicando el número de veces que el atributo se repite, lo
cual se denomina frecuencia de ocurrencia. La proporción, se obtiene dividiendo el
número de observaciones en cada caso por su total, y se le conoce con el nombre
de frecuencia relativa de ocurrencia.
Tabla 1
Movimientos de embarcaciones en los puertos según banderas (enero de 2000)
Banderas Tabulación No. %

Hondureña /// 3 2.48
Inglesa //// //// //// //// //// / 21 17.36
Italiana //// //// /// 11 9.09
Japonesa //// / /// 8 6.61
Otras naciones //// //// //// //// // 18 14.87
TOTAL 61 35.54
2.0.2 Variables
2.0.2.1 Variable continua: cuando se pueden tomar todos los valores

teóricamente posibles entre dos valores dados, es decir, cuando se aceptan
subdivisiones; por ejemplo: la estatura de los estudiantes, la longitud de un
terreno, la distancia de una etapa de una carrera ciclística.
2.0.2.2 Variable discreta: cuando sólo se toman valores enteros; por ejemplo: el
número de estudiantes, las materias que cursaré en el semestre, la cantidad de
aulas de la universidad.
Veamos ahora como se elabora una tabla de frecuencias, tanto para la variable
discreta como para la variable continua. Pero antes revisemos la simbología que
se utiliza en la elaboración de estas tablas, necesarias para el cálculo de las
diferentes medidas que se aplican en el análisis de los datos.
N = Tamaño poblacional.
n = Tamaño de muestra.
Xi = Característica cuantitativa (observada en cada unidad investigada).
ni = Frecuencia absoluta (número de veces que se repite cada valor de la
variable).
hi = Frecuencia relativa (se obtiene dividiendo cada frecuencia absoluta por el
tamaño de la muestra o el tamaño poblacional).
Ni = Frecuencia absoluta acumulada.
Hi = Frecuencia Relativa acumulada.
m = Número de valores que toma la variable (número de marcas de clase o
número de intervalos).
Y’i-1 = Variable discreta o marca de clase.
Y’i-1 - Y’i = Los intervalos en los que se divide la variable continua (siendo Y’ i-1 el
límite inferior y Y’i
el límite superior del intervalo).
C = Amplitud del intervalo entre Y’i-1 - Y’i.
Variable Discreta
Ejemplo para variable discreta:
La elaboración de una tabla de frecuencias la explicaremos mediante ejemplo:

supongamos que se tienen 300 cajas de madera en la bodega de una almacén y
cada una de ellas contiene figuras en porcelana. Se desea examinar las cajas con
el fin de saber el número de figuras que han sufrido desperfectos en el transporte
desde la fábrica hasta la bodega. Por motivos de tiempo, espacio físico y personal
disponible, se toma la decisión de revisar sólo un 10 % de las cajas: 30 cajas de
un total de 300.
N = 300 - (tamaño de la población)

n = 30 - (tamaño de la muestra)
Cada caja seleccionada en forma aleatoria se simboliza por xi (minúscula en la

muestra mayúscula en la población), de donde el subíndice i toma valores desde 1
hasta n, siendo x, la primera caja seleccionada, x2 la segunda y así
sucesivamente. Cada x, tendrá como valor el correspondiente a la característica
examinada (en este ejercicio le corresponderá el número de figuras con
desperfectos).
Tabla 2
Datos originales o no agrupados:
X1= 2 X6 = 3 X11 = 0 X16 = 2 X21 = 2

X26= 2
X2= 1 X7 = 2 X12 = 2 X17 = 3 X22 = 2 X27
=3
X3 = 1 X8 = 2 X13 = X18 = 0 X23 = 1 X28
=2
X4 = 0 X9 = 2 X14 =1 X19 = 3 X24 = 4 X29
=1
X5 = 3 X10 = 4 X15 = 2X20 = 2 X25 = 3 X30 = 2
La anterior información la denominaremos de ahora en adelante datos sin agrupar

o datos originales.
2.0.3 Tabulación
En este proceso se requiere, en primer lugar, determinar los valores que toma la
variable. Con los datos de la tabla 2, correspondiente al número de figuras con
desperfectos por caja examinada, encontramos que los valores de la variable son
0, 1, 2, 3 y 4, tal como puede verse en la tabla 3.
Tabla 3
Tabla de frecuencias - Variable discreta
No. de figuras Tabulació No. de %

desperfectas n cajas
0 /// 3 0.10
1 //// // 6 0.20
2 //// //// //// 12 0.40
3 //// /// 7 0.23
4 // 2 0.07
Total 30 1.00
Para determinar el % se divide el primer valor, en este caso 3, sobre el
número total que es 30, dando como resultado 0.10 que equivale al 10%.
Al hacer el conteo manual, sobre el número de veces que se presenta cada valor
que toma la variable, cada raya corresponde a una observación.
Para la presentación de un informe hay que tener en cuenta que: a) todo cuadro
requiere ser numerado; b) debe poseer un título completo que indique su
contenido; c) se prescinde de las columnas utilizadas para la tabulación en la
tabla, las cuales son reemplazadas por la frecuencia absoluta, con la posibilidad
de agregar otra columna correspondiente a la frecuencia relativa, la que nos
indicará la distribución porcentual. En el cuadro anterior, por ejemplo, se podrá
leer que el 10% de las cajas no tienen figuras defectuosas, porcentaje que se
obtiene al dividir la frecuencia absoluta (tres) por el tamaño de la muestra (treinta)
y luego se multiplica por cien.
De ahora en adelante, para el cálculo de promedios o de cualquier otra medida

estadística, suprimiremos los títulos que llevan las columnas y los remplazaremos
por símbolos, facilitándonos de esta manera la explicación de las diferentes
medidas.
La variable discreta la simbolizaremos por yi (minúscula para la muestra y

mayúscula para la población), donde el subíndice i toma valores desde 1 hasta m
(número de valores que la toma la variable). Siendo m = 5, se tendrá: Y1, Y2, Y3,
Y4, Y5.
Tabla 4
Tabla de frecuencias
Yi ni hi Ni Hi
Y1 n1 h1 N1 H1
Y2 n2 h2 N2 H2
Y3 n3 h3 N3 H3
Y4 n4 h4 N4 H4
Y5 n5 h5 N5 H5
n 1.00
Tabla 5
Distribución de frecuencia
Yi ni hi Ni Hi
0 3 0.10 3 0.10
1 6 0.20 9 0.30
2 12 0.40 21 0.70
3 7 0.23 28 0.93
4 2 0.07 30 1.00
30 1.00
Además, la frecuencia absoluta se simbolizara por n, al igual que en Yi, donde i

toma valores desde 1 hasta m. Otras columnas que podrá tener la tabla de
frecuencias, dependiendo de la necesidad que se tenga en cada caso particular,
son: hi (frecuencia relativa), Ni (frecuencia absoluta acumulada) y Hi (frecuencia
relativa acumulada). Los anteriores símbolos se presentan en la tabla 4
anteriormente mostrada.
Utilizando la información de la tabla 3, calcularemos las frecuencias absolutas,
relativas y acumuladas, tal como puede verse en la tabla anteriormente mostrada
(Tabla 5). El calculo de la frecuencia relativa se efectúa de la siguiente forma:
hi = ni/n
Entonces, se tendría que:
h1 = n1/n = 3/30 = 0.10 ó
10%
h2 = n2/n = 6/30 = 0.20 ó
20%
h3 = n3/n = 12/30 = 0.40 ó
40%
h4 = n4/n = 7/30 = 0.23 ó
23 %
h5 = n5/n = 2/30 = 0.07 ó
7%
Nota: se aproximó de tal manera que si sumamos las anteriores frecuencias

relativas el resultado será 1.
Se puede observar en la tabla 5 que la frecuencia absoluta nos indica que, de las
30 cajas examinadas, tres de ellas no presentan figuras defectuosas, seis cajas
presentaron una figura defectuosa y así sucesivamente. La frecuencia relativa
indica lo mismo, pero en términos porcentuales; así un 10% de las cajas
examinadas no presentaron figuras defectuosas, el 20% de las cajas tienen una
figura defectuosa, etc. La obtención de las frecuencias absolutas acumuladas se
hace por medio de sumas sucesivas, las que se simbolizan por Ni. La columna de
N no se suma y la última frecuencia absoluta será igual a n.
N1 = n1 = 3
N2 = n1 + n2 = N1 + n2
N2 = 3 + 6 = 9
N3 = n1 + n2 + n3 = N2 + n3
N3 = 3 + 6 + 12 = 9 + 12 = 21
Ejemplo para variable continua:
Consideremos nuevamente las 300 cajas (N = 300) y seleccionemos

aleatoriamente una muestra de 30 cajas (n = 30), es decir el 10%, a fin de
investigar el peso en kg de cada caja. La información sobre el peso de cada caja,
se da en números enteros con el fin de simplificar el trabajo; pero no olvidemos
que la media utilizada (peso) admite valores fraccionarios (libras y onzas), por tal
motivo se la clasifica como variable continua.
Tabla 6
X1 = 48 X7 = 70 X13 = 92 X19 = 85 X25 = 52

X2 = 56 X8 = 63 X14 = 70 X20 = 68 X26 = 58
X3 = 60 X9 = 72 X15 = 69 X21 = 82 X27 = 76
X4 = 67 X10 = 76 X16 = 61 X22 = 55 X28 = 57
X5 = 47 X11 = 74 X17 = 71 X23 = 65 X29 = 72
X6 = 70 X12 = 67 X18 = 79 X24 = 88 X30 = 67
2.0.4 Pasos para la elaboración de la tabla o cuadro de frecuencias
a) Se determina el valor máximo y mínimo que toma Xi:
X (min) = 47 ; X (max) = 92
b) La diferencia que hay entre el valor máximo y el mínimo se denomina rango o

recorrido:
X (max) - X (min) = rango o recorrido

rango = 92-47 = 45
c) Se hace necesario determinar el número de intervalos (m) que se utilizarán para

agrupar los datos:
M o K= número de intervalos o marcas de clase
Una de las formas de obtener m es aplicando la regla de Sturges, con la cual se

obtiene una aproximación sobre el número de intervalos necesarios para
agruparlos.
M o K = 1 + 3.3 log n
Aplicando la fórmula al ejercicio de las 30 cajas, cuya información aparece en la

tabla 6, se tendrá:
m = 1 + 3.3 log 30 para poder desarrollar ésta ecuación se maneja de

derecha a
izquierda.
m = 1 + 3.3 (1.4771)
m = 1 + 4.8744 = 5.87 Este resultado, tiene que ser un número entero, por lo
tanto
se aplica el criterio de aproximación, teniendo en cuenta
que
el primer decimal debe ser .5 hasta .9 se aproxima o si
es .0
hasta .4 se deja el entero tal como está.
Por lo tanto, el número de intervalos de acuerdo a la regla de Sturges, estará entre

5 o 6. Utilizaremos en nuestro ejercicio 6 intervalos (m = 6).
Para evitar posibles errores se hace necesario tener en cuenta una regla muy
sencilla para que la aplicación de m o k: tomamos del resultado el primer
decimal; si éste es 0,1,2,3 ó 4 se deja el número entero tal como está, pero si
es 5,6,7,8 ó 9, se aproxima el entero al número siguiente. En el anterior
cálculo que nos dio 5.87; se toma el primer decimal y se aplica la anterior
regla de aproximación, por lo que quedaría en 6.
En la práctica m se determina atendiendo varios factores, tales como:
1. Finalidad del estudio

2. Grado de variabilidad de los datos
3. Necesidad de efectuar comparaciones.
En todo caso se recomienda que el valor de m o k, hasta donde sea posible,

no sea menor de 5 ni mayor de 16.
d) Una vez determinado el número de intervalos, se debe decidir el valor de la

amplitud para cada intervalo (C):
Al determinar el valor de C, no es necesario que ésta sea igual para todos los
intervalos, tal como acontece en numerosos casos prácticos. Sin embargo, con
fines de simplificación y funcionalidad, se puede considerar el valor de C como
una constante para todos los intervalos. Dicho valor constante se obtiene
aplicando la siguiente formula:
C = (X max - X min) / m
En nuestro ejercicio se tendrá:
C = (92 – 47) / 6 = 45/6 = 7.5
Para facilitar los cálculos se aproximaría C a 8, esto es, siempre al número

inmediatamente superior por pequeña que sea la fracción; por lo tanto, se altera el
valor del rango. La regla que se anunció con anterioridad para el cálculo de m o k,
se aplica de igual forma para el cálculo de C. Esta C para algunos autores
representa el intervalo de clase (I C) o como Y’j-1 – Y’j. Pero es importante aclarar
que el principio matemático es el mismo; la mayoría de autores utiliza
nomenclaturas, palabras o signos diferentes para indicar lo mismo.
Entonces: C = 8
El rango se incrementa en tres unidades, es decir, de 45 pasó a 48. El incremento

debe ser distribuido, ojalá proporcionalmente, sumando unas unidades al límite
superior y restándole otras al límite inferior. Las situaciones que se pueden
presentar al hacer la repartición del incremento se exponen a continuación.
Cualquiera de las situaciones siguientes en la determinación de los límites del

nuevo rango son válidas, siendo preferible distribuir dicho incremento en forma
proporcional.
X max - X min = recorrido

92 - 47 = 45 (originalmente)
95 - 47 = 48
94 - 46 = 48
93 - 45 = 48
92 - 44 = 48
La columna correspondiente a la variable continua se simbolizara por Y’i-1 - Y’i

(ambas minúsculas para la muestra y las mayúsculas para la población).
Y’ i-1 = límite inferior del intervalo

Y’i = límite superior del intervalo
f) Para la elaboración de los intervalos, se inicia con la determinación del valor de

xmin en el nuevo rango, siendo en nuestro caso 46, el cual se toma como el límite
inferior Y’0 del primer intervalo. Luego se procede a agregarle el valor, que será, a
su vez, el límite inferior del segundo intervalo; éste se le agrega nuevamente el
valor de C para obtener el límite superior del segundo intervalo y así
sucesivamente hasta conformar la columna de la variable continua.
Ejemplo para visualizar mejor el procedimiento de una construcción de tabla de

frecuencias,
Una tabla de distribución de frecuencias sirve para resumir un conjunto de datos

estadísticos
2.0.4.1 Número de clase
K = 1 + (3.3)(log n)
n: es la sumatoria de todos los datos que se van a analizar
K: se puede definir como la cantidad de intervalos de clase que pueden existir en

una tabla de frecuencias
n = 50
K= 1+3.3(log 50)
K= 6
2.0.4.2 Intervalo de clase
Cuando la variable es continua o es discreta pero toma una gran cantidad de

valores, conviene dividir el rango de la variable en unos pocos intervalos (entre
105 y 122) y repartir los valores en ellos. El resultado será una tabla de
frecuencias en la cual la variable, en lugar de tomar valores numéricos concretos,
varía dentro de intervalos. Es necesario establecer el límite inferior y el límite
superior
IC = límite superior – límite inferior

----------------------------------------------
número de clase (K)
IC = 205-105/6
IC = 16.66, se aproxima a 17.
2.0.4.3 Límite de clase

Se define como la observación menor y la observación mayor de cada intervalo de
clase.
LÍMITE INFERIOR LÍMITE SUPERIOR

Y’J – 1 Y’J
2.0.4.4 Marca de clase (Yi)
Es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y
superior de la clase y dividiendo entre dos (2)
Yi = límite superior + límite inferior / 2
2.0.4.5 Frecuencia absoluta (ni)
Se define como el número de observaciones que están dentro de cada intervalo

de clase, es decir, se deben encontrar las frecuencias de clase. Nota: el conteo
debe ser cuidadoso y exacto.
2.0.4.6 Frecuencia absoluta acumulada (Ni)

Es la suma progresiva de cada uno de los datos que se encuentran en la columna
de frecuencia absoluta (ni), en la cual, el último número debe ser igual al número
de observaciones (n).
2.0.4.7 Frecuencia relativa (hi)

Es el resultado de la frecuencia absoluta dividida entre el total de observaciones.
2.0.4.8 Frecuencia relativa acumulada (Hi)

Es la suma progresiva de cada uno de los datos que se encuentran en la columna
de frecuencia relativa (hi), en la cual el último número corresponde a un
porcentaje, y la diferencia entre éste y el 100% indica el margen de error (ME).
2.0.4.9 % hi
Se define como el valor de la frecuencia relativa (hi) expresado en términos
porcentuales.
3.0.1 Media aritmética
La media aritmética representa el centro físico de un conjunto de datos y se define

como la suma de los valores observados dividido por el número total de
observaciones.
Ventajas
 Todo conjunto de datos tiene una y sólo una media.

 La media es útil para llevar a cabo procedimientos estadísticos como la
comparación de varios conjuntos de datos.
 Se trata de un concepto familiar para la mayoría de las personas y es
intuitivamente claro.
Desventajas
 Puede verse afectada por valores externos que no son representativos

para el resto de los datos.
 Es dispendioso aplicar este método para un número alto de
observaciones.
 Es un poco complicado calcular la media para un conjunto de datos que
tiene intervalos de extremo abierto (ya sea el inferior o el superior de la
escala).
3.0.1.1 Media aritmética para datos no agrupados

Es la suma de todos los valores de la muestra divididos por el número total de
valores sumados.
Ejemplo:
X =543
x 1 + x 2 + x 3 +. . .+ xn
x=
n
10867
x= =543 .35≈543
20
Ejemplo:
Los diez datos: 44,59,36,55,47,61,53,32,65,51 tienen como media aritmética:
44 +59+36+55+ 47+61+53+32+65+51 503

x= = =50 .3
10 10
3.0.1.2 Media aritmética para datos agrupados
Primero se calcula el punto medio de cada clase; luego se multiplica cada punto
medio por la frecuencia de la observación de dicha clase. Sumamos todos los
resultados, dividimos esta suma entre el número de observaciones de la muestra.
y=
∑ Y i . ni
n
Ejemplo:
K Yj-1-Yj Yi ni Yini
1 515 – 531 523 9 4707

2 532 – 548 540 5 2700
3 549 - 565 557 1 557
4 566 - 582 574 3 1722
5 583 - 599 591 2 1182
20 10868
10868
y= =543 . 4
20
Ejemplo:
28 ,35, 7,9 ,18, 20, 23. 37, 36, 48, 52, 63, 32, 18, 67, 23, 24, 15, 18, 20, 28, 87, 80,
75, 55, 63, 92, 75, 97.
K Yj-1-Yj Yi ni Yini
1 15-29 22 11 242
2 30-44 37 4 148
3 45-59 52 3 156
4 60-74 67 3 201
5 75-89 82 5 410
6 90-104 97 2 194
28 1351
1351
solución= 48 . 25
28
3.0.2 Primer método de la media z'

i= y i −ot
aritmética
Obsérvese que se procede a realizar una columna del Z’i, tal como lo indica la
fórmula. A cada valor de Yi se resta el valor del origen del trabajo; éste es un valor
intermedio en la distribución de los valores de Yi. Si el número de valores de Yi es
impar, el origen del trabajo es el valor de Yi que se ubica en la mitad de las
observaciones. Tomemos el ejemplo anterior: Yi: 523, 540, 557, 574, 591; el valor
que queda en la mitad de los valores de Yi es 557; este valor corresponderá al
origen del trabajo (Ot). Pero si los valores de Yi son un número par, siempre se
toma el número que queda por encima del que corresponde a las dos opciones.
Por ejemplo, Yi: 523, 540, 557, 574, 591, 608 (seis valores de Yi), por lo tanto, las
dos opciones serían 557 y 574; pero, como se dijo, se toma siempre el que está
como primera opción de izquierda a derecha, en este caso 557. Pero como
siempre va a estar ubicado en la columna corresponde al que está en la parte
superior de las dos opciones. n
K Yj-1-Yj Yi ni Yini Zí Zí.ni

1 515 –531 523 9 4707 -34 -306
2 532 –548 540 5 2700 -17 -85
3 549 -565 557 1 557 0 0
4 8u089uy97
566 -582 574 3 1722 17 51
8ty8657656
5 583 -599 591 2 1182 34 68
5565565 20 10868 -272
557+ {−272 }
y= =543 . 4
20
De acuerdo a lo anterior, se puede deducir que el primer método abreviado es otra

alternativa para hallar la media aritmética, ya que simplemente se detectan las
variaciones de cada valor de Yi con respecto al origen del trabajo.
3.0.3 Segundo método abreviado de la media aritmética

c . z ''i n
y=ot +
n
z'i
z ''i =
c
Nótese que z’i ya se había calculado; en consecuencia, sólo resta calcular la

constante C, que se determina de las variaciones de Yi. Para el ejemplo que a
continuación se relaciona, se toman los valores de Yi, así:
52, 54, 55, 57 y 59, si restamos 59 – 57 = 2 ; 57 – 55 = 2 ; 55 – 54 = 2 y así

sucesivamente.
K Yj-1-Yj Yi ni Yini Zí Zí.ni Z´í Z´í.ni

1 515-531 523 9 4707 -34 -306 -2 -18
2 515-
532-548 540 5 2700 -17 -85 -1 -5
3 549 531
531 - 565 557 1 557 0 0 0 0
531531 z
4 566 - 582 574 3 1722 17 51 1 3
–
í.ni
5 583 - 599 591 2 1182 34 68 2 4
531
20 10868 -272 -16
17 {−16 }
y=557+ =543 . 4
20
3.0.4 La Mediana
Es una medida de tendencia central diferente a cualquiera de las que hemos

tratado hasta ahora. La mediana es un sólo valor calculado a partir del conteo de
datos que mide la observación central de estos. De acuerdo a lo anterior,
podemos decir que la mediana es el valor que divide un conjunto de
observaciones ordenadas respecto de la magnitud de los valores, de tal manera
que el número de datos por encima de la mediana sea igual al número de datos
por debajo de la misma.
Ventajas
 La mediana es fácil de entender y se puede calcular a partir de cualquier

tipo de datos, aun a partir de agrupados con clase de extremo abierto.
 Podemos encontrar la mediana incluso cuando nuestros datos son
descriptivos (como color o nitidez) en lugar de tener números.
Desventajas
 Ciertos procedimientos estadísticos que utilizan la mediana son más

complejos.
 Debido a que la mediana es una posición promedio, debemos ordenar los
datos antes de llegar a cualquier cálculo.
3.0.4.1 Mediana para datos no agrupados
Para hallar la mediana de un conjunto de datos, primero organícelos en orden

ascendente o descendente. Si el conjunto de datos contiene un número impar de
elementos, el del medio es la mediana; por otro lado, si es par, el número
siguiente de la mitad hacia arriba es la mediana.
Ejemplo:
X1 = 21, X2 = 6, X3 = 4, X4 =16, X5 = 12, X6 = 36, X7 = 2.
2 – 4 – 6 – 12 – 16 – 21 - 36
n+1
mediana=
1
n+1
me=
1
7 +1 8
me= = =4
1 2
me = 8 / 2 = 4, lo que corresponde a la cuarta observación; para este ejemplo la
mediana es: 12.
Para realizar éste cálculo, se hace necesario ordenar las observaciones de menor
a mayor.
3.0.4.2 Mediana para datos agrupados
Se obtiene mediante la interpolación que se basa en el supuesto de que los datos

de cada intervalo están igualmente distribuidos.
El primer paso para calcular la mediana a partir de unos datos agrupados consiste
en determinar la clase mediana: aquella en donde está situada la mediana; ésta se
halla al efectuar el cociente n/2. Una vez hallada la clase, determinamos el límite
real inferior del intervalo de clase; a este valor se le adiciona la fracción formada
por n/2 menos la frecuencia acumulada dividida por la frecuencia de clase y
multiplicada por el intervalo.
3.0.5 Moda
Como su nombre lo sugiere, es el valor más común (de mayor frecuencia dentro
de una distribución) que una información puede tener:
• una moda (unimodal);
• dos modas (bimodal);
• varias modas (multimodal).
Sin embargo, también puede ocurrir que la información no posea moda en
absoluto.
La moda es una medida de tendencia central diferente de la media, pero un tanto

parecida a la mediana, pues en realidad no se calcula mediante un proceso
aritmético ordinario.
Ventajas
 La moda, al igual que la mediana, se utiliza como una posición central

tanto para datos cualitativos como cuantitativos.
 La moda no se ve muy afectada por los valores extremos, aun si estos son
muy altos o muy bajos.
 Se puede utilizar incluso cuando una o más clases sean de extremo
abierto.
Desventajas
 La moda no es muy utilizada como medida de tendencia central.

 Muy a menudo no existe un valor modal debido a que el conjunto de datos
no contiene valores que se presenten más de una vez; por otra parte,
cuando los conjuntos de datos contienen dos, tres o más modas, éstas
resultan difíciles de interpretar y comparar.
3.0.5.1 Para datos no agrupados
515 528 536 569

516
517
529
529
536
539
581
582
Md =
5
521
523
529
532
543
563
583
596 2
Ejemplo: 9
•15 18 18 18 20 20 23 23 24 28 28 32 35 36 37 48 52 55 63 63 67 75 75 79 80 87
92 97
El número 18 es el de mayor frecuencia.

Éste será la moda para los datos no agrupados.
3.0.5.2 Moda para datos agrupados
Cuando los datos ya se encuentran agrupados en una distribución de frecuencia,

podemos suponer que la moda está localizada en la clase que contiene el mayor
número de elementos, es decir, en la clase que tiene la mayor frecuencia.
3.0.9 Cuartiles
Los cuartiles son valores posicionales que dividen la información en cuatro partes
iguales: el primer cuartil deja el 25% de la información por debajo de él y el 75%
por encima; el segundo cuartil, al igual que la mediana, divide la información en
dos partes iguales; por último, el tercer cuartil deja el 75% por debajo de sí y el
25% por encima.
Su fórmula:
n
−n +1
4 j
Q 4 = y ' −1+c
nj
3.0.10 Quintiles
Los quintiles o quintillas dividen la información en cinco partes iguales,

agrupándolas en porcentajes de 20, 40, 60 y 80 %; en consecuencia, debemos
calcular 4 parámetros.
Su fórmula es:
n
−n j−1
5
qi = y ' j−1 +c
nj
3.0.11 Deciles
Los deciles o decillas dividen la información en diez partes iguales, en cantidades

porcentuales de diez en diez.
Su fórmula es:
n
−n j+1
10
d= y ' j−1 + c
nj
3.0.12 Centiles
Los centiles o decillas dividen la información en 100 partes, lo que facilita la

interpretación porcentual de una distribución de frecuencias.
Su fórmula es:
n
−n j+1
100
p= y ' j−1 +c
nj
Conclusión
La estadística a través de las medidas de tendencia central nos demuestra la

manera en que podemos comparar e identificar situaciones reales dentro de una
empresa de carácter oficial o privado, instituciones, entidades o el vida de cada
individuo a fin de aplicarla y lograr mayor eficiencia dentro de nuestras actividades.
Poblaciones y muestras
Cuando se realiza un estudio de investigación generalmente se pretende inferir o

generalizar resultados a partir de la muestra de una población; se estudia en
particular al reducido número de individuos a los que tenemos acceso con la idea
de poder generalizar los hallazgos a la población de la cual esa muestra procede.
Este proceso de inferencia se efectúa por medio de métodos estadísticos basados
en la probabilidad.
La población representa el conjunto grande de individuos que deseamos estudiar y

que, generalmente, suelen ser inaccesibles; es, en definitiva, un colectivo
homogéneo que reúne unas características determinadas. Por su parte, la muestra
es el conjunto menor de individuos, es decir, el subconjunto de la población
accesible, sobre el cual realizamos las mediciones o el experimento con la idea de
obtener conclusiones generalizables a la población. Pero para cumplir con lo
anterior, la muestra debe ser representativa de la población, esto es, que cualquier
individuo de la población en estudio debe haber tenido la misma probabilidad de
ser elegido. Finalmente, el individuo es cada uno de los componentes de la
población y la muestra.
CONTENIDO
4.0 Medidas de Dispersión
4.0.1 Varianza
4.0.2 Desviación standar
4.0.3 Coeficiente de variación
4.0.4 Coeficiente de variación de Pearson
4.0.5 Desviación Media
Unidad 4
Introducción
Como complemento al tema de los estadígrafos de posición, se analizarán los

estadígrafos de dispersión, los cuales determinan el comportamiento de los datos,
cómo se agrupan y cómo se dispersan alrededor de una media o promedio. Lo
anterior es debido a que las informaciones que nos proporcionan las medidas de
tendencia central son bastantes limitadas y no nos dicen qué tan diseminados
están los datos y cómo un dato se comporta respecto al otro.
Justificación
No sólo se hace necesario hallar medidas que de alguna forma representan datos
válidos, sino que hay que asociarlas con otras con el fin de estar seguros que los
resultados obtenidos tengan una mayor credibilidad y confiabilidad; es necesario
hacer notar que estas nuevas medidas dependen de las analizadas en el capítulo
anterior.
Objetivo General
Contribuir al proceso enseñanza-aprendizaje de la estadística a partir de
herramientas que faciliten la deducción y el poder inferir acerca de un problema
planteado de la vida diaria y que sirvan de soporte para la introducción de la
probabilidad.
Evaluación Diagnóstica
Siempre que en los métodos de cuantificación se presenten resultados, se debe

tener en cuenta la dispersión de los mismos respecto a un eje principal, esto hace
que los datos tengan una mayor o menor, según el caso, desviación esto se debe
a que los datos no tienen una presentación homogénea, para lograr entrar a este
mundo es necesario indagar sobre la situación real del conocimiento, así:
1. La palabra dispersión, significa:
a. Aumento
b. Carrera desenfrenada.
c. Aleatorio.
d. Alejarse o acercarse de un punto determinado,
e. Ninguna de las anteriores,
2. Siempre que se está hablando de desviación es estadística. Hace referencia a:
a. Dispersión de los datos respecto a su media.
b. Relación directa con los datos.
c. Inversamente proporcional al conteo.
d. Todas las anteriores.
3. Los estadígrafos de dispersión son:
a. Métodos de hallar la media.
b. Una forma de graficación.
c. Una herramienta para verificación de los datos.
d. Una unidad de volumen.
4.0 Medidas de dispersión
Un aspecto a tener en cuenta al describir datos continuos es la dispersión de los

mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la
varianza (s2) de los datos es la más utilizada; ésta es la media de los cuadrados
de las diferencias entre cada valor de la variable y la media aritmética de la
distribución.
4.0.1 Varianza
n
∑ ( x j− Media ( x )) 2
j −1
S 2x=
n
4.0.2 Desviación estándar

Una manera más precisa de dar idea de la dispersión de valores de una población
es a través de la varianza o su raíz cuadrada, que es la desviación estándar.
Siendo las medidas de variabilidad más importantes, conviene destacar algunas

características de la varianza y de la desviación típica:
 Son índices que describen la variabilidad o dispersión y, por tanto, cuando

los datos están muy alejados de la media, el numerador de sus fórmulas
será grande y la varianza y la desviación típica también lo serán.
 Al aumentar el tamaño de la muestra, disminuye la varianza y la
desviación típica.
 Cuando todos los datos de la distribución son iguales, la varianza y la
desviación típica son iguales a 0.
 Para su cálculo se utilizan todos los datos de la distribución; por tanto,
cualquier cambio de valor será detectado.
 Es una medida de cuánto se desvían los datos de su media. Esta medida
es más estable que el recorrido y toma en consideración desviación
estándar el valor de cada dato.
 Según sea el caso, para calcular la desviación estándar se aplica la
fórmula que corresponde a una población o a una muestra.
 En todas las calculadoras que permitan entrar datos y calcular la media,
para el cálculo de la desviación estándar sólo se requiere invocar la
función de desviación estándar correspondiente.
Recorrido
Es la diferencia entre el dato mayor y el dato menor. La traducción de recorrido en
inglés es "range" y por eso también se la conoce como "rango". Ésta medida de
dispersión es comúnmente usada porque es fácil de calcular. Sin embargo, no es
muy confiable, ya que dos grupos de datos pueden tener el mismo recorrido y ser
bien diferentes en cuanto a lo dispersos que están entre sí.
Ejemplo rango: recorrido Bavaria
En el 2001 Bavaria seleccionó dos departamentos para premiarlos por su

comportamiento en las ventas durante los 5 primeros meses del año (Atlántico y
Antioquia).
Las ventas están dadas por miles de unidades en canastas de cerveza.
Enero Febrero Marzo Abril Mayo

A- 2500 28000 3500 33000 31000
Antioquia 0 0
B- 3100 15000 1900 36000 51000
Atlántico 0 0
VENTAS DE CERVEZA
60,000.00
50,000.00
40,000.00 Antioquia
30,000.00
20,000.00 Atlántico
10,000.00
-
enero febrer marzo abril mayo
o
La compañía encontró dificultades para otorgar el premio pues ambas regionales

obtuvieron el mismo promedio de ventas.
∑ datos de a / meses
∑ datos de b / meses
media = 30.400 unidades
mediana = 31.000 unidades
Sin embargo, el recorrido de la regional a (Antioquia) fue de 6.000 unidades

mientras que el de b (Atlántico) fue de 20.000 unidades. Esto indicó que Antioquia
fue más consistente en ventas que Atlántico, lo que llevó al jurado a otorgarle el
primer puesto a Antioquia.
4.0.3 Coeficiente de variación.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Ésta es una
medida de la dispersión relativa de los datos y se calcula dividiendo la desviación
típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba
en que nos permite comparar la dispersión o variabilidad de dos o más grupos.
Ejemplo:
Si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 kg) cuya media es de 69,6
kg, su desviación típica (s) = 10,44, la tas( tensión arterial) de los mismos (150,
170, 135, 180 y 195 mmhg) cuya media es de 166 mmhg y su desviación típica de
21,3. ¿Qué distribución es más dispersa, el peso o la tensión arterial?
Si comparamos las desviaciones típicas observamos que la desviación típica de la

tensión arterial es mucho mayor; sin embargo, no podemos comparar dos
variables que tienen escalas de medidas diferentes, por lo que calculamos los
coeficientes de variación:
10 , 44
CV de la variable peso= =15 %
69 , 6
21. 3
=12. 83 %
CV de la variable tas = 166 presión arterial
Vamos a calcular la varianza y la desviación estándar de un número pequeño de

datos (una muestra) para ilustrar el cálculo. Supongamos que se midió la
producción de litros de cerveza de 10 días, y se obtuvieron los valores siguientes:
165 mil litros 163 mil litros

El promedio de estas observaciones es:

x=163 .2 cm
Si a cada una de las observaciones le restamos el promedio, obtenemos los

residuos.
xi x i−x
•165 • 1.8
•163 •-0.2
•171 • 7.8
•156 •-7.2
•162 •-1.2
•159 •-4.2
•162 •-1.2
•168 • 4.8
•159 •-4.2
•167 • 3.8
Los residuos también nos dan una idea de la dispersión de las observaciones
individuales alrededor del promedio. Si el valor absoluto de los residuos es grande,
es porque los valores están muy dispersos, pero si el valor absoluto de los
residuos es pequeño, significa que las observaciones individuales están muy cerca
del promedio y, por lo tanto, hay poca dispersión.
•165 • 1.8 • 3.24
•163 •-0.2 • 0.04
•171 • 7.8 •60.84
•156 •-7.2 •51.84
•162 •-1.2 • 1.44
•159 •-4.2 •17.64
•162 •-1.2 • 1.44
•168 • 4.8 •23.04
•159 •-4.2 •17.64
•167 • 3.8 •14.44
SumadeCuadrados=∑ ( x− x i )2 =191 .60 cm 2
Si ahora sumamos los residuos elevados al cuadrado, tenemos un número donde

se condensa toda la información de la dispersión de la población; este número, la
suma de cuadrados, es dependiente del número de datos n y, por lo tanto, no nos
sirve para comparar poblaciones con distinto número de observaciones. Pero si
dividimos la suma de cuadrados por n, tenemos un número que es independiente
del número de observaciones, el cual se denomina varianza.
En nuestro caso:
191 .60
Varianza= 19 . 16 cm2
10
La varianza es un número que nos permite comparar poblaciones. Cuando la

dispersión de las observaciones es grande (datos que se alejan mucho por encima
y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el
promedio) también será grande; entonces aumenta la suma de cuadrados de los
residuos y, en consecuencia, la varianza.
También se utiliza la raíz cuadrada de la varianza; por lo tanto:
SumadeCuadrados ∑ ( x −xi )
2
Varianza= =
N N
DesviaciónEs tan dar= √ Varianza=

√ ∑ ( x−x i )2
N
DesviaciónEs tan dar= √ 19 .16 cm2 =4 .38 cm

4.0.4 Coeficiente de variación de Pearson
La desviación típica sirve para medir de forma eficaz la dispersión de un conjunto

de datos entorno a su media. Desgraciadamente, esta medida puede resultar
engañosa cuando tratamos de comparar la dispersión de dos conjuntos de datos.
Por ejemplo, tenemos dos grupos de mujeres de 11 y 25 años con medias y
desviaciones típicas dadas por la tabla siguiente:
Peso Desviación
11 40 Kg. 2Kg.
25 50 Kg. 2Kg.
Puede parecernos que ambos grupos de datos tienen la misma dispersión. No

obstante, como parece lógico, no es lo mismo una variación de dos kilos en un
grupo de elefantes que en uno de conejos. El coeficiente de variación de Pearson
elimina esa posible confusión al ser una medida de la variación de los datos pero
en relación con su media.
Se define como:
Siendo s y a, respectivamente, la desviación típica y la media de la distribución en

estudio y en donde el factor 100 tiene como único objetivo el evitar operar con
valores decimales.
De la definición de vp se deduce fácilmente que aquella distribución a la que

corresponda mayor coeficiente tendrá mayor dispersión.
En el ejemplo anterior, al grupo de mujeres de 11 años le corresponde un
coeficiente de variación de Pearson igual a:
2
v p= . 100=4
50
y al grupo de las mujeres de 25 años:

Lo que indica una mayor dispersión en el grupo de mujeres de 11 años.
4.0.5 Desviación Media
La Desviación media para datos agrupados.
Para los datos agrupados en una distribución de frecuencias, se asume que el

punto medio de cada clase representa a todas las mediciones incluidas en esa
clase. Éste es el mismo enfoque que se utilizó al determinar la media aritmética
para datos agrupados.
DM Poblacional ∑ (F/x - µ/)

N
DM Muestral ∑ (F/x – x/)

n
Ejemplo: Para los datos de salarios diarios que se presentan en la tabla 4.4 la
media aritmética es 2949,50
La desviación media se determina de la siguiente manera a partir de los cálculos

de la tabla.
DM = ∑ (F/x – x/) = 19,600 = $ 196

n 100
Numero de
Salario Día (X) Trabajadore (X – X) F(x – x)
s (F)
$ 2400 – 2599 2499,50 7 450 3150
$ 2600 – 2799 2699,50 20 250 5000
$ 2800 – 2999 2899,50 33 50 1650
$ 3000 – 3199 3099,50 25 150 3750
$ 3230 – 3399 3299,50 11 350 3850
$ 3400 – 3599 3499,50 4 550 2200
Total 100 19600
Desviación Media para datos no agrupados

Es igual a la desviación aritmética de las diferencias entre los diversos elementos
y su media.
Ejemplo: restando la media 67 frc, de los diversos salarios hora de 37
55 58 62 63 65 69 71 77 83
-67 -67 -67 -67 -67 -67 -67 -67 -67
-12 -9 -5 -4 -2 +2 +4 +10 +16
Es evidente que la suma algebraica de las desviaciones respecto a la media

(teniendo en cuenta sus signos) será nula en todos los casos y no dará por tanto
ningún conocimiento sobre la dispersión. Por ello deben sumarse los valores
absolutos y la desviación media o aritmética será igual a:
12 + 9 + 5 + 4 + 2 + 2 + 4 + 10 + 16 = 69 = 7.11 Frs.
9 9
En el caso de observaciones agrupadas por clases, el cálculo de la desviación

media sin presentar serias dificultades resulta complicando por la intervención de
los valores absolutos, poco compatible con el cálculo algebraico.
Debido a ello la clase media, aunque proporciona una visión bastante fiel de la
dispersión, es poco empleada de aquí, la idea de considerar no los valores
absolutos de las diferencias, sino son cuadrados, siempre positivos y cuya suma
consecuentemente, no puede anularse.

Resumen Modulo Estadistica Drscriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Modulo Estadistica Drscriptiva

Cargado por

Copyright:

Formatos disponibles

2.

La tabla de frecuencias tiene como finalidad presentar en forma ordenada los

A continuación se presenta como ejemplo la tabla 1 para mostrar cómo se clasifica

Banderas Tabulación No. %

2.0.2.1 Variable continua: cuando se pueden tomar todos los valores

Ejemplo para variable discreta:

La elaboración de una tabla de frecuencias la explicaremos mediante ejemplo:

N = 300 - (tamaño de la población)

Cada caja seleccionada en forma aleatoria se simboliza por xi (minúscula en la

X1= 2 X6 = 3 X11 = 0 X16 = 2 X21 = 2

La anterior información la denominaremos de ahora en adelante datos sin agrupar

Tabla de frecuencias - Variable discreta

No. de figuras Tabulació No. de %

De ahora en adelante, para el cálculo de promedios o de cualquier otra medida

La variable discreta la simbolizaremos por yi (minúscula para la muestra y

Además, la frecuencia absoluta se simbolizara por n, al igual que en Yi, donde i

Nota: se aproximó de tal manera que si sumamos las anteriores frecuencias

Consideremos nuevamente las 300 cajas (N = 300) y seleccionemos

X1 = 48 X7 = 70 X13 = 92 X19 = 85 X25 = 52

2.0.4 Pasos para la elaboración de la tabla o cuadro de frecuencias

a) Se determina el valor máximo y mínimo que toma Xi:

b) La diferencia que hay entre el valor máximo y el mínimo se denomina rango o

X (max) - X (min) = rango o recorrido

c) Se hace necesario determinar el número de intervalos (m) que se utilizarán para

M o K= número de intervalos o marcas de clase

Una de las formas de obtener m es aplicando la regla de Sturges, con la cual se

Aplicando la fórmula al ejercicio de las 30 cajas, cuya información aparece en la

m = 1 + 3.3 log 30 para poder desarrollar ésta ecuación se maneja de

Por lo tanto, el número de intervalos de acuerdo a la regla de Sturges, estará entre

En la práctica m se determina atendiendo varios factores, tales como:

1. Finalidad del estudio

En todo caso se recomienda que el valor de m o k, hasta donde sea posible,

d) Una vez determinado el número de intervalos, se debe decidir el valor de la

En nuestro ejercicio se tendrá:

C = (92 – 47) / 6 = 45/6 = 7.5

Para facilitar los cálculos se aproximaría C a 8, esto es, siempre al número

El rango se incrementa en tres unidades, es decir, de 45 pasó a 48. El incremento

Cualquiera de las situaciones siguientes en la determinación de los límites del

X max - X min = recorrido

La columna correspondiente a la variable continua se simbolizara por Y’i-1 - Y’i

Y’ i-1 = límite inferior del intervalo

f) Para la elaboración de los intervalos, se inicia con la determinación del valor de

Ejemplo para visualizar mejor el procedimiento de una construcción de tabla de

Una tabla de distribución de frecuencias sirve para resumir un conjunto de datos

2.0.4.1 Número de clase

K: se puede definir como la cantidad de intervalos de clase que pueden existir en

2.0.4.2 Intervalo de clase

Cuando la variable es continua o es discreta pero toma una gran cantidad de

IC = límite superior – límite inferior

2.0.4.3 Límite de clase

LÍMITE INFERIOR LÍMITE SUPERIOR

Yi = límite superior + límite inferior / 2

2.0.4.5 Frecuencia absoluta (ni)

Se define como el número de observaciones que están dentro de cada intervalo

2.0.4.6 Frecuencia absoluta acumulada (Ni)

2.0.4.7 Frecuencia relativa (hi)

2.0.4.8 Frecuencia relativa acumulada (Hi)

3.0.1 Media aritmética

La media aritmética representa el centro físico de un conjunto de datos y se define

 Todo conjunto de datos tiene una y sólo una media.

 Puede verse afectada por valores externos que no son representativos

3.0.1.1 Media aritmética para datos no agrupados

Los diez datos: 44,59,36,55,47,61,53,32,65,51 tienen como media aritmética:

44 +59+36+55+ 47+61+53+32+65+51 503