Documentos de Académico
Documentos de Profesional
Documentos de Cultura
U NIVERSIDAD D ON B OSCO
D EPARTAMENTO DE C IENCIAS B ÁSICAS
CONTROL DE LECTURA I:
ESTADÍSTICA DESCRIPTIVA
1. CONCEPTOS FUNDAMENTALES
1. Conceptos fundamentales
La aplicación del tratamiento estadı́stico tiene dos fases fundamentales:
1. Organización y análisis inicial de los datos recogidos.
2. Extracción de conclusiones válidas y toma de decisiones razonables a partir de
ellos.
Los objetivos de la Estadı́stica Descriptiva son los que se abordan en la primera de
estas fases. Es decir, su misión es ordenar, describir y sintetizar la información reco-
gida. En este proceso será necesario establecer medidas cuantitativas que reduzcan
a un número manejable de parámetros el conjunto (en general grande) de datos
obtenidos.
La realización de gráficas también forma parte de la Estadı́stica Descriptiva dado que
proporciona una manera visual directa de organizar la información.
La finalidad de la Estadı́stica Descriptiva no es, entonces, extraer conclusiones gene-
rales sobre el fenómeno que ha producido los datos bajo estudio, sino solamente su
descripción (de ahı́ el nombre).
Definición
Estadistica Descriptiva. Conjunto de técnicas orientadas a la presentación de
datos mediante tablas y gráficas que permiten resumir o describir el compor-
tamiento de los mismos, sin realizar inferencias sobre ellos.
2
1. CONCEPTOS FUNDAMENTALES
Definiciones
- Población: Conjunto completo de individuos, objetos o medidas que po-
seen alguna caracterı́stica común observable.
- Muestra: Es un subconjunto o parte de la población, que lleva implı́cita
todas las caracterı́sticas del universo.
3
1. CONCEPTOS FUNDAMENTALES
Definiciones
- Parámetro: Cualquier caracterı́stica de una población que sea medible.
- Estadı́stico: Medida resultante del análisis de una muestra.
4
2. DISTRIBUCIÓN DE FRECUENCIAS
2. Distribución de frecuencias
Al aplicar encuestas o acudir a una base de datos para obtener la información, es
posible que a simple vista se dificulte la interpretación por la cantidad de datos que
pudieron ser generados en el proceso investigativo. Por esta razón, es conveniente
agrupar los datos y construir tablas que faciliten la interpretación.
Definición
La distribución de frecuencias es un método utilizado para organizar y resumir
información. Bajo este método, los datos recolectados se ordenan y clasifican,
indicándonos la frecuencia o sea el número de veces que se repiten.
47 58 38 35 50 59 47 51 42 45
45 53 33 32 49 48 50 50 41 45
62 48 28 30 55 43 43 44 40 45
28 30 29 29 55 49 33 39 39 46
28 37 47 57 49 51 39 40 45 45
58 35 60 54 55 49 34 44 50 46
59 30 61 43 54 44 30 44 45 47
38 34 53 38 43 51 36 49 45 34
33 33 54 39 50 50 36 44 45 35
43 48 38 43 52 44 44 40 46 45
60 53 40 56 48 35 45 42 47 45
60 52 40 42 35 40 45 41 45 39
El conjunto de datos de esta tabla constituye una serie estadı́stica simple. Como
puede notar, la serie no brinda mayor información; no se puede conocer como se
distribuye la variable rendimiento de los estudiantes. Entonces si se quiere comenzar
a descubrir peculiaridades de la variable, se debe comenzar por ordenar los datos.
Estos se pueden ordenar de forma creciente o decreciente.
5
2. DISTRIBUCIÓN DE FRECUENCIAS
28 28 28 29 29 30 30 30 30 32
33 33 33 33 34 34 34 35 35 35
35 35 36 36 37 38 38 38 38 39
39 39 39 39 40 40 40 40 40 40
41 41 42 42 42 43 43 43 43 43
43 44 44 44 44 44 44 44 45 45
45 45 45 45 45 45 45 45 45 45
45 46 46 46 47 47 47 47 47 47
48 48 48 48 49 49 49 49 49 50
50 50 50 50 50 51 51 52 52 53
53 53 54 54 54 55 55 55 55 56
57 58 58 59 59 60 60 60 61 62
Los datos ordenados en esta forma brindan una pequeña información; a) se conoce
rápidamente el menor y el mayor valor que toma la variable: 28 y 62 respectivamen-
te; b) el valor más frecuente es 45; c) los valores tienden a concentrarse entre 43 y
47.
Si se quiere seguir descubriendo mayor información de la variable, se debe formar
una tabla de frecuencias.
Tabla 3: Tabla de frecuencias para las notas de los estudiantes
Puntajes (x) Frecuencia Puntajes (x) Frecuencia Puntajes (x) Frecuencia Puntajes (x) Frecuencia
28 3 37 1 46 3 55 4
29 2 38 4 47 6 56 1
30 4 39 5 48 4 57 1
31 0 40 6 49 5 58 2
32 1 41 2 50 6 59 2
33 4 42 3 51 2 60 3
34 3 43 6 52 2 61 1
35 5 44 7 53 3 62 1
36 2 45 13 54 3
TOTAL 120
Con la tabla 3 ya se puede conocer el número de veces que se repite cada valor que
toma la variable, y ası́ se puede ver que el valor más frecuente es el 45 y los valores
que solo aparecen una vez son: 32, 37,56, 57, 61 y 62. Se entenderá por frecuencia
(también conocida como frecuencia absoluta), el numero de veces que un valor o
dato se repite en una serie estadı́stica.
6
2. DISTRIBUCIÓN DE FRECUENCIAS
7
2. DISTRIBUCIÓN DE FRECUENCIAS
OBSERVACIÓN.
En el ejemplo anterior, se está trabajando con lı́mites aparentes. Hablamos de lı́mi-
tes aparentes, ya que para hacer el calculo del número de valores incluidos en cada
clase, se incluyen dichos lı́mites; es decir las clases son mutuamente excluyentes.
Note que si la clasificación hubiera sido de 28 a 32; de 32 a 37; de 37 a 42, etc.,
¿en qué clase ubicarı́amos al 32?, ¿en qué clase ubicarı́amos al 37? indudablemente
tendrı́amos un problema.
La distribución de la tabla 4, pudo también escribirse utilizando lı́mites reales, como
se muestra en la siguiente tabla.
8
2. DISTRIBUCIÓN DE FRECUENCIAS
Para presentar en esta forma la distribución (con lı́mites reales), lo que se hizo fue
restar 0.5 a los lı́mites aparentes inferiores y a los lı́mites superiores se les sumó 0.5.
El uso de limites reales es adecuado únicamente con variables continuas.
Frecuencia relativa
Frecuencia relativa (fr) de un dato o una clase es el cociente entre su frecuen-
cia absoluta (f ) y el tamaño de la muestra o población (N ).
f
fr=
N
Las frecuencias relativas también se pueden expresar de forma porcentual,
para lo cual basta multiplicar dicha frecuencia relativa por
f
fr%= × 100
N
El total de frecuencias relativas porcentuales debe ser igual al 100 %, o aproxi-
madamente igual a este valor cuando se presentan decimales y se redondean
los valores del porcentaje.
10
fr%= × 100 = 8.33 %
120
En la tercera columna de la tabla 5 se presentan las frecuencias relativas porcentua-
les de cada una de las clases del ejemplo que se viene desarrollando.
Frecuencia acumulada
La frecuencia acumulada (fa) es la suma de las frecuencias absolutas de todas
las clases inferiores a la que estamos calculando.
9
2. DISTRIBUCIÓN DE FRECUENCIAS
Marca de clase
La marca de clase (PM) es el punto medio del intervalo de clase y se obtiene
sumando los lı́mites de clase inferior y superior y dividiendo entre 2. La marca
de clase es el valor que mejor representa a todos los valores que están dentro
de dicha clase.
Retomando el ejemplo de la tabla 4, las marcas de clase resultaron ası́: para la prime-
28 + 32 33 + 37
ra clase, = 30; para la segunda clase, = 35 y ası́ sucesivamente. Una
2 2
manera práctica de calcular las marcas de clase es sumar a la primera marca de clase
encontrada, en ancho de clase utilizado, ası́, la primera marca de clase encontrada
en nuestro ejemplo fue 30, la siguiente será 30 + 5 = 35, la siguiente 35 + 5 = 40 y ası́
sucesivamente. En la sexta columna de la tabla 6 se muestran las marcas de clases
para el ejemplo que se viene desarrollando.
Presentadas en esta forma las frecuencias de las distintas clases, ya se puede tener mayor
información sobre la variable en estudio. Ası́ decimos por ejemplo, viendo la cuarta clase y
tercera columna de la tabla 6, que el 29.17 % de los estudiantes obtuvieron puntajes entre
43 y 47; que el 61.67 % de los estudiantes sacaron puntajes entre 38 y 52; en esta zona
se encuentra la mayor concentración de valores de la serie. La frecuencia acumulada que
aparece en la tercera clase significa que 45 estudiantes sacaron puntajes de 42 o menos. La
frecuencia acumulada relativa de la quinta clase significa que el 82.50 % de los estudiantes
obtuvieron puntajes de 52 o menos, etc.
10
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
El instrumento más común para representar una variable cualitativa en forma gráfi-
ca es la gráfica de barras. En la mayorı́a de los casos, el eje horizontal muestra la
variable de interés y el eje vertical la frecuencia de cada uno de los posibles resul-
tados. Una caracterı́stica distintiva de esta herramienta es que existe una distancia
o espacio entre las barras. Es decir, que como la variable de interés es de naturaleza
cualitativa, las barras no son adyacentes.
Gráfica de barras
Representación gráfica de una tabla de frecuencias mediante una serie de
rectángulos de anchura uniforme, cuya altura corresponde a la frecuencia de
cada categorı́a.
EJEMPLO. Una cooperativa financiera quiere hacer una investigación sobre el estado
civil de sus asociados con el objetivo de trazar estrategias de mercado. Con ese propósito,
se preguntó su estado civil a 150 asociados que visitaron la cooperativa en una semana.
Los resultados se muestran en la tabla 7.
A partir de los resultados mostrados en la tabla 7 se construye la gráfica de barras
mostrada en la figura 3.
11
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
Soltero 20
Casado 78
Viudo 15
Divorciado 26
No declarado 11
TOTAL 150
Notese que gracias al gráfico, es posible observar a “golpe de vista“ que la mayorı́a
de asociados a la cooperativa son casados.
Una gráfica circular (conocida comúnmente como gráfica de pastel) utiliza las par-
tes de un cı́rculo para representar los valores de cada categorı́a. El tamaño de cada
parte o porción del cı́rculo varı́a de acuerdo con el porcentaje (frecuencia relativa
porcentual) de cada categorı́a.
Gráfica circular
Gráfica que muestra la parte o porcentaje que representa cada categorı́a con
respecto al total de datos.
Para construir una gráfica de pastel se debe asignar un sector de cı́rculo a cada
categorı́a. El ángulo de cada sector debe ser proporcional a la frecuencia relativa
en esa categorı́a. Como un cı́rculo contiene 360°, se puede usar esta ecuación para
hallar el ángulo:
angulo = frecuencia relativa × 360◦
12
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
Evaluación f fr fr %
Sobresaliente 102 0.51 51 %
Excelente 58 0.29 29 %
Buena 30 0.15 15 %
Mala 10 0.05 5%
TOTAL 200 1.00 100 %
La gráfica de pastel del ejemplo hace hincapié en que más de la mitad de los encues-
tados calificaron de sobresaliente la relativa facilidad para utilizar el sitio web.
13
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
Nº de hermanos f fr % fa
0 72 14.4 % 72
1 155 31 % 227
2 97 19.4 % 324
3 81 16.2 % 405
4 30 6% 435
5 27 5.4 % 462
6 20 4% 482
>7 18 3.6 % 500
TOTAL 500 100 %
14
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
3.2.2. Histograma
Es una serie de rectángulos yuxtapuestos (sin huecos entre sı́). Sobre el eje
horizontal se distribuyen los intervalos de la variable y sobre el eje vertical se
ubican las frecuencias. La base de los rectángulos está determinada por la am-
plitud del intervalo, y la altura de cada rectángulo corresponde a la frecuencia
que presenta cada intervalo.
Para que los rectangulos queden yuxtapuestos se debe escribir, en el eje horizontal,
los limites inferiores de cada clase.
Ejemplo. A continuación se presenta la distribución de frecuencias de las ganancias por
ventas de vehı́culos de una concesionaria de San Salvador.
Tabla 10: Distribución de frecuencias de las ganancias por ventas de vehı́culos de una
concesionaria
Ganancia f fa PM
$200 a $600 8 8 400
600 a 1,000 11 19 800
1,000 a 1,400 23 42 1,200
1,400 a 1,800 38 80 1,600
1,800 a 2,200 45 125 2,000
2,200 a 2,600 32 157 2,400
2,600 a 3,000 19 176 2,800
3,000 a 3,400 4 180 3,200
TOTAL 180
15
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
Tanto el histograma como el polı́gono de frecuencias permiten tener una vista rápida
de las principales caracterı́sticas de los datos (máximos, mı́nimos, puntos de concen-
tración, etc.). Aunque las dos representaciones tienen un propósito similar, el histo-
grama posee la ventaja de que describe cada clase como un rectángulo, en el que la
barra de altura de éste representa el número de elementos que hay en cada clase. El
polı́gono de frecuencias, en cambio, tiene una ventaja con respecto al histograma.
También permite comparar directamente dos o más distribuciones de frecuencias.
La ojiva es el polı́gono que se obtiene al unir por segmentos de recta los puntos
situados a una altura igual a la frecuencia acumulada a partir del limite superior
de la clase, similar a como se hizo con el polı́gono de frecuencias (con la única
diferencia que para esa gráfica en el eje horizontal se ubicaba el punto medio de
cada clase).
Ejemplo. A continuación se muestra la ojiva para los datos de la tabla 10 que presenta
la distribución de frecuencias de las ganancias por la venta de autos de una concesiona-
ria de San Salvador.
16
3. TÉCNICAS DE REPRESENTACIÓN GRÁFICA
Para trazar la ojiva, se ubica el lı́mite superior de cada clase a lo largo del eje X,
y las correspondientes frecuencias acumulativas, a lo largo del eje Y. Para incluir
información adicional, es posible graduar el eje vertical a la izquierda en unidades y
el eje vertical a la derecha en porcentajes. En el ejemplo de la venta de autos, el eje
vertical que se localiza a la izquierda se gradúa desde 0 hasta 180 y a la derecha de
0 % a 100 %. El valor de 50 % corresponde a 90 vehı́culos.
17
4. MEDIDAS DE TENDENCIA CENTRAL
Cuando los datos son pocos y NO están agrupados en clases, el calculo de la media
aritmética se efectúa de la siguiente manera:
P
x1 + x2 + x3 + x4 + ... + xN X
X= = (2)
N N
Donde: N representa la cantidad de datos de la muestra
Cuando los datos están agrupados en una distribución de frecuencias simple (sin cla-
ses o intervalos), el calculo de la media aritmética se efectúa de la siguiente manera:
P
f Xi
X= (3)
N
18
4. MEDIDAS DE TENDENCIA CENTRAL
19
4. MEDIDAS DE TENDENCIA CENTRAL
Puntajes (x) f Pm f Pm
28-32 10 30 300
33-37 15 35 525
38-42 20 40 800
43-47 35 45 1575
48-52 19 50 950
53-57 12 55 660
58-62 9 60 540
P
120 5350
Una vez calculados los puntos medios de clase, se efectúa el producto fPm (la fre-
cuencia por el punto medio de cada clase) y se suman los productos parciales, nos
da 5350, luego dividimos esta suma entre 120, y se obtiene:
P
f P m 5350
X= = = 44.58
N 120
20
4. MEDIDAS DE TENDENCIA CENTRAL
Ahora calcularemos las desviaciones de cada valor de la serie con respecto a la me-
dia. El calculo de las desviaciones se presenta en la tabla 12. Nótese que la suma de
las desviaciones es cero, tal cual lo enuncia la propiedad.
Xi Xi − X
4 4-6=-2
5 -1
6 0
7 +1
8 +2
P
0
Propiedad 2
Se cumple la propiedad para cualquier valor que se le asigne a A (¡ Pruebe con otros
valores !)
21
4. MEDIDAS DE TENDENCIA CENTRAL
Propiedad 3
Donde:
X T = media aritmética total.
ni = tamaño de la muestra i (i=1,2,...,k)
X i = media aritmética de la muestra i.
N = n1 + n2 + n3 + ... + nk
Ejemplo. En una escuela de San Salvador, hay tres secciones de noveno grado, se les
pasó un examen de matematica, con los siguientes resultados:
Secciones ni Xi
A 25 68
B 30 70
C 45 60
Determinar la media aritmética total del rendimiento de los alumnos en dicho examen:
Propiedad 4
M(k) = K
siendo K una constante
Propiedad 5
La media aritmética del producto de una constante por una variable es igual
al producto de la constante por la media de la variable, es decir:
M(Kx) = KM(x)
22
4. MEDIDAS DE TENDENCIA CENTRAL
8 + 10 + 12 + 14 + 16
= 12
5
este valor puede observarse que es el producto de 2x6, es decir M(Kx) = KM(x)
Propiedad 6
M(X + K) = M(X) + K
6 + 7 + 8 + 9 + 10
=8
5
este valor puede observarse que es la suma de 2 + 6 = 8, donde K=2 y 6 es la media
original; es decir, M(X + K) = M(X) + K
4.2. Mediana
Al calcular la media de un conjunto de datos que forman una muestra, los valores
extremos (valores muy grandes o muy pequeños en relación con los demás) pueden
influenciar fuertemente en el resultado, desvirtuando de este modo la utilidad de la
media aritmética como valor que caracteriza a los datos.
Considere los datos de la tabla 15 que muestran los salarios mensuales de 11 traba-
jadores de una finca en Santa Ana.
Sueldos (Xi ) f f xi
100 4 400
120 5 600
2000 1 2000
3000 1 3000
P
11 6000
23
4. MEDIDAS DE TENDENCIA CENTRAL
indica que la media no representa bien a los 11 sueldos. Los valores extremos 2,000
y 3,000 han influido fuertemente en el resultado ( en estos casos se dice que la
distribución tiene un sesgo a la derecha).
Si una distribución de datos tiene un sesgo (valores muy grandes o muy pequeños
con respecto a los demás) es mejor utilizar una medida de tendencia central que no
sea sensible a los valores extremos. Una de estas medidas es la mediana.
Mediana
La mediana en un conjunto de datos es el valor que ocupa el lugar central, de
tal forma que aquel valor deja el 50 % de las observaciones por debajo de él y
el otro 50 % por encima de él. Para la ubicación de la posición de la mediana
se deben ordenar los datos de forma ascendente o descendente. La mediana
se denota por Me o bien por x̃.
24
4. MEDIDAS DE TENDENCIA CENTRAL
La mediana para una distribución de clases y frecuencias se puede encontrar por dos
métodos: por interpolación y por un método gráfico.
Método de interpolación
Parte del supuesto de que los datos son continuos y que los valores de la serie se
distribuyen regularmente dentro de los intervalos de clase.
Procedimiento para calcular la mediana por el método de interpolación
Minutos f fa
[ 45 - 50 ] 2 2
( 50 - 55 ] 9 11
( 55 - 60 ] 12 23
( 60 - 65 ] 11 34
( 65 - 70 ] 9 43
( 70 - 75 ] 7 50
P
50
25
4. MEDIDAS DE TENDENCIA CENTRAL
N
2 − f aa 25 − 23
Me = li + ( ) × ic = 60 + ( ) × 5 = 60 + 0.91 = 60.91minutos
fm 11
Tabla 17: Distribución de clases y frecuencias de las calificaciones obtenidas por 120
alumnos en un examen de admisión
N
2 − f aa 60 − 45
Me = li + ( ) × ic = 42.5 + ( ) × 5 = 42.5 + 2.14 = 44.64
fm 35
26
4. MEDIDAS DE TENDENCIA CENTRAL
¡ADVERTENCIA!
Cuando se está calculando la mediana y la moda de una distribución de clases y frecuencias
es sumamente fundamental tener claridad sobre si se está trabajando con lı́mites reales (como
en el primer ejemplo) o con limites aparentes (como en el segundo ejemplo).
La diferencia entre usar uno u otro tipo de limite radica en dos aspectos:
1. Lı́mite inferior (li)
En las formulas de mediana y moda, el lı́mite inferior (li) debe ser un lı́mite real.
Por ello, cuando se trabaja con limites aparentes es necesario convertirlo a lı́mite real
restandole 0.5 (es por eso que en el segundo ejemplo, el lı́mite inferior fue 42.5 y no
43).
2. Ancho de clase o intervalo de clase (ic )
- Cuando se trabaja con limites reales el intervalo de clase es la diferencia entre el limite
superior y el limite inferior de alguna de las clases, es decir ic = ls − li
- Cuando se trabaja con lı́mites aparentes, el cálculo del intervalo de clase es ası́:
ic = (ls − li) + 1
Un procedimiento para calcular el intervalo de clase que funciona para ambos tipos de
lı́mites es restar dos limites inferiores consecutivos (ó bien, dos intervalos superiores
consecutivos); asi, en el segundo ejemplo, el intervalo de clase pudo obtenerse como la
diferencia entre los lı́mites inferiores de la tercera y cuarta clase (43 − 38 = 5).
Método gráfico.
Para obtener un valor aproximado de la mediana por el método gráfico se procede
en la forma siguiente:
1. Se construye la ojiva de la distribución de frecuencias.
2. En el eje vertical se localiza el punto correspondiente al 50 % de la frecuencia
total, es decir el punto N2 en el eje Y.
3. Se traza una horizontal desde este punto de la ojiva, se baja una perpendicular
desde el punto en que esta horizontal corta a la ojiva hasta la escala X. La
intersección con el eje X constituye la mediana.
27
4. MEDIDAS DE TENDENCIA CENTRAL
4.3. Moda
En la vida cotidiana se escucha la expresión “está de moda” cuando algo se observa o
se presenta repetidamente. En estadı́stica, el concepto de la moda no se aleja de esta
apreciación y, efectivamente, se denomina moda de un conjunto de datos al valor
que más se presenta, es decir, el atributo o el valor de mayor frecuencia. La moda
se representa por Mo y puede ser aplicada a las variables cualitativas y cuantitativas
discretas o continuas.
Moda
Es el valor más frecuente en una serie de datos.
La moda de la serie: 100, 125, 130, 130, 130, 145, 150 es 130, ya que es el valor que
más veces se repite. Si en las series hay dos términos que se repiten igual número de
veces, decimos que la serie es bimodal; por ejemplo, si la serie fuera: 100, 125, 130,
130, 130, 145, 145, 145, 150; la moda la constituyen 130 y 145; es decir, la serie
tiene dos valores modales. Cuando una serie tiene tres o más valores que se repiten
igual número de veces, se dice que la serie es polimodal. Estas últimas series son
poco comunes, y cuando se presentan de deben a factores extraños introducidos en
la serie.
Método aproximado
La moda por este método, es el punto medio de la clase que contiene la mayor
frecuencia (clase modal). Este método solo es recomendable cuando la serie tiene
un gran número de términos y se emplea un intervalo de clase pequeño.
Ejemplo. Considere los datos de la tabla 16 que muestra el tiempo requerido (en
minutos) por 50 estudiantes para resolver un examen parcial. Calcule la moda
de esta distribución por el método aproximado.
La clase que tiene mayor frecuencia (clase modal) es la tercera (55-60) por
tanto, la moda de esta distribución es la marca de clase (punto medio) de este
intervalo.
55 + 60
Mo = = 57.5
2
28
4. MEDIDAS DE TENDENCIA CENTRAL
Método de interpolación
Procedimiento para calcular la moda por el método de interpolación
li = 55, ∆1 = 12 − 9 = 3, ∆2 = 12 − 11 = 1, ic = 60 − 55 = 5
Por tanto la moda serı́a:
3
Mo = 55 + ( ) × 5 = 55 + 3.75 = 58.75minutos
3+1
Sustituyendo tenemos:
15
Mo = 42.5 + ( ) × 5 = 42.5 + 2.42 = 44.92
15 + 16
Este valor se interpreta diciendo que el puntaje más frecuente fue 44.92 o
aproximadamente 45.
29
4. MEDIDAS DE TENDENCIA CENTRAL
X < Me < Mo
X = Me = Mo
Mo < Me < X
X − Mo 3(X − Me)
30
5. MEDIDAS DE VARIABILIDAD
5. Medidas de variabilidad
Además de las medidas de tendencia central que posibilitan la representación del
conjunto de datos por medio de un valor, es necesario conocer la variabilidad o la
dispersión que los datos pueden tener en relación a una medida central.
Una medida de variabilidad (también conocida como medida de dispersión) es un
número que indica el grado de separación de los datos con respecto a un valor
central. Si este valor es pequeño (respecto a la unidad de medida) entonces hay una
gran uniformidad entre los datos. Por el contrario, un gran valor nos indica poca
uniformidad. Cuando es cero quiere decir que todos los datos son iguales.
En los análisis estadı́sticos, las medidas de variabilidad más representativas son:
rango, desviación media, varianza, desviación estándar y coeficiente de variación.
31
5. MEDIDAS DE VARIABILIDAD
La desviación media para una distribución de frecuencias simple (sin clases) se cal-
cula de la siguiente manera:
P
f Xi − X
DM = (7)
N
32
5. MEDIDAS DE VARIABILIDAD
P
f P m − X
DM = (8)
N
33
5. MEDIDAS DE VARIABILIDAD
5.3. Varianza
La varianza, denotada por σ 2 , es una medida que cuantifica el grado de disper-
sión o de variación de los valores de una serie de datos con respecto a su media
aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza
será pequeña. Si los valores tienden a distribuirse lejos de la media, la varianza será
grande.
La varianza se define como la media aritmética de los cuadrados de las diferen-
cias de los datos con respecto a su media aritmética.
(Xi − X)2
P
2
σ = (9)
N
La varianza es una medida de variabilidad importante que se utiliza en algunos
métodos estadı́sticos relevantes, como el análisis de varianza. Para nuestros propósi-
tos, la varianza tiene una gran desventaja: las unidades de la varianza son diferentes
de las unidades del conjunto original de datos. Por ejemplo, si estamos estudiando
los tiempos de espera en una ventanilla bancaria los datos originales están dados en
minutos, mientras que las unidades de varianza están dadas en minutos cuadrados
( min2 ). ¿Qué es un minuto cuadrado? Como la varianza utiliza unidades distintas
(unidades cuadradas), es sumamente difı́cil comprenderla si la relacionamos con el
conjunto original de datos. En consecuencia, en la mayorı́a de los análisis estadı́sticos
se emplea la varianza como una medida que permite comparar la dispersión entre
dos o más variables, identificando la de mayor varianza como aquella que posee
mayor dispersión o variabilidad. La importancia de la varianza está en que es una
medida transitoria para el cálculo de la desviación tı́pica o estándar de un conjunto
de datos.
Propiedad 1
Propiedad 2
V (K) = 0
Propiedad 3
34
5. MEDIDAS DE VARIABILIDAD
Propiedad 4
Si cada uno de los datos x1 , ..., xn es multiplicado por una constante K, entonces
la varianza de los datos transformados Kx1 , ..., Kxn es igual a la varianza de los
datos originales por el cuadrado de la constante K.
V (KX) = K 2 V (X)
35
5. MEDIDAS DE VARIABILIDAD
rP
f (P m − X)2
σ= (12)
N
5.4.2. Método abreviado para calcular la desviación tı́pica para una distribu-
ción de clases y frecuencias
rP
f P m2 2
σ= −X (13)
N
formula que es parecida a la que se utilizó para calcular la desviación tı́pica para una
serie simple, por el método abreviado.
36
5. MEDIDAS DE VARIABILIDAD
σ
C.V = × 100 % (14)
X
37
5. MEDIDAS DE VARIABILIDAD
σ 8.13
C.V = × 100 % = × 100 % = 18.24 %
X 44.58
La interpretación de este coeficiente es igual al de las otras medidas de dispersión.
El grado de representatividad de la media detectado por medio del coeficiente de
variabilidad, se presenta en la tabla 18.
Ejercicios
1. La siguiente tabla presenta información acerca de las fuentes de información
que utilizan los habitantes del área metropolitana de San Salvador para ente-
rarse de las noticias.
Medio f
Televisión 619
Radio 121
Prensa escrita 301
Redes sociales 359
Con la información del cuadro anterior:
a) Elabore el gráfico circular
b) Elabore el gráfico de barras
38
5. MEDIDAS DE VARIABILIDAD
39
REFERENCIAS REFERENCIAS
4. En una empresa los salarios han tenido un promedio de $500 mensuales con
una desviación tı́pica de $50. ¿Qué sucede con la media y la varianza de los
salarios si:
a) Se aumentan en $45.00.
b) Se aumentan en 10 %.
c) Se efectúa ambos aumentos simultáneamente.
5. Dado el siguiente histograma, determine: media, mediana, moda, varianza y
desviación tı́pica.
Referencias
[1] Gildaberto Bonilla. Estadı́stica. Elementos de estadı́stica descriptiva y probabili-
dad. UCA Editores, 2015.
[2] Lincoln L Chao and Jesús Marı́a Castaño. Estadı́stica para las ciencias adminis-
trativas, volume 3. McGraw-Hill, 1993.
[3] Manuel Córdova Zamora. Estadı́stica descriptiva e inferencial. Edit. Moshera
SRL. 5ª edición. Lima-Perú, 2003.
[4] Douglas A Marchal Lind, William G Wathen, Samuel A Douglas A Lind, Wi-
lliam G Marchal, and Samuel A Wathen. Estadı́stica aplicada a los negocios y la
economı́a. McGraw-Hill, 2012.
[5] Gabriel Jaime Posada Hernández. Elementos básicos de estadı́stica descriptiva
para el análisis de datos. Fundación Universitaria Luis Amigó, 2016.
[6] Mario F Triola. Probabilidad y estadı́stica. Pearson educación, 2004.
40