Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA
MEDIDAS DE RESUMEN
Para caracterizar numéricamente una distribución, es preciso por una parte situar
un valor central y por otra describir la dispersión alrededor de este valor. Así se
resume la posición de una distribución y su forma.
Medidas de centralización
Los tres valores centrales más utilizados son: la media aritmética, la mediana y la
moda. En general, será necesario buscar los tres valores centrales pues ellos nos
aportan informaciones que se complementan.
La media aritmética: La media, también llamada promedio o valor medio, es el
valor central más utilizado; es el cociente entre la suma de los valores de la variable
X y el total de observaciones n. Se le designa convencionalmente:
En el caso que una variable tome con frecuencia los mismos valores es más rápido
calcular la media mediante la siguiente expresión:
Para el Ejemplo que vimos de las faltas a las clases de Estadística (ver teoría de
variables numéricas discretas), el cálculo del número de faltas promedio a clase de
los estudiantes resulta:
6
∑ 𝑥𝑖𝑓𝑖
0×1+1×4+2×5+3×6+4×8+5×6 94
𝑋‾ = 𝑖=1
30
= 30
= 30
= 3. 13̑
Lic. en Criminalística 1
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Observemos que este valor no es un valor que corresponda a la variable que estamos
midiendo porque nuestra variable asume sólo valores enteros positivos. Sin
embargo, a la hora de redactar una interpretación, no debemos redondear el
resultado obtenido. De este modo, podría decirse que el promedio de faltas por
alumno es de 3,13 faltas.
Recordemos el diagrama de barra de estos datos:
Se marcó con un triángulo rojo la media para representarla como un punto donde se
asienta el diagrama. Si bien el valor que más se repite es 4, seguido de 3 y 5, el
promedio se ve desplazado hacia la izquierda influenciado por los valores más
pequeños.
Para el Ejemplo de la medida del consumo eléctrico (ver teoría de variables
numéricas continuas), si calculamos la media del consumo eléctrico a partir de todos
los datos, el resultado es:
50
∑ 𝑥𝑖
92+54+32+78+68+……….+100+39 2735
𝑋‾ = 𝑖=1
50
= 50
= 50
= 54. 7𝑘𝑤
Lic. en Criminalística 2
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Claramente los valores no coinciden y siempre que se disponga de todos los datos
conviene usar el valor exacto. Veamos el histograma de los datos y observemos
dónde se ubica el promedio:
Lic. en Criminalística 3
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Lic. en Criminalística 4
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Se verificó que, si cada valor se transforma sumándole una constante fija, la media
de los nuevos datos es igual a la media de los datos primitivos más la constante
elegida.
Ahora, si sabemos que cada salario ha sido triplicado, ¿cuál es la media de los
nuevos salarios? La tabla de distribución de frecuencias de los nuevos salarios se
presenta así:
Gastos Número de Punto medio
familias
[1800;2400 5 2100
)
[2400;3000 20 2700
)
[3000;3600 30 3300
)
[3600;4200 40 3900
)
Lic. en Criminalística 5
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Observemos que
Probamos entonces que si a un conjunto de datos se los transforma multiplicando
cada uno de ellos por una constante determinada se verifica que su media es igual a
la media de los datos originales multiplicada por dicha constante.
Se detecta inmediatamente que existe un hotel de mil habitaciones, frente a uno muy
pequeño, de veinte. Como se puede observar, en este caso la serie tiene valores
extremos. Como ya dijimos, la media aritmética puede resultar inapropiada en este
caso.
Las cifras del cuadro ordenadas en forma creciente serían:
20 40 120 250 1000
Lic. en Criminalística 6
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
mediana en una serie, se utiliza la fórmula que aplicada a los datos anteriores,
Lic. en Criminalística 7
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Cuando los datos son pares, la mediana es la semisuma o el promedio de los dos
valores centrales. Por ejemplo, si a los datos anteriores se le agregara un hotel más
como se indica en el cuadro siguiente:
kw.
Lic. en Criminalística 8
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Propiedades de la mediana:
i) En la determinación de la mediana no intervienen todos los valores.
ii) Si sumamos un valor constante a los datos, la mediana se ve afectada en la
misma forma.
iii) Si multiplicamos cada dato por una constante, la mediana se transformará
multiplicándola por la misma constante.
La moda: La moda es el valor de la variable que tiene mayor frecuencia. Si se trata
de una variable discreta, no agrupada en intervalos, la moda se encuentra
inmediatamente observando de la tabla el valor de la variable al que corresponde la
máxima frecuencia. Por ejemplo, en el ejercicio anterior:
Grupo Conjunto de datos Mediana Media Moda
1 2, 4, 6, 9, 10 6.0 6.2 No
tiene
2 2, 2, 2, 6, 8 2.0 4. 2
3 3, 3, 3, 6, 7, 8 4.5 5. 3
4 1, 1, 1, 1, 98 1.0 20.4 1
5 10, 15, 20, 26 17.5 17.75 No
tiene
6 4, 4, 4, 4, 5, 5, 6, 6, 6, 5.0 5.0 4y6
6
Lic. en Criminalística 9
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Si se trata de una serie en la que los valores están agrupados en intervalos de clases,
consideraremos en el curso que la moda es la marca de clase del intervalo modal, es
decir del intervalo que tiene mayor frecuencia. Existe una fórmula para el cálculo de
la moda que se obtiene considerando las frecuencias de las clases adyacentes a la
clase modal pero no la aplicaremos para simplificar los cálculos.
La moda, en general, es un valor poco representativo de una distribución, pues no
tiene en cuenta todos los valores de la variable. La moda no tiene verdadero interés
sino cuando su frecuencia se destaca claramente del resto de la distribución. No se
puede sacar información de una moda poco destacada.
La clase modal es particularmente sensible a la descomposición en clases, sobre
todo si las frecuencias absolutas difieren poco unas de otras.
Puede haber varias modas: se habla entonces de distribución bimodal para el caso
de dos modas, o plurimodal para el caso de varias modas. Dos modas bien
señaladas y netamente distintas indican a menudo que la distribución mezcla dos
poblaciones diferentes.
Simetría:
Si los datos son simétricos y unimodal, la media, la mediana y la moda son valores
similares, y la presentación gráfica de los datos tienen una distribución que
podemos considerar simétrica con respecto a los valores centrales.
Si los datos están sesgados, (es decir, con una larga cola hacia uno de los extremos),
entonces la media, la mediana y la moda no coinciden. Generalmente se encuentra
que moda < mediana < media si la distribución está sesgada hacia la derecha,
mientras que media < mediana < moda si está sesgada hacia izquierda.
En el gráfico presentamos las situaciones descriptas. El primero a la izquierda
muestra una distribución de frecuencias unimodal y simétrica y, por lo tanto, las tres
medidas de centralización coinciden. Debajo de este gráfico vemos una distribución
simétrica pero bimodal, coincide mediana y media. A la derecha, se presentan dos
distribuciones con sesgo positivo o a la derecha y con sesgo negativo a la izquierda.
En estos casos el promedio se ve influenciado por los datos extremos, ubicándose a
la derecha de la mediana cuando el sesgo es positivo y a la izquierda cuando el sesgo
es negativo.
Lic. en Criminalística 10
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia
Lic. en Criminalística 11
Lic. en Terapia Ocupacional