Está en la página 1de 11

Estadística

Bioq. Salustro Ma. Florencia

ESTADÍSTICA DESCRIPTIVA

MEDIDAS DE RESUMEN
Para caracterizar numéricamente una distribución, es preciso por una parte situar
un valor central y por otra describir la dispersión alrededor de este valor. Así se
resume la posición de una distribución y su forma.
Medidas de centralización
Los tres valores centrales más utilizados son: la media aritmética, la mediana y la
moda. En general, será necesario buscar los tres valores centrales pues ellos nos
aportan informaciones que se complementan.
La media aritmética: La media, también llamada promedio o valor medio, es el
valor central más utilizado; es el cociente entre la suma de los valores de la variable
X y el total de observaciones n. Se le designa convencionalmente:

En el caso que una variable tome con frecuencia los mismos valores es más rápido
calcular la media mediante la siguiente expresión:

donde k es el número de valores distintos que toma la variable.

Para el Ejemplo que vimos de las faltas a las clases de Estadística (ver teoría de
variables numéricas discretas), el cálculo del número de faltas promedio a clase de
los estudiantes resulta:

6
∑ 𝑥𝑖𝑓𝑖
0×1+1×4+2×5+3×6+4×8+5×6 94
𝑋‾ = 𝑖=1
30
= 30
= 30
= 3. 13̑

Lic. en Criminalística 1
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Observemos que este valor no es un valor que corresponda a la variable que estamos
midiendo porque nuestra variable asume sólo valores enteros positivos. Sin
embargo, a la hora de redactar una interpretación, no debemos redondear el
resultado obtenido. De este modo, podría decirse que el promedio de faltas por
alumno es de 3,13 faltas.
Recordemos el diagrama de barra de estos datos:

Se marcó con un triángulo rojo la media para representarla como un punto donde se
asienta el diagrama. Si bien el valor que más se repite es 4, seguido de 3 y 5, el
promedio se ve desplazado hacia la izquierda influenciado por los valores más
pequeños.
Para el Ejemplo de la medida del consumo eléctrico (ver teoría de variables
numéricas continuas), si calculamos la media del consumo eléctrico a partir de todos
los datos, el resultado es:

50
∑ 𝑥𝑖
92+54+32+78+68+……….+100+39 2735
𝑋‾ = 𝑖=1
50
= 50
= 50
= 54. 7𝑘𝑤

En palabras: el consumo eléctrico mensual promedio de cada una de las 50 familias


compuestas por dos personas es de 54.7 kw.

Lic. en Criminalística 2
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Supongamos que solo se dispone de los datos agrupados, entonces se le atribuye a


todos los individuos de cada clase el mismo valor xi igual a la marca de clase
del intervalo. Evidentemente, se trata de una aproximación, pero se admite que los
errores se compensan de una clase a la otra y que la imprecisión es despreciable. En
este ejemplo el resultado es:
7
∑ 𝑥𝑖𝑓𝑖
16.5×8+29.5×5+42.5×6+55.5×8+68.5×10+81.5×9+94.5×4 2775
𝑋‾ = 𝑖=1
50
= 50
= 50
= 55. 5𝑘𝑤

Claramente los valores no coinciden y siempre que se disponga de todos los datos
conviene usar el valor exacto. Veamos el histograma de los datos y observemos
dónde se ubica el promedio:

Si no consideramos la primera clase, vemos que los datos se distribuyen de manera


bastante simétrica alrededor de la clase (62, 75], en ese caso la media debería
aproximarse a la marca de clase 65.5. Claramente el promedio es menor por la
influencia de la primera clase que indica que 9 familias tienen poco consumo de
energía.
Propiedades de la media:
Veamos algunas características de este promedio que nos permitirán juzgar cuándo
es conveniente usarlo como medida de centralización para representar un conjunto
de datos.
Consideremos el siguiente caso hipotético: hemos leído que en las fábricas A y B el
salario promedio de sus empleados es de $16000 quincenales. Sin embargo, hay
descontento en la fábrica A y no en la B. Nos enteramos que en A hay 5 empleados y
sus sueldos respectivos son $12000, $12000, $12000, $12000 y $32000, mientras
que en la B los 5 obreros ganan $16000, $16500, $15500, $17000 y $15000

Lic. en Criminalística 3
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

respectivamente. Si pensamos que la media debe ser un valor representativo de los


datos, evidentemente con los datos de la fábrica A esto no se verifica. Ello sucede
porque:
i) En el cálculo de la media se consideran todos los datos.
ii) La media se ve influenciada por valores extremos (en el ejemplo, $32000 en la
fábrica A).
Cuando se observa que en los datos existe una tendencia a concentrarse sobre un
punto central, la media aritmética suele ser el valor central apropiado. La media
tiene en cuenta todos los valores de la variable y es poco sensible a la
descomposición en clases. Sin embargo, es muy sensible a los valores extremos
(que con frecuencia son poco significativos o excepcionales).
Con respecto a transformaciones de los datos, son importantes las siguientes dos
propiedades que verifica la media:
● Cuando se añade (o se sustrae) una constante a todos los valores de la
variable, la media de la nueva serie es la media de la serie original aumentada
(o disminuida) en esta constante, esto es:
𝑆𝑖 𝑦𝑖 = 𝑥𝑖 + 𝑎 𝑖𝑚𝑝𝑙𝑖𝑐𝑎 𝑌‾ = 𝑋‾ + 𝑎

● Se puede igualmente cambiar de escala, pues si se multiplican (o dividen)


todos los valores por una constante c, la media de la nueva serie es la media
de la serie original, multiplicada (o dividida) por la constante:

Demostraremos a continuación estas dos propiedades y las ilustraremos mediante


unos ejemplos.

Lic. en Criminalística 4
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Supongamos ahora que todos los salarios fueron incrementados en $300, la


distribución de frecuencias quedaría transformada de esta manera:
Salarios Número de Punto medio
familias
[900;1100) 5 1000
[1100;1300 20 1200
)
[1300;1500 30 1400
)
[1500;1700 40 1600
)
[1700;1900 20 1800
)
[1900;2100 15 2000
)
Total 130

Se verificó que, si cada valor se transforma sumándole una constante fija, la media
de los nuevos datos es igual a la media de los datos primitivos más la constante
elegida.
Ahora, si sabemos que cada salario ha sido triplicado, ¿cuál es la media de los
nuevos salarios? La tabla de distribución de frecuencias de los nuevos salarios se
presenta así:
Gastos Número de Punto medio
familias
[1800;2400 5 2100
)
[2400;3000 20 2700
)
[3000;3600 30 3300
)
[3600;4200 40 3900
)

Lic. en Criminalística 5
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Gastos Número de Punto medio


familias
[4200;4800 20 4500
)
[4800;5400 15 5100
)
Total 130

Observemos que
Probamos entonces que si a un conjunto de datos se los transforma multiplicando
cada uno de ellos por una constante determinada se verifica que su media es igual a
la media de los datos originales multiplicada por dicha constante.

La mediana: Clasificados los valores de la variable en orden creciente o decreciente,


la mediana divide la distribución en dos subconjuntos de igual frecuencia absoluta:
el 50% de los valores están por encima y el otro 50% son inferiores.

Se detecta inmediatamente que existe un hotel de mil habitaciones, frente a uno muy
pequeño, de veinte. Como se puede observar, en este caso la serie tiene valores
extremos. Como ya dijimos, la media aritmética puede resultar inapropiada en este
caso.
Las cifras del cuadro ordenadas en forma creciente serían:
20 40 120 250 1000

Lic. en Criminalística 6
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

En este caso la mediana es 120 habitaciones. Para facilitar la ubicación de la

mediana en una serie, se utiliza la fórmula que aplicada a los datos anteriores,

es: . Esto significa que el dato ubicado en la 3º posición es la mediana, o sea


120.

Lic. en Criminalística 7
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Cuando los datos son pares, la mediana es la semisuma o el promedio de los dos
valores centrales. Por ejemplo, si a los datos anteriores se le agregara un hotel más
como se indica en el cuadro siguiente:

Hotel Número de habitaciones


A 1000
B 250
C 120
D 20
E 40
F 70

Los datos ordenados en forma creciente quedan:


20 40 70 120 250 1000

En este caso, , esto significa que se encuentra entre el 3º y 4º ,


término para lo cual se suman 70 y 120 y se divide el total por 2, quedando el mismo
número de observaciones antes y después del promedio.
Cuando los valores de la variable se disponen en clases (trabajamos con los datos
agrupados), la clase mediana es aquella en la cual aparece la frecuencia acumulada:

. El valor aproximado de la mediana se obtiene mediante un cálculo de


interpolación.
Si consideramos los datos del ejemplo de la medición del consumo de energía en Kw
(ver teoría de variables cuantitativas continuas), el orden de la mediana es

. Luego la clase mediana es la que contiene la frecuencia acumulada


25.5, es decir, la de aquellas familias que tienen un consumo eléctrico de entre 49 y
62 kw. Se supone que la curva de consumo eléctrico crece según una función lineal
de un límite a otro de la clase, por lo tanto la mediana es, aproximadamente:

kw.

Lic. en Criminalística 8
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

En el grupo 4 la mediana es más representativa que la media, ya que la primera no


se ve afectada por el valor extremo 98, en tanto que la media se ve perturbada por
este valor.

Propiedades de la mediana:
i) En la determinación de la mediana no intervienen todos los valores.
ii) Si sumamos un valor constante a los datos, la mediana se ve afectada en la
misma forma.
iii) Si multiplicamos cada dato por una constante, la mediana se transformará
multiplicándola por la misma constante.
La moda: La moda es el valor de la variable que tiene mayor frecuencia. Si se trata
de una variable discreta, no agrupada en intervalos, la moda se encuentra
inmediatamente observando de la tabla el valor de la variable al que corresponde la
máxima frecuencia. Por ejemplo, en el ejercicio anterior:
Grupo Conjunto de datos Mediana Media Moda
1 2, 4, 6, 9, 10 6.0 6.2 No
tiene
2 2, 2, 2, 6, 8 2.0 4. 2
3 3, 3, 3, 6, 7, 8 4.5 5. 3
4 1, 1, 1, 1, 98 1.0 20.4 1
5 10, 15, 20, 26 17.5 17.75 No
tiene
6 4, 4, 4, 4, 5, 5, 6, 6, 6, 5.0 5.0 4y6
6

Lic. en Criminalística 9
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Si se trata de una serie en la que los valores están agrupados en intervalos de clases,
consideraremos en el curso que la moda es la marca de clase del intervalo modal, es
decir del intervalo que tiene mayor frecuencia. Existe una fórmula para el cálculo de
la moda que se obtiene considerando las frecuencias de las clases adyacentes a la
clase modal pero no la aplicaremos para simplificar los cálculos.
La moda, en general, es un valor poco representativo de una distribución, pues no
tiene en cuenta todos los valores de la variable. La moda no tiene verdadero interés
sino cuando su frecuencia se destaca claramente del resto de la distribución. No se
puede sacar información de una moda poco destacada.
La clase modal es particularmente sensible a la descomposición en clases, sobre
todo si las frecuencias absolutas difieren poco unas de otras.
Puede haber varias modas: se habla entonces de distribución bimodal para el caso
de dos modas, o plurimodal para el caso de varias modas. Dos modas bien
señaladas y netamente distintas indican a menudo que la distribución mezcla dos
poblaciones diferentes.
Simetría:
Si los datos son simétricos y unimodal, la media, la mediana y la moda son valores
similares, y la presentación gráfica de los datos tienen una distribución que
podemos considerar simétrica con respecto a los valores centrales.
Si los datos están sesgados, (es decir, con una larga cola hacia uno de los extremos),
entonces la media, la mediana y la moda no coinciden. Generalmente se encuentra
que moda < mediana < media si la distribución está sesgada hacia la derecha,
mientras que media < mediana < moda si está sesgada hacia izquierda.
En el gráfico presentamos las situaciones descriptas. El primero a la izquierda
muestra una distribución de frecuencias unimodal y simétrica y, por lo tanto, las tres
medidas de centralización coinciden. Debajo de este gráfico vemos una distribución
simétrica pero bimodal, coincide mediana y media. A la derecha, se presentan dos
distribuciones con sesgo positivo o a la derecha y con sesgo negativo a la izquierda.
En estos casos el promedio se ve influenciado por los datos extremos, ubicándose a
la derecha de la mediana cuando el sesgo es positivo y a la izquierda cuando el sesgo
es negativo.

Lic. en Criminalística 10
Lic. en Terapia Ocupacional
Estadística
Bioq. Salustro Ma. Florencia

Existen parámetros de forma que miden la asimetría de una distribución de


frecuencias o que comparan la forma de la distribución con respecto a la
distribución normal (curtosis) y que veremos más adelante.

Lic. en Criminalística 11
Lic. en Terapia Ocupacional

También podría gustarte