Está en la página 1de 38

DATOS SIN AGRUPAR O SERIES

SIMPLES
MEDIDAS DE TENDENCIA CENTRAL
El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los
cuales pueda recaer la representación de toda la información. Las medidas de tendencia
central, llamadas así porque tienden a localizarse en el centro de la información, son de
gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación
no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de
ellas está asociada con el grado de concentración de la información.

Las principales medidas de tendencia central son:

 Media aritmética.
 Mediana
 Moda.

MEDIA ARITMÉTICA
Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo,
decimos que en un determinado tramo vial se producen 6 accidentes diarios, no aseguramos
que diariamente deban exactamente ocurrir los 6 accidente, puesto que pueden ocurrir 5 en
un día, en otro 6, 7, 8, etc.

Matemáticamente, la media aritmética se define como la suma de los valores observados


dividida entre el número de observaciones.

𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑖 + ⋯ + 𝑥𝑛 ∑𝑛1 𝑥𝑖
𝑥̅ = =
𝑛 𝑛
𝑥̅ : 𝑀𝑒𝑑𝑖𝑎 𝐴𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥.

𝑥𝑖 : 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥

𝑛: 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠.

∑: 𝑆𝑖𝑔𝑛𝑜 𝑑𝑒 𝑠𝑢𝑚𝑎𝑡𝑜𝑟𝑖𝑎, 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑒𝑛 𝑠𝑢𝑚𝑎𝑟𝑠𝑒.
Ejemplo: Cantidad de accidentes observados en determinado tramo vial en una semana.

 Lunes: 4
 Martes: 7
 Miércoles: 8
 Jueves: 5
 Viernes: 8
 Sábado: 6
 Domingo: 4

Entonces la media aritmética es:

4 + 7 + 8 + 5 + 8 + 6 + 4 42
𝑥̅ = = =6
7 7
En este caso podemos decir que efectivamente en ese determinado tramo vial se producen 6
accidentes diarios.

LA MEDIANA
Otra medida de tendencia central, utilizada principalmente en estadística no paramétrica, es
la mediana, la cual no se basa en la magnitud de los datos, como la media aritmética, sino
en la posición central que ocupa en el orden de su magnitud, dividiendo la información en
dos partes iguales, dejando igual número de datos por encima y por debajo de ella.
Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente.

La mediana se calcula dependiendo de la cantidad de observaciones obtenidas.

Si n es impar:

𝑀𝑒 = 𝑥(𝑛+1)
2

Si n es par:

𝐿𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑞𝑢𝑒 𝑒𝑠𝑡𝑎𝑛 𝑒𝑛 𝑙𝑎 𝑚𝑖𝑡𝑎𝑑


𝑀𝑒 =
2
Del ejemplo anterior podemos determinar la mediana:

Se ordenan ascendentemente los datos: 4, 4, 5, 6, 7, 8 y 8. Como se puede ver la serie de


datos es impar y tiene 7 datos, es decir, n = 7, por lo que n + 1 = 8, y 8/2 = 4 por lo que la
mediana es el dato que ocupa la posición 4. En este caso 𝑥4 = 6.
La mediana indica que por encima de 6 se encuentra el 50% de los datos e igualmente por
debajo de 6 se encuentra el otro 50%.

Ejemplo: Consumo mensual de agua, en m3, por la fábrica de confecciones “La Hilacha”.

Enero= 10 Mayo= 14 Septiembre= 18


Febrero= 12 Junio= 19 Octubre= 22
Marzo= 15 Julio= 17 Noviembre= 15
Abril= 18 Agosto= 18 Diciembre= 13

La media aritmética es:

10 + 12 + 15 + 18 + 14 + 19 + 17 + 18 + 18 + 22 + 15 + 13 191
𝑥̅ = =
12 12

𝑥̅ = 15.92 𝑚3 𝑝𝑜𝑟 𝑚𝑒𝑠

La mediana es:

10, 12, 13, 14, 15, 15, 17, 18, 18, 18, 19 y 22

Es una serie es par, y los dos datos de la mitad son 15 y 17 por lo que la mediana se calcula
así:

15 + 17 32
𝑀𝑒 = = = 16 𝑚3
2 2
Por lo que por debajo de los 16 m3, se encuentra el 50% de los datos y por encima de 16
m3, se encuentra el otro 50%.

LA MODA
La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia dentro de
una distribución. Una información puede tener una moda y se llama unimodal, dos modas y
se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede ocurrir que la
información no posea moda.
Para el ejemplo de los accidentes podemos observar que hay dos días en los que se
observaron 4 accidentes y dos días también en los que se observaron 8 accidentes, por lo
tanto, el ejemplo tiene 2 modas Mo1 = 4 accidentes por día y Mo2 = 8 accidentes por día.

Gráficamente se puede observar de la siguiente manera la información obtenida.

2.5
ACCIDENTES
2
CANTIDAD DE DÍAS

1.5

1 Series1

0.5

0
4 5 6 7 8
CANTIDAD DE ACCIDENTES REGISTRADOS POR DÍA

Lo cual coincide con el hecho de que hay dos modas, la de 4 accidentes por día y la de 8
accidentes por día.
En el caso de los metros cúbicos consumidos por la fábrica “La Hilacha” la gráfica es la
siguiente:

3.5
FABRICA "LA HILACHA"
3

2.5
CANTIDAD DE MESES

1.5 Series1

0.5

0
10 12 13 14 15 17 18 19 22
Metros Cúbicos Consumidos

Por lo que la moda de consumo es de 18 metros cúbicos al mes.

MEDIDAS DE DISPERSIÓN
En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia
central o de posición, ya que, por ejemplo, cuando pretendemos representar toda una
información con la media aritmética, no estamos siendo absolutamente fieles a la realidad,
pues suelen existir datos extremos inferiores y superiores a la media aritmética, los cuales,
en honor a la verdad, no están siendo bien representados por este parámetro.

En dos informaciones con igual media aritmética, no significa este hecho, que las
distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de
homogeneidad entre sus datos. Por ejemplo, los valores 5, 50, 95 tiene igual media
aritmética y mediana que los valores 49, 50,51; sin embargo, para la primera información la
media aritmética, se encuentra muy alejada de los valores extremos 5 y 95, cosa que no
ocurre con la segunda información que posee igual media aritmética y mediana, vemos
entonces que la primera información es más heterogénea o dispersa que la segunda.
Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes
indicadores:

 Desviación media
 Varianza
 Desviación típica o estándar
 Coeficiente de variabilidad.

DESVIACIÓN MEDIA
La desviación media, mide la distancia absoluta promedio entre cada uno de los datos y el
parámetro que caracteriza la información. Usualmente se considera la desviación media con
respecto a la media aritmética:

∑𝑛1|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
DM : Desviación media

xi: Diferentes valores de la variable x

𝑥̅ : Media aritmética de la información.

n : Tamaño de la muestra.

|𝑥𝑖 − 𝑥̅ | : Valor Absoluto de las desviaciones. El valor absoluto es una función en la que el
resultado que se obtiene siempre será positivo.

Ejemplo: Cantidad de accidentes observados en determinado tramo vial en una semana.

 Lunes: 4
 Martes: 7
 Miércoles: 8
 Jueves: 5
 Viernes: 8
 Sábado: 6
 Domingo: 4

Entonces la media aritmética es:

4 + 7 + 8 + 5 + 8 + 6 + 4 42
𝑥̅ = = =6
7 7
Por lo que la Desviación Media se calcula de la siguiente manera:

|4 − 6| + |7 − 6| + |8 − 6| + |5 − 6| + |8 − 6| + |6 − 6| + |4 − 6|
𝐷𝑀 =
7

|−2| + |1| + |2| + |−1| + |2| + |0| + |−2|


𝐷𝑀 =
7

2 + 1 + 2 + 1 + 2 + 0 + 2 10
𝐷𝑀 = = = 1.43
7 7

VARIANZA
El problema de los signos en la desviación media, es eludido tomando los valores absolutos
de las diferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza
obvia los signos elevando las diferencias al cuadrado, lo cual resulta ser más elegante,
aparte de que es supremamente útil en el ajuste de modelos estadísticos que generalmente
conllevan formas cuadráticas.

La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede


decir que, teniendo conocimiento de la varianza de una población, se ha avanzado mucho
en el conocimiento de la población misma.

Numéricamente definimos la varianza, como desviación cuadrática media de los datos con
respecto a la media aritmética:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑉𝑎𝑟 =
𝑛

Var: Varianza

xi : Valor de la variable X

𝑥̅ : Media aritmética de la información.

n : Tamaño de la muestra.

(𝑥𝑖 − 𝑥̅ )2: Cuadrados de las desviaciones.


Tomando en cuenta los datos del ejemplo anterior tenemos que la varianza se calcula así:

22 + 12 + 22 + 12 + 22 + 02 + 22
𝑉𝑎𝑟 =
7

4 + 1 + 4 + 1 + 4 + 0 + 4 18
𝑉𝑎𝑟 = = = 2.57
7 7

DESVIACIÓN TÍPICA O ESTÁNDAR


La desviación típica es la raíz cuadrada de la varianza.

𝑠 = √𝑉𝑎𝑟

Por lo que, la desviación estándar del ejemplo es:

𝑠 = √2.57 = 1.60

Adicionalmente en cualquier juego de datos, siempre se va a observar la siguiente relación:

𝐷𝑀 < 𝑠

COEFICIENTE DE VARIABILIDAD O DE VARIACIACIÓN


Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras
que posean distintas magnitudes o unidades de medida. El coeficiente de variabilidad tiene
en cuenta el valor de la media aritmética, para establecer un número relativo, que hace
comparable el grado de dispersión entre dos o más variables, y se define como:
𝑠
𝐶. 𝑉. = × 100
𝑥̅
Para el ejemplo de los hechos de tránsito el coeficiente de variación es:

1.60
𝐶. 𝑉. = × 100 = 26.73%
6
Esto significa que los datos se encuentran a un 26.73% dispersos o dicho de otra manera se
encuentran 73.27% concentrados alrededor de la media aritmética.
HOJA DE TRABAJO 1
MEDIDAS DE TENDENCIA CENTRAL
Y DE DISPERSIÓN PARA SERIES SIMPLES

Instrucciones: Calcule las medidas de tendencia central y de dispersión para los siguientes
problemas:

PROBLEMA 1: Las estaturas, expresadas en metros, de 20 estudiantes son:

1.43 1.45 1.36 1.52 1.63 1..82 1.38 1.40 1.72 1.73

1.66 1.45 1.62 1.80 1.81 1.45 1.74 1.92 1.85 1.90

PROBLEMA 2: Un call-center, recibe por día las siguientes llamadas de clientes


insatisfechos.

14 30 24 60 70 24 22 42 45 70

75 12 30 45 62 63 74 28 20 30

40 50 60 20 10 20 30 40 50 60

PROBLEMA 3: Una venta de repuestos automotrices reporta el siguiente movimiento en


sus ventas:

DIA VENTA EN Q

LUNES Q.62,340.00

MARTES Q.75,416.00

MIERCOLES Q.93,214.00

JUEVES Q.104,421.00

VIERNES Q.80,216.00

SABADO Q.120,424.00
PROBLEMA 4: En un examen de Estadística las notas de los alumnos son: 7.28, 16.4,
9.0, 8.5, 9.0, 7.5, 8.8, 4.2, 10.0.

PROBLEMA 5: Las puntuaciones obtenidas por un grupo en una prueba han sido: 15, 13,
16, 15, 19, 18, 15, 14, 18.

PROBLEMA 6: El número de estrellas de los hoteles de una ciudad viene dado por la
siguiente serie: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3.

PROBLEMA 7: En un estudio que se realizó en un asilo de ancianos, se tomó las edades


de las personas que pueden caminar sin dificultades. Siendo las siguientes edades. 69 73
65 70 71 74 65 69 60 62

PROBLEMA 8: Se tiene a continuación las edades de 20 alumnos de la Universidad “LA


COLINA”: 16, 18, 20, 21, 19, 19, 20, 18, 17, 18, 21, 16, 21, 19, 16, 16, 17, 18, 16, 18

RESPUESTAS DE LOS PROBLEMAS:


PROBLEMA RESPUESTAS PROBLEMA RESPUESTAS
media 1.63 media 40.67
moda 1.45 moda 30.00
mediana 1.65 mediana 40.00
1 DM 0.16 2 DM 17.11
VAR 0.03 VAR 385.82
s 0.18 s 19.64
CV 11.23% CV 48.30%
media 89338.50 media 8.96
moda No hay moda moda 9.00
mediana 86715.00 mediana 8.80
3 DM 16681.17 4 DM 1.90
VAR 369130771.92 Var 9.37
S 19212.78 s 3.06
CV 21.51% C.V. 34.14%
DATOS AGRUPADOS
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y
a partir de estas determinar las características de la muestra y por consiguiente las de la
población de donde fue tomada.

Antes de pasar a definir cuál es la manera de determinar las características de interés


(media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es
necesario que sepamos cómo se agrupan los datos.

Una tabla de frecuencias se puede construir a partir de intervalos o clases, para ello se
utiliza: el rango, el número de intervalos y el tamaño del intervalo.

Rango (R): También se le llama RECORRIDO y es una forma de medir la variación de un


conjunto de valores. Se calcula restándole al dato mayor el dato menor.

𝑅 = 𝑋𝑚𝑎𝑦 − 𝑋𝑚𝑒𝑛

Números de Intervalos (I): El número de intervalos es la cantidad de veces que se


debe de realizar las iteraciones, es decir la cantidad de filas que se deben de realizar en la
tabla. Se calcula de la siguiente manera:

𝐼 = 1 + (log 𝑁)(3.33)

Donde N es el total de datos.

Tamaño o Amplitud del intervalo (A): La amplitud del intervalo es el tamaño de cada
intervalo y se calcula:
𝐴 = 𝑅⁄𝐼

Ejemplo: Construir una tabla de frecuencias con datos agrupados, con los datos que
corresponden a la información de tiempo de parqueo de 40 motos. (Tiempo expresado en
minutos)

30 32 32 34 44 45 47 47

50 52 52 55 57 57 60 60

62 62 62 63 63 63 64 64

65 65 65 75 75 76 77 78

79 80 81 82 83 83 84 84
Lo primero que debemos hacer es hallar el rango, luego el número de intervalos que hay
que tener en la tabla,

𝑅 = 84 − 30 = 54

𝐼 = 1 + (log 40)(3.33) = 6.334859 ≅ 7

El dato del número de intervalos generalmente se aproxima al número entero próximo,


salvo el caso de que el valor sea muy, pero muy, cercano al menor; por ejemplo en este
caso que el valor de I fuera 6.01, 6.02 o incluso 6.1

Luego para encontrar el tamaño del intervalo lo que debemos de encontrar la amplitud del
intervalo.

𝐴 = 54⁄7 = 7.71428 ≅ 8

Si el resultado del tamaño del intervalo es un número decimal realizamos el mismo


procedimiento anterior. Entonces concluimos que el número de intervalos o filas que debe
de tener la tabla de frecuencias es de 7 y el tamaño de los intervalos es de 8, construimos la
tabla de frecuencias sencillas y acumuladas.

Para construir la tabla con los intervalos el primero siempre se comienza con el dato menor
del total de datos (30) y le sumamos el tamaño del intervalo es decir (8). Pero debe incluir
en esa amplitud al primer número (30), es decir, 30, 31, 32, 33, 34, 35, 36 y 37. Si nos
damos cuenta allí hay 8 números que son cabalmente la amplitud o tamaño del intervalo.

Para el segundo intervalo comenzamos en el siguiente número al que quedamos en el


primer intervalo. Y así sucesivamente hasta que lleguemos al séptimo intervalo, el cual
debe incluir el dato mayor del total de los datos (84).

Después de haber colocado todos los intervalos procedemos a hallar la frecuencia absoluta
(que es la cantidad de veces que se repite un número), como es con intervalos debemos de
buscar todos los números que se encuentren entre el rango incluyendo el dato inferior (30)
y el dato superior (37) de cada intervalo. Y así sucesivamente con cada intervalo

30 32 32 34 44 45 47 47

50 52 52 55 57 57 60 60

62 62 62 63 63 63 64 64

65 65 65 75 75 76 77 78

79 80 81 82 83 83 84 84
I Lim - Apa fi Fa
1 30 – 37 4 4 Al contar cuantos datos hay comprendidos entre 30 y 37, se
contabilizaron 4, ese 4 es el valor de la frecuencia absoluta del
primer intervalo y también el valor de la primera frecuencia
acumulada.
2 38 – 45 2 6 En este segundo intervalo, solo hay 2 datos comprendidos entre
38 y 45, sin embargo la frecuencia acumulada es 6, debido a que
es la suma de la primera frecuencia acumulada y 2.
3 46 – 53 5 11 Hay 5 datos comprendidos entre 46 y 53, siendo este valor la
tercera frecuencia absoluta. Y la suma de esta frecuencia con la
frecuencia acumulada anterior da 11.
4 54 – 61 5 16 Los procesos de conteo y de acumulación anteriores se van
5 62 – 69 11 27 repitiendo en cada uno de los intervalos respectivos.
6 70 – 77 4 31
7 78 – 85 9 40 La frecuencia acumulada del último intervalo deberá ser siempre
igual al total de los datos
Σ 40 La sumatoria de todas las frecuencias absolutas es igual al total
de los datos.

Cada intervalo tiene un límite aparente inferior y un límite aparente superior, en el caso del
primer intervalo el límite aparente inferior es 30 y el límite aparente superior es 37. De
igual manera para cada uno de los siguientes intervalos.

La construcción de la tabla lleva consigo el ir aperturando nuevas columnas, las cuales nos
van a permitir realizar los cálculos posteriores, tanto de, las medidas de tendencia central,
de posición, de forma y de dispersión.

Para poder generar mayor información en la tabla, además de los límites aparentes (Lim –
Apa), frecuencias absolutas (fi) y frecuencias acumuladas (Fa) es necesario construir los
límites reales (Lim – Real), frecuencias relativas o porcentuales (fi % y Fa %) y las marcas
de clase (xi).

Para calcular los límites reales, sumamos el 1er límite aparente superior (37) con el 2do
37+38
límite aparente inferior (38) y dicha suma se divide entre 2, 2 = 37.5 dicho valor será
el primer límite real superior. Luego ese valor es el segundo límite real inferior.
Nuevamente sumamos el 2do límite aparente superior (45) con el 3er límite aparente
45+46
inferior (46) y dicha suma se divide entre 2, 2 = 45.5 dicho valor será el 2do límite real
superior. Luego ese valor es el 3er límite real inferior.

Y así sucesivamente hasta que lleguemos al último límite real inferior, que en este caso será
78.5. Para poder calcular el 1er límite real inferior y último límite real superior, le restamos
la amplitud al 1er límite real superior y le sumamos la amplitud al último límite real
inferior.
De esa manera nos queda la tabla de la siguiente manera:

Lim - Apa Lim – Real fi Fa


30 – 37 29.5 – 37.5 4 4
38 – 45 37.5 – 45.5 2 6
46 – 53 45.5 – 53.5 5 11
54 – 61 53.5 – 61.5 5 16
62 – 69 61.5 – 69.5 11 27
70 – 77 69.5 – 77.5 4 31
78 – 85 77.5 – 85.5 9 40
Σ 40

Para obtener las frecuencias relativas, tanto para, las absolutas como para las acumuladas,
cada una de las frecuencias se divide entre el total de los datos y se multiplica por 100.

Lim - Apa Lim – Real fi fi % Fa Fa %


30 – 37 29.5 – 37.5 4 10 % 4 10 %
38 – 45 37.5 – 45.5 2 5% 6 15 %
46 – 53 45.5 – 53.5 5 12.5 % 11 27.5 %
54 – 61 53.5 – 61.5 5 12.5% 16 40 %
62 – 69 61.5 – 69.5 11 27.5 % 27 67.5 %
70 – 77 69.5 – 77.5 4 10 % 31 77.5 %
78 – 85 77.5 – 85.5 9 22.5 % 40 100 %
Σ 40 100 %

Por último es necesario que se construyan las marcas de clase (xi) que son los puntos
medios, ya sea de, los límites aparentes o bien de los límites reales.

Lim - Apa Lim – Real fi xi fi % Fa Fa %


30 – 37 29.5 – 37.5 4 33.5 10 % 4 10 %
38 – 45 37.5 – 45.5 2 41.5 5% 6 15 %
46 – 53 45.5 – 53.5 5 49.5 12.5 % 11 27.5 %
54 – 61 53.5 – 61.5 5 57.5 12.5% 16 40 %
62 – 69 61.5 – 69.5 11 65.5 27.5 % 27 67.5 %
70 – 77 69.5 – 77.5 4 73.5 10 % 31 77.5 %
78 – 85 77.5 – 85.5 9 81.5 22.5 % 40 100 %
Σ 40 100 %

Con esta información se pueden hacer ya dos cosas: la primera construir las gráficas (las
cuales se explicará cómo se realizan en el siguiente curso) y segunda calcular las medidas
de tendencia central, de posición, de forma y de dispersión.
MEDIDAS DE TENDENCIA CENTRAL:

MEDIA ARITMÉTICA, MODA Y MEDIANA.


En la parte de series simples están definidas las medidas de tendencia central, de modo que
en esta parte iniciaremos de una vez con los respectivos cálculos de las medidas de
tendencia central.

∑𝒏
𝒊=𝟏 𝒇𝒊 𝒙𝒊
̅=
𝒙 ∑𝒏
donde:
𝒊=𝟏 𝒇𝒊

∑ 𝒇𝒊 𝒙𝒊 Es la sumatoria de los productos de


MEDIA ARITMÉTICA las frecuencias absolutas por las marcas de
clases.
∑ 𝒇𝒊 Es la sumatoria de las frecuencias
absolutas.

∆𝟏
𝑴𝒐 = 𝑳𝑹 𝒊−𝟏 + (∆ ) 𝑨 donde:
𝟏 +∆𝟐

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo


donde se localiza la Moda.
∆𝟏 Es la diferencia entre la mayor
MODA frecuencia y la frecuencia anterior.
∆𝟐 Es la diferencia entre la mayor
frecuencia y la frecuencia posterior.
A Es la amplitud del intervalo de donde se
encuentra localizada la Moda.
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 𝒇𝒎𝒆
) 𝑨 donde:

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo


donde se localiza la Mediana.
𝑵
Es la mitad del total de los datos.
𝟐
MEDIANA 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior
al intervalo donde se encuentra localizada la
Mediana.
𝑓𝑚𝑒 Es la frecuencia del intervalo donde se
encuentra localizada la Mediana.
A Es la amplitud del intervalo donde se
encuentra localizada la Mediana.
Veamos el siguiente ejemplo:

L - A L - R fi xi Fa fixi Para calcular la media aritmética sabemos


10 - 14 9.5 - 14.5 2 12 2 24 que debemos multiplicar cada frecuencia
15 - 19 14.5 - 19.5 30 17 32 510 absoluta con su respectiva marca de clase y
20 - 24 19.5 - 24.5 26 22 58 572 luego sumar todos los productos. Por lo
que en este caso es:
25 - 29 24.5 - 29.5 20 27 78 540
30 - 34 29.5 - 34.5 10 32 88 320
∑ 𝑓𝑖 𝑥𝑖 2198
35 - 39 34.5 - 39.5 4 37 92 148 𝑥̅ = = = 23.38297 ≅ 23.38
∑ 𝑓𝑖 94
40 - 44 39.5 - 44.5 2 42 94 84
94 2198

L - A L - R fi xi Fa fixi Para calcular la moda, se procede


10 - 14 9.5 - 14.5 2 12 2 24 primeramente a identificar donde está la
15 - 19 14.5 - 19.5 30 17 32 510 mayor frecuencia, en este caso la mayor
20 - 24 19.5 - 24.5 26 22 58 572 frecuencia es de 30 y hemos rotulado con
amarillo dicho intervalo.
25 - 29 24.5 - 29.5 20 27 78 540
30 - 34 29.5 - 34.5 10 32 88 320
Por lo que ∆1 = 30 − 2 = 28 y ∆2 = 30 −
35 - 39 34.5 - 39.5 4 37 92 148
26 = 4
40 - 44 39.5 - 44.5 2 42 94 84
94 2198 Entonces:

∆1
𝑀𝑜 = 𝐿𝑅 𝑖−1 + ( )𝐴
∆1 + ∆2

28
𝑀𝑜 = 14.5 + ( ) (5)
28 + 4

𝑀𝑜 = 18.875 ≅ 18.88
L - A L - R fi xi Fa fixi Ahora para calcular la mediana se calcula
10 - 14 9.5 - 14.5 2 12 2 24 N/2 = 94/2 = 47, con este valor de 47 se
15 - 19 14.5 - 19.5 30 17 32 510 busca la frecuencia acumulada que contenga
20 - 24 19.5 - 24.5 26 22 58 572 al 47, en este caso 58 es la frecuencia
acumulada que la contiene, por lo cual, ese
25 - 29 24.5 - 29.5 20 27 78 540
es el intervalo donde se encuentra
30 - 34 29.5 - 34.5 10 32 88 320
localizada la mediana, en este caso, el
35 - 39 34.5 - 39.5 4 37 92 148 intervalo está rotulado de color mostaza.
40 - 44 39.5 - 44.5 2 42 94 84
94 2198 Entonces:
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 )𝑨
𝒇𝒎𝒆

𝟒𝟕 − 𝟑𝟐
𝑴𝒆 = 𝟏𝟗. 𝟓 + ( )𝟓
𝟐𝟔

𝑴𝒆 = 𝟐𝟐. 𝟑𝟖𝟒𝟔𝟏𝟓 ≅ 𝟐𝟐. 𝟑𝟖

MEDIDAS DE DISPERSIÓN.
∑ 𝑓𝑖 |𝑥𝑖 −𝑥̅ |
𝐷𝑀 = ∑ 𝑓𝑖
donde:

|𝑥𝑖 − 𝑥̅ | es el valor absoluto de la diferencia


entre cada marca de clase y la media aritmética,
esta diferencia se llama desviación. El valor
absoluto es una función que siempre devuelve
DESVIACIÓN MEDIA valores positivos.

∑ 𝑓𝑖 |𝑥𝑖 − 𝑥̅ | es la sumatoria de los productos de


las frecuencias por las desviaciones.

∑ 𝑓𝑖 es la sumatoria de las frecuencias, es decir,


el total de los datos.

∑ 𝑓𝑖 (𝑥𝑖 −𝑥̅ )2
𝑉𝑎𝑟 = ∑ 𝑓𝑖
donde:

(𝑥𝑖 − 𝑥̅ )2 es el cuadrado de las desviaciones.

∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 es la sumatoria de los productos


VARIANZA de las frecuencias por los cuadrados de las
desviaciones.

∑ 𝑓𝑖 es la sumatoria de las frecuencias, es decir,


el total de los datos.
∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠=𝜎=√ = √𝑉𝑎𝑟
∑ 𝑓𝑖
DESVIACIÓN ESTÁNDAR O TÍPICA
La desviación estándar o desviación típica es la
raíz cuadrada de la varianza.

𝑠
COEFICIENTE DE VARIACIÓN 𝐶. 𝑉. = × 100
𝑥̅

EJEMPLO:

Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos.

L - R fi xi Fa fixi Para calcular la media aritmética sabemos


10.5 - 20.5 10 15.5 10 155 que debemos multiplicar cada frecuencia
absoluta con su respectiva marca de clase y
20.5 - 30.5 20 25.5 30 510
luego sumar todos los productos. Por lo
30.5 - 40.5 50 35.5 80 1775 que en este caso es:
40.5 - 50.5 70 45.5 150 3185
50.5 - 60.5 90 55.5 240 4995 ∑ 𝑓𝑖 𝑥𝑖 12685
𝑥̅ = = = 46.9814 ≅ 46.98
60.5 - 70.5 20 65.5 260 1310 ∑ 𝑓𝑖 270
70.5 - 80.5 10 75.5 270 755
270 12685

L - R fi xi Fa fixi Para calcular la moda, se procede


10.5 - 20.5 10 15.5 10 155 primeramente a identificar donde está la
mayor frecuencia, en este caso la mayor
20.5 - 30.5 20 25.5 30 510
frecuencia es de 90 y hemos rotulado con
30.5 - 40.5 50 35.5 80 1775 amarillo dicho intervalo.
40.5 - 50.5 70 45.5 150 3185
50.5 - 60.5 90 55.5 240 4995 Por lo que ∆1 = 90 − 70 = 20 y ∆2 = 90 −
60.5 - 70.5 20 65.5 260 1310 20 = 70
70.5 - 80.5 10 75.5 270 755
Entonces:
270 12685
∆1
𝑀𝑜 = 𝐿𝑅 𝑖−1 + ( )𝐴
∆1 + ∆2

20
𝑀𝑜 = 50.5 + ( ) (10)
20 + 70

𝑀𝑜 = 52.7222 ≅ 52.72
L - R fi xi Fa fixi Ahora para calcular la mediana se calcula
10.5 - 20.5 10 15.5 10 155 N/2 = 270/2 = 135, con este valor de 135 se
busca la frecuencia acumulada que contenga
20.5 - 30.5 20 25.5 30 510
al 135, en este caso 150 es la frecuencia
30.5 - 40.5 50 35.5 80 1775 acumulada que la contiene, por lo cual, ese
40.5 - 50.5 70 45.5 150 3185 es el intervalo donde se encuentra
50.5 - 60.5 90 55.5 240 4995 localizada la mediana, en este caso, el
60.5 - 70.5 20 65.5 260 1310 intervalo está rotulado de color celeste.
70.5 - 80.5 10 75.5 270 755
Entonces:
270 12685
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 )𝑨
𝒇𝒎𝒆

𝟏𝟑𝟓 − 𝟖𝟎
𝑴𝒆 = 𝟒𝟎. 𝟓 + ( ) 𝟏𝟎
𝟕𝟎

𝑴𝒆 = 𝟒𝟖. 𝟑𝟓𝟕𝟏𝟒 ≅ 𝟒𝟖. 𝟑𝟔

L - R fi xi Fa fixi | xi - x | fi | xi - x | Para poder calcular la desviación


10 15.5 10
media es necesario que
10.5 - 20.5 155 31.48148148 314.8148148
calculemos dos columnas más, la
20.5 - 30.5 20 25.5 30 510 21.48148148 429.6296296 primera donde calculamos los
30.5 - 40.5 50 35.5 80 1775 11.48148148 574.0740741 valores absolutos de las
70 45.5 150 desviaciones y la segunda donde
40.5 - 50.5 3185 1.481481481 103.7037037
multiplicamos cada frecuencia
50.5 - 60.5 90 55.5 240 4995 8.518518519 766.6666667 por su correspondiente valor
60.5 - 70.5 20 65.5 260 1310 18.51851852 370.3703704 absoluto de su desviación.
70.5 - 80.5 10 75.5 270 755 28.51851852 285.1851852
Entonces:
270 12685 2844.444444
∑ 𝑓𝑖 |𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
∑ 𝑓𝑖

2844.444444
𝐷𝑀 =
270

𝐷𝑀 = 10.53497 ≅ 10.53
L - R fi xi Fa fixi | xi - x | fi | xi - x | (xi - x)2 fi(xi-x)2
10.5 - 20.5 10 15.5 10 155 31.48148148 314.8148148 991.0836763 9910.836763
20.5 - 30.5 20 25.5 30 510 21.48148148 429.6296296 461.4540466 9229.080933
30.5 - 40.5 50 35.5 80 1775 11.48148148 574.0740741 131.824417 6591.22085
40.5 - 50.5 70 45.5 150 3185 1.481481481 103.7037037 2.19478738 153.6351166
50.5 - 60.5 90 55.5 240 4995 8.518518519 766.6666667 72.56515775 6530.864198
60.5 - 70.5 20 65.5 260 1310 18.51851852 370.3703704 342.9355281 6858.710562
70.5 - 80.5 10 75.5 270 755 28.51851852 285.1851852 813.3058985 8133.058985
270 12685 2844.444444 47407.40741

Para poder calcular la varianza es necesario que calculemos dos columnas más, la primera donde
calculamos los cuadrados de las desviaciones y la segunda donde multiplicamos cada frecuencia
por su correspondiente cuadrado de su desviación.

Entonces:

∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑉𝑎𝑟 =
∑ 𝑓𝑖

47407.40741
𝑉𝑎𝑟 =
270

𝑉𝑎𝑟 = 175.582990 ≅ 175.58

Para poder calcular la desviación estándar o típica, es únicamente necesario sacarle la raíz
cuadrada a la varianza.
∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠=𝜎=√ = √𝑉𝑎𝑟
∑ 𝑓𝑖

𝑠 = √175.582990 = 13.25077 ≅ 13.25

Obsérvese que nuevamente se cumple que

𝐷𝑀 < 𝑠
Para poder calcular el coeficiente de variación necesitamos saber la desviación estándar y
la media aritmética
𝑠
𝐶. 𝑉. = × 100
𝑥̅
13.25
𝐶. 𝑉. = × 100
46.98

𝐶. 𝑉. = 28.20%

Esto significa que los datos se encuentran a un 28.20% dispersos o dicho de otra manera se
encuentran 71.80% concentrados alrededor de la media aritmética. Lo cual nos permite
establecer que las medidas de tendencia central tienen un alto grado (71.80%) de
representatividad del juego de datos.

Ejemplo:

Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos.

L - R fi xi Fa fixi | xi - x | fi | xi - x | (xi - x)2 fi(xi-x)2


10.5 - 20.5 5 15.5 5 77.5 30 150 900 4500
20.5 - 30.5 25 25.5 30 637.5 20 500 400 10000
30.5 - 40.5 35 35.5 65 1243 10 350 100 3500
40.5 - 50.5 70 45.5 135 3185 0 0 0 0
50.5 - 60.5 35 55.5 170 1943 10 350 100 3500
60.5 - 70.5 25 65.5 195 1638 20 500 400 10000
70.5 - 80.5 5 75.5 200 377.5 30 150 900 4500
200 9100 2000 36000

Media. 45.50
Moda 45.50
Mediana 45.50
DM 10.00
Var 180.00
s 13.42
C.V. 29.49%
HOJA DE TRABAJO # 2
MEDIDAS DE TENDENCIA CENTRAL Y
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS
SERIE I: Instrucciones: Para cada uno de los siguientes juegos de datos calcule: Las
medidas de tendencia central y las medidas de dispersión

1) Lim-Apa fi 2) Lim-Apa fi
10 – 20 10 Media. 49.66 20 - 24 10

21 – 31 25 Moda 55.82 25 – 29 100

32 – 42 45 Mediana 51.37 30 – 34 90

43 – 53 75 DM 11.53 35 – 39 40

54 – 64 95 Var 212.37 40 – 44 20

65 – 75 20 s 14.57 45 – 49 8

76 - 86 10 C.V. 29.35% 50 - 54 2

3) Lim-Apa fi 4) Lim-Apa fi
10 – 15 10 Media. 30.50 10 – 14 8

16 – 21 20 Moda 30.50 15 – 19 14

22 – 27 30 Mediana 30.50 20 – 24 20

28 – 33 40 DM 7.50 25 – 29 8

34 – 39 30 Var 90.00 30 – 34 9

40 – 45 20 s 9.49 35 – 39 10

46 - 51 10 C.V. 31.10% 40 – 44 2
5) Lim-Apa fi 6) Lim-Apa fi
15 – 20 8 Media. 39.98 10 – 15 10

21 – 26 16 Moda 45.13 16 – 21 20

27 – 32 24 Mediana 41.91 22 – 27 50

33 – 38 35 DM 6.63 28 – 33 20

39 – 44 80 Var 69.00 34 – 39 10

45 – 50 90 s 8.31 40 – 45 50

51 – 56 4 C.V. 20.78% 46 - 51 10

SERIE II: Instrucciones: Para el siguiente juego de datos: construya la tabla y calcule las
medidas de tendencia central y medidas de dispersión.

7) 10 27 44 25 42 23 40 21 38 19
29 46 14 14 13 25 12 24 59 36
12 39 33 44 55 60 12 13 23 17
31 48 15 15 15 16 20 21 57 34
14 41 12 14 20 22 24 26 22 15
33 50 16 13 14 15 35 45 55 32
16 43 10 10 20 12 15 18 21 13
35 52 17 17 16 13 20 22 53 30
18 45 15 47 18 49 19 51 20 11
37 20 54 22 56 24 58 26 60 28
MEDIDAS DE POSICIÓN O DE DISTRIBUCIÓN.
Partiendo del concepto de la mediana, la cual divide una serie de datos en dos partes
iguales, es decir, 50% a la izquierda de la mediana y el otro 50% a la derecha de la
mediana, se pueden establecer un conjunto de medidas que fraccionan a la serie de datos en
cuantas partes se requiera en un momento determinado, según las necesidades de análisis
estadístico. Por ejemplo, se puede fraccionar cualquier serie de datos en cuatro, cinco, seis,
diez, etc., hasta en cien partes iguales; debido a que el concepto de fraccionamiento se
deriva del concepto de la mediana, los cálculos correspondientes son similares al cálculo de
la mediana.

En una distribución de frecuencias, cierta cantidad de los datos cae en un fractil o por
debajo de éste. Los fractilos tienen nombres especiales, dependiendo del número de partes
iguales en que se dividen los datos. En resumen, una medida de posición, es un número
que representa un punto específico dentro de una serie de valores, por debajo del cual se
localiza un determinado porcentaje de los casos.

Los fractilos más comunes son:

Cuartiles (Q):

Los cuartiles dividen los datos en cuatro


partes iguales. Donde cada una de las
partes representa el 25%
𝑄𝑘 Es el cuartil buscado, donde 𝑘 = 1,2,3

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo


donde se localiza el cuartil buscado.

𝒌𝑵
Es el valor del cuartil que se desea
𝟒
encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( 4 )𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior
𝑓𝑄
al intervalo donde se encuentra localizado el
cuartil buscado.

𝑓𝑄 Es la frecuencia del intervalo donde se


encuentra localizado el cuartil.

A Es la amplitud del intervalo donde se


encuentra localizado el cuartil.
Deciles (D):

Los deciles dividen a todos los datos en diez


partes iguales. Donde cada una de las
partes representa el 10%.
𝐷𝑘 Es el decil buscado, donde 𝑘 = 1,2,3,….,9

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo


donde se localiza el decil buscado.

𝒌𝑵
Es el valor del decil que se desea encontrar.
𝟏𝟎
𝑘𝑁
− 𝐹𝑎𝑖−1
𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10
)𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al
𝑓𝐷 intervalo donde se encuentra localizado el decil
buscado.

𝑓𝐷 Es la frecuencia del intervalo donde se


encuentra localizado el cuartil.

A Es la amplitud del intervalo donde se


encuentra localizado el decil.

Percentiles (P):

Los percentiles dividen el conjunto de datos


en 100 partes iguales. Donde cada una de
las partes representa el 1%.
𝑃𝑘 Es el cuartil buscado, donde 𝑘 = 1,2,3,..,99

𝑳𝑹𝒊−𝟏 Es el límite real inferior del intervalo


donde se localiza el percentil buscado.

𝒌𝑵
𝟏𝟎𝟎
Es el valor del percentil que se desea
encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝑃𝑘 = 𝐿𝑅 𝑖−1 + (100 )𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al
𝑓𝑃
intervalo donde se encuentra localizado el
percentil buscado.

𝑓𝑃 Es la frecuencia del intervalo donde se


encuentra localizado el percentil.

A Es la amplitud del intervalo donde se


encuentra localizado el percentil.
La mediana es el segundo cuartil, 5º decil y 50º percentil, así: Me = Q 2 = D5 = P50, así
también, el decil uno y el percentil 10 son iguales: D1 = P10. Y otros fractilos que coinciden
según el porcentaje que representan.

EJEMPLO: Calcule las medidas de tendencia central y de dispersión para el siguiente juego
de datos; además los siguientes fractilos: Q1, D6, Q3, D9 y P33.

En este caso recuerde que hay que calcular todas las columnas que hasta el momento se
deben de tener para la información que se necesita.

L - R fi xi Fa fixi | xi - x | fi | xi - x | (xi - x)2 fi(xi-x)2


14.5 - 20.5 6 17.5 6 105 22.85 137.088 522.031 3132.19
20.5 - 26.5 15 23.5 21 352.5 16.85 252.72 283.855 4257.83
26.5 - 32.5 22 29.5 43 649 10.85 238.656 117.679 2588.94
32.5 - 38.5 33 35.5 76 1172 4.848 159.984 23.5031 775.602
38.5 - 44.5 80 41.5 156 3320 1.152 92.16 1.3271 106.168
44.5 - 50.5 90 47.5 246 4275 7.152 643.68 51.1511 4603.6
50.5 - 56.5 4 53.5 250 214 13.15 52.608 172.975 691.9
250 10087 1576.9 16156.2

Las medidas de tendencia central y de dispersión son (queda al estudiante la respectiva


comprobación de los resultados):

Media. 40.35
Moda 45.13
Mediana 42.18
DM 6.31
Var 64.62
s 8.04
C.V. 19.92%
Los fractilos buscados son:

L - R fi xi Fa El rango del Q1, es el que se encuentra de color amarillo,


14.5 - 20.5 617.5 6
pues al calcular kN/4 = (1)(250)/4 = 62.5, en este caso la
15
frecuencia acumulada que lo contiene es 76.
20.5 - 26.5 23.5 21
26.5 - 32.5 22 29.5 43 𝑘𝑁
− 𝐹𝑎𝑖−1
32.5 - 38.5 33 35.5 76 𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( 4 )𝐴
𝑓𝑄
38.5 - 44.5 80 41.5 156
Q1 44.5 - 50.5 90 47.5 246 62.5 − 43
𝑄1 = 32.5 + ( )6
50.5 - 56.5 4 53.5 250 33
250
𝑄1 = 36.04545 ≅ 36.05

Esto significa que por debajo de 36.05 se encuentra el


25% de los datos y por encima de ese valor se encuentra
el 75%

L - R fi xi Fa El rango del Q3, es el que se encuentra de color mostaza,


14.5 - 20.5 6 17.5 6
pues al calcular kN/4 = (3)(250)/4 = 187.5, en este caso la
frecuencia acumulada que lo contiene es 246.
20.5 - 26.5 15 23.5 21
26.5 - 32.5 22 29.5 43 𝑘𝑁
− 𝐹𝑎𝑖−1
4
32.5 - 38.5 33 35.5 76 𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( )𝐴
𝑓𝑄
38.5 - 44.5 80 41.5 156
Q3 44.5 - 50.5 90 47.5 246 187.5 − 156
𝑄3 = 44.5 + ( )6
50.5 - 56.5 4 53.5 250 90
250
𝑄3 = 46.60

Esto significa que por debajo de 46.60 se encuentra el


75% de los datos y por encima de ese valor se encuentra
el 25%
L - R fi xi Fa El rango del D6, es el que se encuentra de color verde,
14.5 - 20.5 617.5 6
pues al calcular kN/10 = (6)(250)/10 = 150, en este caso
15
la frecuencia acumulada que lo contiene es 156.
20.5 - 26.5 23.5 21
26.5 - 32.5 22 29.5 43 𝑘𝑁
− 𝐹𝑎𝑖−1
32.5 - 38.5 33 35.5 76 𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10 )𝐴
𝑓𝐷
38.5 - 44.5 80 41.5 156
D6 44.5 - 50.5 90 47.5 246 150 − 76
𝐷6 = 38.5 + ( )6
50.5 - 56.5 4 53.5 250 80
250 𝐷6 = 44.05

Esto significa que por debajo de 44.05 se encuentra el


60% de los datos y por encima de ese valor se encuentra
el 40%

L - R fi xi Fa El rango del D9, es el que se encuentra de color mostaza,


14.5 - 20.5 6 17.5 6
pues al calcular kN/10 = (9)(250)/10 = 225, en este caso
la frecuencia acumulada que lo contiene es 246.
20.5 - 26.5 15 23.5 21
26.5 - 32.5 22 29.5 43 𝑘𝑁
− 𝐹𝑎𝑖−1
32.5 - 38.5 33 35.5 76 𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10 )𝐴
𝑓𝐷
38.5 - 44.5 80 41.5 156
44.5 - 50.5 90 47.5 246 225 − 156
𝐷9 = 44.5 + ( )6
50.5 - 56.5 4 53.5 250 90
250 𝐷9 = 49.10
D9
Esto significa que por debajo de 49.10 se encuentra el
90% de los datos y por encima de ese valor se encuentra
el 10%.

En este caso en particular, es necesario hacer notar que


tanto el intervalo del Q3 y D9 coinciden, por lo tanto los
cálculos se hacen sobre el mismo intervalo, sin embargo
pese a coincidir los intervalos los resultados de los
fractilos no son los mismos. (𝑄3 ≠ 𝐷9 )
L - R fi xi Fa El rango del P33, es el que se encuentra de color verde,
14.5 - 20.5 617.5 6
pues al calcular kN/100 = (33)(250)/100 = 82.5, en este
15
caso la frecuencia acumulada que lo contiene es 156.
20.5 - 26.5 23.5 21
26.5 - 32.5 22 29.5 43 𝑘𝑁
− 𝐹𝑎𝑖−1
32.5 - 38.5 33 35.5 76 𝑃𝑘 = 𝐿𝑅 𝑖−1 + (100 )𝐴
𝑓𝑃
38.5 - 44.5 80 41.5 156
44.5 - 50.5 90 47.5 246 82.5 − 76
𝑃33 = 38.5 + ( )6
50.5 - 56.5 4 53.5 250 80
250 𝑃33 = 38.9875 ≅ 38.99
P33
Esto significa que por debajo de 38.99 se encuentra el
33% de los datos y por encima de ese valor se encuentra
el 67%.

En este caso en particular, es necesario hacer notar que


tanto el intervalo del D6 y P33 coinciden, por lo tanto los
cálculos se hacen sobre el mismo intervalo, sin embargo
pese a coincidir los intervalos los resultados de los
fractilos no son los mismos. (𝐷6 ≠ 𝑃33 )
HOJA DE TRABAJO 3
MEDIDAS DE POSICIÓN
Instrucciones: Para cada uno de los siguientes juegos de datos calcule las medidas de
posición que se le solicitan en cada inciso

1) Lim-Apa fi 2) Lim-Apa fi
10 – 20 10 Q1,Q3 20 - 24 10 Q2,Q3
21 – 31 25 D1,D4,D7 25 – 29 100 D2,D7,D9
32 – 42 45 P10,P25 30 – 34 90 P15,P25
43 – 53 75 P33,P45 35 – 39 40 P38,P55
54 – 64 95 P67,P82 40 – 44 20 P72,P98
65 – 75 20 45 – 49 8
76 - 86 10 50 - 54 2

3) Lim-Apa fi 4) Lim-Apa fi
10 – 15 10 Q1,Q2 10 – 14 8 Q1,Q3
16 – 21 20 D2,D4,D8 15 – 19 14 D1,D3,D5
22 – 27 30 P19,P28 20 – 24 20 P15,P25
28 – 33 40 P47,P65 25 – 29 8 P62,P76
34 – 39 30 P88,P99 30 – 34 9 P80,P82
40 – 45 20 35 – 39 10
46 - 51 10 40 – 44 2

5) Lim-Apa fi 6) Lim-Apa fi
15 – 20 8 Q1,Q2 10 – 15 10 Q1,Q3
21 – 26 16 D5,D6,D9 16 – 21 20 D1,D4,D7
27 – 32 24 P8,P38 22 – 27 50 P11,P22
33 – 38 35 P63,P78 28 – 33 20 P35,P45
39 – 44 80 P80,P90 34 – 39 10 P70,P93
45 – 50 90 40 – 45 50
51 – 56 4 46 - 51 10
MEDIDAS DE SESGO Y CURTOSIS
SESGO:

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno
de los cuales define de forma concisa como están distribuidos los datos respecto al eje de
asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran
por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce
como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores
menores que la media.

Sk < 0
La curva es
asimétricamente
negativa por lo que los
valores se tienden a
reunir más en la parte
derecha de la media.

Estas medidas guardan


la siguiente relación
𝑥̅ < 𝑀𝑒 < 𝑀𝑜

Sk = 0
Se acepta que la
distribución es
Simétrica, es decir,
existe
aproximadamente la
misma cantidad de
valores a los dos lados
de la media. Este valor
es difícil de conseguir
por lo que se tiende a
tomar los valores que
son cercanos ya sean
positivos o negativos
(± 0.05).

Estas medidas guardan


la siguiente relación
𝑥̅ = 𝑀𝑒 = 𝑀𝑜
Sk > 0
La curva es
asimétricamente
positiva por lo que los
valores se tienden a
reunir más en la parte
izquierda de la media.

Estas medidas guardan


la siguiente relación
𝑀𝑜 < 𝑀𝑒 < 𝑥̅

La simetría de un juego de datos se puede calcular con cualquiera de las siguientes


fórmulas, en cada caso el análisis del resultado será el mismo, aunque los valores que cada
uno presentan son diferentes.

FÓRMULAS

COEFICIENTE DE PEARSON(1)
En este caso hay que tener cuidado pues en algunos casos la
Moda puede que no esté bien definida, es decir, que el juego
𝑥̅ − 𝑀𝑜 de datos tenga más de una moda. O sea, que el juego de
𝑆𝑘1 =
𝜎 datos sea bimodal, trimodal, etc. Razón la cual sería
necesario utilizar cualquiera de los otros coeficientes de
simetría.

COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
Este coeficiente es más seguro al calcular, pues la mediana
𝑆𝑘2 = es una medida de tendencia central que está definida para
𝜎 cualquier juego de datos.

COEFICIENTE DE BOWLEY (CUARTILICO)


𝑄3 − 2𝑄2 + 𝑄1 Este coeficiente depende únicamente de las medidas de
𝑆𝑘𝑞 = posición y que no tiene necesidad de calcular la desviación
𝑄3 − 𝑄1
estándar o típica. Lo cual lo hace muy seguro.

COEFICIENTE DE BOWLEY (PERCENTILICO)


𝑃90 − 2𝑃50 + 𝑃10 Este coeficiente depende únicamente de las medidas de
𝑆𝑘p = posición y que no tiene necesidad de calcular la desviación
𝑃90 − 𝑃10
estándar o típica. Lo cual lo hace muy seguro.
CURTOSIS:

Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).

K = 0.263 la distribución es Mesocúrtica:

Al igual que en la asimetría es bastante


difícil encontrar un coeficiente de Curtosis
por lo que se suelen aceptar los valores
cercanos.

K > 0.263 la distribución es Leptocúrtica

K < 0.263 la distribución es Platicúrtica

FÓRMULAS
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
Este coeficiente depende únicamente de las medidas de
K= posición y hay necesidad de calcular otro tipo de medidas.
𝑃90 − 𝑃10
Lo cual lo hace muy seguro.
EJEMPLO 1: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos.

L - R fi xi Fa Las medidas de tendencia central,


10.5 - 20.5 10 15.5 10 dispersión y posición, para calcular el sesgo
y curtosis son las siguientes:
20.5 - 30.5 20 25.5 30
30.5 - 40.5 50 35.5 80
Media 46.98
40.5 - 50.5 70 45.5 150
s 13.25
50.5 - 60.5 90 55.5 240
Moda 52.72
60.5 - 70.5 20 65.5 260
Mediana 48.36
70.5 - 80.5 10 75.5 270
Q1 38.00
270
Q3 56.33
P10 29.00
P90 62.00

COEFICIENTE DE PEARSON(1)
𝑥̅ − 𝑀𝑜
𝑆𝑘1 =
𝜎
46.98 − 52.72 −5.74
𝑆𝑘1 = =
13.25 13.25

𝑆𝑘1 = − 0.4332 ≅ −0.43

Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
𝑆𝑘2 =
𝜎

3(46.98 − 48.36)
𝑆𝑘2 =
13.25

3(−1.38) −4.14
𝑆𝑘2 = =
13.25 13.25

𝑆𝑘2 = − 0.3125 ≅ −0.31

Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.


COEFICIENTE DE BOWLEY (CUARTILICO)
𝑄3 − 2𝑄2 + 𝑄1
𝑆𝑘𝑞 =
𝑄3 − 𝑄1

56.33 − 2(48.36) + 38.00


𝑆𝑘𝑞 =
56.33 − 38.00
−2.39
𝑆𝑘𝑞 = ≅ −0.13
18.33

Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

COEFICIENTE DE BOWLEY (PERCENTILICO)


𝑃90 − 2𝑃50 + 𝑃10
𝑆𝑘p =
𝑃90 − 𝑃10

62.00 − 2(48.36) + 29.00


𝑆𝑘p =
62.00 − 29.00
−5.72
𝑆𝑘p = ≅ −0.17
33.00

Esto indica que la gráfica es asimétrica negativa, puesto que Sk < 0.

COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
K=
𝑃90 − 𝑃10

0.5(18.33)
K=
33.00

K = 0.277727 ≅ 0.277

Esto indica que la gráfica es leptocúrtica, puesto que K > 0.263

Como se puede comprobar todos los coeficientes de simetría son negativos, aunque no son
iguales, lo cual nos dice que hay un sesgo y por lo cual la gráfica es asimétrica negativa.
Además el coeficiente de curtosis es mayor a 0.263, lo que nos indica que la gráfica es
leptocúrtica.
EJEMPLO 2: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos.

L - R fi xi Fa Las medidas de tendencia central,


10.5 - 20.5 6 15.5 6 dispersión y posición, para calcular el sesgo
y curtosis son las siguientes:
20.5 - 30.5 15 25.5 21
30.5 - 40.5 22 35.5 43
Media 45.50
40.5 - 50.5 33 45.5 76
s 15.12
50.5 - 60.5 22 55.5 98
Moda 45.50
60.5 - 70.5 15 65.5 113
Mediana 45.50
70.5 - 80.5 6 75.5 119
Q1 34.48
119
Q3 56.52
P10 24.43
P90 66.57

COEFICIENTE DE PEARSON(1)
𝑥̅ − 𝑀𝑜
𝑆𝑘1 =
𝜎
45.50 − 45.50 0
𝑆𝑘1 = =
15.12 15.12

𝑆𝑘1 = 0

Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
𝑆𝑘2 =
𝜎

3(45.50 − 45.50)
𝑆𝑘2 =
15.12

3(0) 0
𝑆𝑘2 = =
15.12 15.12

𝑆𝑘2 = 0

Esto indica que la gráfica es simétrica, puesto que Sk = 0.


COEFICIENTE DE BOWLEY (CUARTILICO)
𝑄3 − 2𝑄2 + 𝑄1
𝑆𝑘𝑞 =
𝑄3 − 𝑄1

56.52 − 2(45.50) + 34.48


𝑆𝑘𝑞 =
56.52 − 34.48
0
𝑆𝑘𝑞 = =0
22.04

Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE BOWLEY (PERCENTILICO)


𝑃90 − 2𝑃50 + 𝑃10
𝑆𝑘p =
𝑃90 − 𝑃10

66.57 − 2(45.50) + 24.43


𝑆𝑘p =
66.57 − 24.43
0
𝑆𝑘p = =0
42.14

Esto indica que la gráfica es simétrica, puesto que Sk = 0.

COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
K=
𝑃90 − 𝑃10

0.5(22.04)
K=
42.14

K = 0.261509 ≅ 0.262

Esto indica que la gráfica es mesocúrtica, puesto que K ≅ 0.263

En este caso los 4 coeficientes de simetría si son iguales, todos son cero, la gráfica es
simétrica, y en el caso del coeficiente de curtosis el valor es muy cercano a 0.263, es una
milésima la aproximación, por lo cual se toma el valor como si fuese mesocúrtica.
HOJA DE TRABAJO # 4
MEDIDAS DE SESGO Y FORMA
Con los siguientes juegos de datos calcule: Las medidas de sesgo y forma (asimetría y
curtosis).

1) Lim-Apa fi 2) Lim-Apa fi 3) Lim-Apa fi


10 – 20 10 20 - 24 8 10 – 15 4
21 – 31 15 25 – 29 20 16 – 21 15
32 – 42 30 30 – 34 25 22 – 27 45
43 – 53 45 35 – 39 50 28 – 33 80
54 – 64 30 40 – 44 70 34 – 39 100
65 – 75 15 45 – 49 10 40 – 45 10
76 - 86 10 50 - 54 4 46 - 51 4

4) Lim-Apa fi 5) Lim-Apa fi 6) Lim-Apa fi


10 – 14 10 15 – 20 8 10 – 15 14
15 – 19 50 21 – 26 20 16 – 21 50
20 – 24 10 27 – 32 80 22 – 27 33
25 – 29 30 33 – 38 60 28 – 33 22
30 – 34 10 39 – 44 50 34 – 39 11
35 – 39 50 45 – 50 20 40 – 45 8
40 – 44 10 51 – 56 12 46 - 51 3

También podría gustarte