Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas Descriptivas:
Tendencia Central, de Posición,
Dispersión, Simetría y Curtosis
Uno de los aportes más importantes de la estadística
al análisis de datos, son las medidas descriptivas.
Estas no son más que indicadores que permiten
decidir sobre las características más importantes de
la distribución subyacente en los datos. En cuanto a
tendencia central, variabilidad, simetría y forma.
2
Objetivos Específicos
1. Expresar los conceptos, características y propiedades de las
medidas de posición central y no central (media aritmética, media
armónica, media geométrica, mediana, moda, deciles, cuartiles y
percentiles)
2. Calcular las medidas descriptivas en series: simples (no agrupados)
3. Determinar las medidas descriptivas en datos agrupados en
intervalos de clases
4. Establecer relaciones entre la media aritmética, mediana y moda
5. Interpretar los resultados de las medidas descriptivas en problemas
aplicados a su área de especialización
6. Obtener valores aproximados de las medidas descriptivas a partir de
gráficas adecuadas
7. Construir diagramas de caja (Boxplot)
8. Utilizar los conocimientos adquiridos para comparar dos o más
muestras de una misma variable
9. Utilizar herramientas computacionales para la determinación de las
medidas descriptivas
3
Medidas descriptivas
Son indicadores numéricos, cuyo propósito es aproximar ciertos parámetros de la
distribución subyacente en los datos. Las características más importantes que se
pretenden describir son: la tendencia central, el grado de variabilidad y la
simetría y la forma de la distribución.
Cuando hablamos de distribución (concepto que será expuesto mucho más
adelante), nos referimos a una función teórica de donde se supone que provienen
los datos. Una aproximación se puede hacer por medio de un histograma de
frecuencias relativas o por medio de un polígono de frecuencias relativas.
Distribución
aproximada
4
Las medidas de tendencia central
Se refieren al punto medio de una distribución.
Entre las medidas de tendencia central más importantes está la media
aritmética, la mediana y la moda.
0 1 2 3 4 5 6 7 8 9 10 5
Las medidas de dispersión
1. Se refieren a la extensión o amplitud de los datos de una distribución
2. Representan el grado de variabilidad de los datos.
3. Entre los indicadores de dispersión más importantes está la
desviación estándar, el rango intercuartílico, la varianza y el
coeficiente de variación.
Observe que la distribución A en el siguiente gráfico tiene una menor
dispersión que la B, note el rango de variación de la variable en el eje
horizontal.
6
Forma de la distribución
La forma de las distribuciones que representan a un
conjunto de datos, pueden ser analizadas también de
acuerdo a su:
a) Simetría b) Curtosis
Las curvas simétricas, tienen una forma tal que con
una línea vertical que pase por el punto más alto de la
curva, dividirá el área de esta en dos partes iguales.
Espejo
7
Tipos de Asimetría
8
Curtosis
la curtosis es una medida de la forma o apuntamiento de las distribuciones.
Así las medidas de curtosis (también llamadas de apuntamiento o de
concentración central) tratan de estudiar la mayor o menor concentración de
frecuencias alrededor de la media y en la zona central de la distribución.
Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden
ser: leptocúrtica (concentración al centro) mesocúrtica distribuidos
simétricamente) o platicúrtica (aplanada).
Nota: el concepto de curtosis es sólo aplicable a distribuciones en forma
(aproximada ) de campana.
9
Resumen de Medidas Descriptivas
Central: Se utilizan para ubicar la Media Aritmética ( x ), Mediana
posición del centro de la (Me) , Moda (Mo)
distribución.
Datos Agrupados
Nacer (kg) familias en BsF,
3.5 3.0 3.5 3.1 900 - 1000 3
3.6 3.9 3.6 3.4
1000 - 1100 12
2.8 2.7 3.3 3.2
Se tiene el Peso de 1100 – 1200 5
cada uno de los 1200 - 1300 2
Niños
TOTAL 22 11
Datos sin Agrupar
Medidas de Tendencia Central
Las medidas de posición central tienen como función, ubicar el
centro de la distribución. En muchos casos las distribuciones se
concentran con mayor proporción alrededor del centro, en ese
caso se puede utilizar algunos de los indicadores abajo
descritos para destacar esta característica.
Media Aritmética ( x)
Medidas de Posición Mediana (Me)
Central
Moda (Mo)
12
__
Media Aritmética ( x )
La media aritmética de una variable estadística es la suma de
todos sus posibles valores, dividida entre el número total de
valores.
Si la distribución de los datos es aproximadamente simétrica y si
no hay datos atípicos, entonces la media aritmética será el mejor
estimador del centro de la distribución.
n
∑X
i =1
i
x1 + x 2 + x3 + L. . . ++ x n
x= =
n n
donde
xi − es el elemento i de la serie
13
n - es el número de elementos de la serie
Cálculo de la media aritmética
INGRESOS MENSUAL EN BsF Usar la calculadora
1000 1110 1010 1070 1030 1000 en modo
estadístico (SD).
1150 990 1090 1080 1150 1200
1050 1030 1120 1050 1030 1150 Meter datos con M+
∑X i
1000 + 1150 + 1050 + 1230 + 1100 + 1110 + 990 + 1030 + 1170 L + 1210
X = i =1
=
30 30
32800
X = = 1093 .33 14
30
Propiedades de la media aritmética
La suma de los desvíos con respecto a la media aritmética es
igual a 0
La suma de los cuadrados de los desvíos con respecto a su
media es un valor mínimo
Hace posible la combinación de los promedios de varias series
Si se multiplica la serie por una constante k, la nueva media
será igual a la de la serie anterior por k.
15
Mediana (Me)
La mediana Me de un conjunto de datos x1,x2,>,xn, es el valor
que se encuentra en el punto medio o centro, cuando se ordenan
los valores de menor a mayor.
La mediana, es que es el valor que divide un histograma en dos
partes iguales.
Paso 1.- Ordenar de menor a mayor los valores xi del
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Identificar n = 11, impar, por lo que la mediana es el dato del centro
x n +1 = x6 m e = x6 = 4 0
2
17
Otro ejemplo: La mediana
26,26,28,29,29.530,31,
26,26,28,29, 32,60
,30,31,32,60
18
Propiedades de la Mediana
No es susceptible a cálculos algebraicos
En caso de series abiertas (datos agrupados en tablas de intervalos
y que no se puedan calcular las marcas de clase) se puede calcular
y la media no.
La suma de los desvíos con respecto a la mediana es un valor
mínimo.
19
Moda (Mo)
Está representado como el valor xi que se repite un número mayor
de veces en el conjunto de datos x1,x2,>,xn.
Ejemplo: en el conjunto de datos dados para medir el ingreso
promedio anual de las familias que habitan en un determinado sector,
se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060,
1070, 1080, 1090, 1100, 1100, 1105, 1110, 1110, 1120, 1130, 1150,
1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }.
En este conjunto hay dos valores que aparecen más veces :
1030 ( 3 veces) y 1150 ( 3 veces)
por tanto el modo son dos: Mo = 1030 y 1150,
y en este caso se dice que el conjunto de datos es bimodal.
20
Relaciones entre las medidas
Si las medidas de tendencia central se presentan en
el siguiente orden de magnitud:
A nivel de
interpretación: si la
distribución es sesgada
hacia la derecha,
significa que la mayoría
de las observaciones se
encuentran por debajo
de la Media y alrededor 22
de la moda.
Relaciones entre las medidas de centro
Relación entre la
Media, Mediana y Moda.
2.- Curva sesgada a la
izquierda o con sesgo
negativo:
de la Media.
Relaciones entre las medidas de centro
Media
Mediana
24
Moda
Relaciones entre las medidas de centro
En distribuciones aproximadamente simétricas, existe
una relación entre la media, la mediana y la moda
26
Consideraciones sobre las medidas de
tendencia central
La media es sensible a observaciones atípicas y extremas.
La mediana solo es sensible a cambios en su entorno que la
cruzan. Por ello, se dice que la mediana es un estimador robusto
de la tendencia central.
La media y la mediana de una distribución aproximadamente
simétrica se encuentran muy cerca. Si la distribución es
exactamente simétrica, la media y la mediana son iguales.
Si la distribución es asimétrica, la media queda desplazada hacia
la cola más larga del histograma de la distribución.
La media aritmética puede ser mal interpretada si el conjunto de
datos no es homogéneo.
27
¿POR QUÉ SON IMPORTANTES LAS MEDIDAS
DE TENDENCIA CENTRAL?
Porque la mayor parte de los conjuntos de datos
muestran una tendencia a agruparse alrededor de
un dato central.
Las medidas de tendencia central nos ayudan a
ubicarla dentro de la escala de medición.
28
Medidas de posición No Central
El valor para el cual el k% de los datos son
menores él, se denomina percentil k y se
denota por Pk.
Los percentiles son las medidas de posición “no
central” que se utilizan con mayor frecuencia y
se emplean sobre todo para resumir o describir
las propiedades de conjuntos grandes de datos
numéricos.
29
Relación de los percentiles con la OJIVA
Fr
30 100 %
25 83 %
75%
20 67 %
15 Ojiva 50 %
El 75% tienen
10 33 % ingreso de a
lo sumo 1.145
5 17 % BsF
Q1 Q2 Q3
31
Percentiles y Deciles
Los percentiles son otro conjunto de medidas de tendencia no
central de una distribución.
Dividen los datos ordenados en 100 partes iguales.
El percentil 25 es el primer cuartil ... P25=Q1
Los Deciles son otro caso particular de los percentiles y
corresponden a los que dividen a los datos ordenados en 10
partes iguales
Denotaremos Pk al k-ésimo percentil y Di al iésimo decil
Ejemplos:
P10 = D1, P75 = Q3, D5=P50=Q2=Me
32
Procedimiento para calcular el percentil k, (Pk):
34
Para calcular Q1
1ero ordenamos la muestra en orden creciente:
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
0,6 0,7 0,8 0,8 0,9 0,9 1,0 1,0 1,2 1,2
(11) (12) (13) (14) (15) (16) (17) (18) (19) (20)
1,5 1,5 1,5 1,7 1,7 1,8 1,9 2,0 2,3 2,3
Entre paréntesis ponemos la posición que ocupa el valor dentro de la muestra ordenada.
a) Para calcular el primer cuartil, Q1:
Notamos que Q1 = P25, es decir que en la fórmula de los Percentiles K=25 para Q1
25.(20 + 1)
pos = = 5, 25 ⇒ J =5 y C = 0, 25
100
Q1 = P25 = x(5) + 0, 25. ( x(6) − x(5) ) =
= 0,9 + 0, 25. ( 0,9 − 0,9 ) = 0, 9
Es decir, que el 25% de las familias gastan menos de Bs. 900.000
35
Para Calcular Q2 y Q3
Para calcular el primer cuartil, Q2:
Notamos que Q2 = P50, es decir que en la fórmula de los Percentiles K=50 para Q2
50.(20 + 1)
pos = = 10,5 ⇒ J = 10 y C = 0,5
100
Q2 = P50 = x(10) + 0,5. ( x(11) − x(10) ) =
= 1, 2 + 0, 5. (1,5 − 1, 2 ) = 1, 2 + 0,15 = 1, 35
Es decir, que el 50% de las familias gastan menos de Bs. 1.350.0
Para calcular el primer cuartil, Q3:
Notamos que Q3 = P75, es decir que en la fórmula de los Percentiles K=75 para Q3
75.(20 + 1)
pos = = 15, 75 ⇒ J = 15 y C = 0, 75
100
Q3 = P75 = x(15) + 0, 75. ( x(16) − x(15) ) = Es decir, que el 75% de las
familias gastan menos de
= 1, 7 + 0, 75. (1,8 − 1, 7 ) = 1, 7 + 0, 075 = 1, 775 BsF. 1.775 36
c) Se puede decir que el 70% de las familias gastan más
de Bs. _______ al mes.
Para completar esa oración tenemos que calcular el percentil 30 (ya que el
percentil 30 es el valor para el cual hay un 70% de datos mayores que él)
Observamos en la figura que es precisamente
el P30 el que deja el 70% de los valores a su
derecha, es decir, mayores que el P30.
30.(20 + 1)
pos = = 6,3 ⇒ J = 6 y C = 0,3
100
38
¿Cómo dibujar el diagrama de caja?
1.- Ordenar los datos de menor a mayor.
2.- Calcular Min, Max, Q1, Me, Q3.
3.- Denotar por RIC el “rango intercuartilico”: RIC= Q3 – Q1
4.- Calcular los límites para los datos atípicos:
LI1=Q1-1,5*RIC
LS1=Q3+1,5*RIC
5.- Calcular los límites para los datos extremos:
LI2=Q1-3*RIC
LS2=Q3+3*RIC
6.- Los datos atípicos serán aquellos que son menores que
LI1 pero no menores que LI2, de igual forma son también
atípicos los mayores que LS1 pero no mayores que LS2. A
los datos atípicos se les representará en la gráfica como
39
unos círculos “o”.
Continuación…
7.- Los datos extremos serán aquellos que son menores que LI2, de
igual forma son también extremos los mayores que LS2. A los datos
extremos se les representará en la gráfica como unos asteriscos “*”.
8.- Dibujar un eje con una escala adecuada en donde “entren” los
valores mínimo y máximo de la muestra.
9.- Dibujar sobre el eje una caja cuyos bordes están determinados
por Q1 y Q3. (el ancho de la caja puede ser cualquiera pero
mantenga la proporcionalidad de un rectángulo)
10.- Dibujar dentro de la caja una línea que se corresponda con el
valor de la mediana.
11.- Los “bigotes” se dibujan hasta los valores de la muestra que no
sean mayores que LS1 ni menores que LI1. Marque adicionalmente
los valores atípicos y los extremos.
40
Datos Extremos y Datos Atípicos(outlier)
41
42
Ejemplo: Tiempo que demora un cliente
del banco en realizar un deposito
Los siguientes valores corresponden a los tiempos en minutos que se
demoró un cliente (tiempo tomado en varios días al azar)
12.7 14.6 15.4 16.4 10.6 15.0 18.4
16.5 25.6 16.7 15.0 16.2 20.4 17.5
Resp: Primero debemos calcular los cuartiles y los límites para los datos
atípicos y extremos; por lo tanto se debe comenzar por ordenar los datos
de menor a mayor.
43
Ordenamos los Datos
Posición Datos Para Calcular Q1:
1 10.6 Q1 es el percentil 25, por lo que la posición viene dada por:
2 12.7 Pos = (25*15)/100 = 3,75
3 14.6 Q1= X(3) + 0,75 * (X(4) – X(3))
4 15.0 Q1= 14,6 + 0,75* (15,0 – 14,6) = 14,6 + 0,3 = 14,9
5 15.0 El 25% de los días el Sr. se demora menos de 14,9 min
6 15.4
7 16.2 Para Calcular Q2 = Mediana:
8 16.4 Q2 es el percentil 50, por lo que la posición viene dada por:
9 16.5 Pos = (50*15)/100 = 7,5
10 16.7 Q2= X(7) + 0,5 * (X(8) – X(7))
11 17.5 Q2= 16,2 + 0,5* (16,4 – 16,2) = 16,2 + 0,1 = 16,3
12 18.4 El 50% de los días el Sr. se demora menos de 16,3 min
13 20.4
14 25.6 Para Calcular Q3 = P75
Pos = (75*15)/100 = 11,25
Q3= 17,5 + 0,25* (18,4 – 17,5) = 17,5 + 0,225 = 17,725
El 75% de los días el Sr. se demora menos de 17,7 min
44
Q1= 14, 9 Q2= 16,3 Q3= 17,7
Rango Intercuartil: RIC = Q3-Q1 = 17,7 – 14,9 = 2,8
Posición Datos
LI1=Q1-1,5*RIC=14,9 - 1,5*2,8 = 10,7 1 10.6
LS1=Q3+1,5*RIC=17,7+1,5*2,8 = 21,9 2 12.7
3 14.6
LI2=Q1-3*RIC=14,9 - 3*2,8 = 6,5
4 15.0
LS2=Q3+3*RIC= 17,7 + 3*2,8= 26,1 5 15.0
6 15.4
7 16.2
8 16.4
9 16.5
10 16.7
11 17.5
12 18.4
13 20.4
14 25.6
45
Medidas de dispersión
46
Clasificación
•Rango (R)
•Desviación Media (DM)
Absolutas •Desviación Cuartílica (RIC)
•Semi Cuartílica
Mismas medidas
•Varianza (S2)
de los datos.
•Desviación Estándar (S)
Medidas de
Dispersión
47
Medidas de dispersión: Amplitud
Rango o Amplitud
Una manera de medir la dispersión es calcular el
recorrido de la distribución empírica, es decir, la
diferencia entre las observaciones máxima y mínima.
Su mayor ventaja es que se puede calcular fácilmente,
sin embargo, no brinda información sobre la dispersión
existente entre ambos valores extremos.
Serie de datos: 10 15 15 18 20 25 35
Rango = 35 – 10 = 25
Desventajas: Es susceptible a la presencia de datos
atípicos
No es susceptible a operaciones algebraicas
48
Medidas de dispersión
El rango depende sólo de las observaciones máxima
y mínima, que podrían ser observaciones atípicas.
Podríamos mejorar nuestra descripción de la
dispersión fijándonos, por ejemplo, también en la
dispersión del 50% de los valores centrales de
nuestros datos.
Un conjunto de estadísticos de utilidad son los
cuartiles de una distribución.
Rango intercuartil : RIC = Q3 – Q1
Contiene el 50% de los datos centrales de la
distribución.
Desviación Semi-Cuartil: DSQ= (Q3-Q1)/2 49
La varianza
La varianza s2 de un conjunto de observaciones
es el promedio de los cuadrados de la
desviaciones de las observaciones respecto a su
media. Formalmente:
(x1 − x) + (x2 − x) + ... + (xn − x)
2 2 2
s =
2
n -1
De forma compacta:
s =
2 ∑ (xi − x)2
n -1 50
La varianza 9 –10 = -1
11 –10 = +1
Considere dos poblaciones: 8 –10 = -2
Población A: 8, 9, 10, 11, 12 12 – 10 = +2
Población B: 4, 7, 10, 13, 16 Suma = 0
Comencemos calculando la suma de las desviaciones
En ambos casos, la suma
La media de ambas poblaciones es 10...
de las desviaciones es
∑
1
s= (xi − x)2 = s2
n -1
Del ejemplo utilizado para el cálculo de la varianza:
Población A: 8, 9, 10, 11, 12
Población B: 4, 7, 10, 13, 16
Bono B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desviación standard: 9.97
54
Propiedades de la desviación standard
Regla empírica
Para una distribución de mediciones que es
aproximadamente normal (forma de campana) el
intervalo:
56
57
Estimación de la Desviación Estándar si no conocemos los datos.
Rango = 4 Saprox
Donde
Rango = Xmax - Xmin
Saprox - es la desviación estándar
Por tanto
Saprox = Rango/4.
58
Coeficiente de variación
60 60
Otros coeficientes de Asimetría:
Coeficiente de asimetría de Bowley-Yule: Está basado en la posición de los
cuartiles y la mediana.
X − Mo 3( X − Me)
AP = ≈
S S
Si Ap = 0 la distribución es simétrica, si Ap > 0 la distribuci6n es sesgada hacia la derecha
y si Ap < 0 la distribución es sesgada hacia la izquierda.
61
Curtosis
La Curtosis es una medida de la concentración de la
distribución en torno a su media.
n(n + 1)
n
∑( ) 4
xi − x
3(n − 1) 2
K= i =1
−
( n − 1)(n − 2)(n − 3) s 4
(n − 2)(n − 3)
Si K>0, la distribución tiene una concentración
superior a la de una curva normal.
LEPTOCURTICA
Si K<0, la distribución tiene una concentración
inferior a la de una curva normal. PLATICURTICA
Si K=0, la distribución tiene una concentración igual a la de
una curva normal. MESOCURTICA
62
Ejemplo: Los siguientes valores corresponden a las ventas semanales en
millones de Bolívares de una pequeña empresa. Se seleccionaron al azar 20
semanas en los datos históricos del año 2006 y el resultado fue el siguiente:
6 6 8 9 10 10 10 10 10 10
11 12 12 12 12 12 14 15 15 16
•Determine la media, la mediana y la moda.
•Determine la desviación estándar
•Calcule los cuartiles
•Calcular el coeficiente de asimetría de Fisher
• Calcular el coeficiente de asimetría de Pearson
•Calcular el coeficiente de asimetría de Bowley
• Calcular el coeficiente de curtosis K
63
Comenzamos por organizar los datos en un arreglo y calcular algunas
cantidades que necesitaremos luego para encontrar los coeficientes
de forma pedidos.
N° xi xi − x ( xi − x )
2
( xi − x )
3
( xi − x )
4
1 6 -5 25 -125 625
2 6 -5 25 -125 625 n
3 8 -3 9 -27 81 ∑x i
220
4
5
9 -2 4 -8 16 x= i =1
= = 11
10 -1 1 -1 1 n 20
6 10 -1 1 -1 1
7 10 -1 1 -1 1 n
∑ ( xi − x )
2
8 10 -1 1 -1 1
140
9 10 -1 1 -1 1 s2 = i =1
= = 7,3684
10 10 -1 1 -1 1 n −1 19
11 11 0 0 0 0
12 12 1 1 1 1
13 12 1 1 1 1 s = 7,3684 = 2, 7145
14 12 1 1 1 1
15 12 1 1 1 1
16 12 1 1 1 1
17 14 3 9 27 81
18 15 4 16 64 256
19 15 4 16 64 256
20 64
16 5 25 125 625
Suma 220 0 140 -6 2576
n _ 3
∑ i x − x
n 20 −6
AF = ⋅ i =1 = ⋅ 3
= −0, 02
( n − 1)( n − 2 ) s 3
(19 )(18 ) 2, 7145
25.(20 + 1)
pos = = 5, 25 ⇒ J =5 y C = 0, 25
100
Q1 = P25 = x(5) + 0,25.( x(6) − x(5) ) =
=10 + 0,25.(10 −10) =10 65
Cálculo del Q3:
K=75, pos = 75*(21)/100=15,75
valor que está un poco alejado del cero, por lo tanto esta medida indica que la distribución es
sesgada levemente hacia la derecha.
66
Cálculo del coeficiente de curtosis:
n
_ 4
n ( n + 1) ∑
i =1
x
i − x
3(n − 1)2 20 ( 21) 2576 3(19)2
K = ⋅ − = ⋅ 4
− =
( n − 1)( n − 2)( n − 3) s 4
( n − 2)( n − 3) (19)(18)(17) 2, 7145 (18)(17)
= {3, 4274} − 3,5392 = −0,11
67
68
TAREA: Los siguientes valores corresponden a pesos de niños al nacer (kg), cuyas madres
son: No fumadoras (primera columna), Ex Fumadoras y Fumadoras (última columna),
respectivamente.
No F ExF Fumadoras
3,20 2,00 2,62
2,95 2,35 2,11 1. Determine la media, la mediana y la moda para los
3,65 2,25 1,89
tres conjuntos de niños.
3,35 3,00 0,95
3,42 2,54 1,70 2. Calcule la desviación estándar para cada conjunto
4,00 1,95 2,12 de datos
3,10 1,75 0,86 3. Determine los coeficientes de asimetría y curtosis
3,50 1,58 2,14 (en el caso de que aplique)
3,20 2,94 1,80 4. Construya en un mismo eje, un diagrama de caja
3,64 2,29 1,85 para los tres grupos de niños. Realice las
4,00 2,46 0,98
comparaciones pertinentes
3,71 2,00 1,39
3,72 2,62 1,65 5. Cuál conjunto de pesos presenta mayor dispersión?
3,23 2,62 2,50 Qué podría significar en este caso?
3,60 2,08 1,80 6. Qué conclusiones puede sacar?
2,30 2,73 2,00
3,00 3,00
3,64
3,75
3,85
3,42
3,57
3,65 69
3,30
3,40
Resultados aproximados
Variable Media DesvStd CoefVar Min Q1 Median Q3 Max
No Fumadoras 3,446 0,3705 10,75 2,30 3,215 3,50 3,68 4,0
Ex Fumadoras 2,362 0,431 18,25 1,58 2,000 2,350 2,675 3,0
Fumadoras 1,773 0,516 29,11 0,86 1,455 1,825 2,118 2,62
70
71
72
CALCULO DE LA MEDIA ARITMETICA. DATOS
AGRUPADOS EN INTERVALOS DE CLASES
k k
∑m f i i ∑m fm1 f1 + m2 f 2 + L mk f k
i i
X = i =1
= =
i =1
n n n
donde: k es el número de intervalos
73
Ejemplo
DISTRIBUCIÓN DEL INGRESO MENSUAL DE 30 FAMILIAS
ESCOGIDAS AL AZAR EN EL ESTADO SUCRE, EN
NOVIEMBRE DE 2004
k
(Datos x miles de bolívares)
∑m f i i
INTERVALO MARCA FRECUENCIA mi.fi X= i =1
=
DE CLASE DE CLASE ABSOLUTA n
mi fi
32650
(930-980] 955 1 955
=
(980-1030] 1005 7 7035 30
(1030-1080] 1055 5 5275
= 1088.333
(1080, 1130] 1105 8 8840
(1130-1180] 1155 6 6930 El ingreso promedio
(1180-1230] 1205 3 3615 mensual de las
TOTALES 30 32650 familias es de
1.088,333Bsf 74
CALCULO DE LA MEDIANA. DATOS AGRUPADOS EN
INTERVALOS DE CLASES
INTERVALO fi Fai 31
DE CLASE
mi Fa j ≥ = 1 5, 5
935 - 985 960 1 1
2
985 - 1035 1010 7 8
1035 - 1085 1060 5 13 n +1
− FAanterior
1085 - 1135 1110 8 21 Me = LI + 2 .a
f
1135 - 1185 1160 6 27
1185 - 1235 1210 3 30
TOTAL 30
15, 5 − 13
Me = 1085 + (50) = 1085 + 15.625 = 1100.625
8
El 50% de las familias tienen ingreso por debajo de 1.100,62 BsF 76
CALCULO DEL MODO. DATOS AGRUPADOS
EN INTERVALOS DE CLASES
77
Ejemplo Modo en series de clases
INTERVALO
mi fi ∇1
DE CLASE Moda = LImo + amo
935 - 985 960 1 ∇1 +∇2
985 - 1035 1010 7
1035 - 1085 1060 5
Clase 3
1085 - 1135 1110 8 modal Moda = 1085 + 50
1135 - 1185 1160 6 2 + 3
1185 - 1235 1210 3 = 1085 + 30 = 1115
TOTAL 30
78
Para Datos agrupados en Clases
k.( n + 1)
− FAant
Pk = LI + 100 .a
f
Clase donde está Pk es la 1era clase cuya Fa > (k.(n+1))/100
∑ f .(m − x )
i i
2
S =
2 i =1
n −1
donde:
x - es la media muestral
mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase
i, i = 1, 2, 3,...,k
c - es el número de intervalos de clase
n - el número total de elementos de la muestra 81
s2 - La varianza de la muestra.
Desviación Estándar para Datos Agrupados.
∑ f .(m − x )
i i
2
S= i =1
= S 2
n −1
donde:
x - es la media muestral
mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i,
i = 1, 2, 3,...,k
c - es el número de intervalos de clase
n - el número total de elementos de la muestra
s - La desviación estándar de la muestra. 82
Ejemplo
83
Asignaciones
Leer el material adicional que está en el
correo electrónico
Resolver al menos 4 de los problemas del
problemario 2 del curso y entregarlos por
escrito (individual)
84
Auto-evaluación
Verdadero/Falso. Justifique Falso
El valor de cada observación del conjunto de los datos se toma en
cuenta cuando calculamos su mediana
Cuando la distribución es sesgada es mejor utilizar la mediana en
vez de la media
Con un conjunto de datos no agrupados la moda es el valor de
tendencia central más utilizado
Las medidas de tendencia central se pueden interpretar como un
indicativo de la cuán dispersas es la distribución
Para un arreglo de 50 datos la mediana corresponde al dato que
está en la posición 25
Podemos calcular la media de un conjunto de datos si se nos dá el
histograma
Podemos calcular la moda si se nos da el histograma
El primer cuartil puede ser igual a la mediana en algunos casos
85