Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas de Tendencia Central y de Variabilidad PDF
Medidas de Tendencia Central y de Variabilidad PDF
Contenidos
Tendencia central : La tendencia central se refiere al punto medio de una distribucin. Las medidas
de tendencia central se denominan medidas de posicin.
Moda:
es el valor que ms se repite en un conjunto de datos.
Ejemplo 1: Los siguientes datos representan la cantidad de pedidos diarios
recibidos en un perodo de 20 das, ordenados en orden ascendente
0
6
Mo = 15
0
6
1
7
1
7
2
8
2
12
4
15
4
15
5
15
5
19
0
6
1
7
1
8
1
8
2
9
4
9
4
10
4
12
5
12
d1
Mo = LMo +
d1 + d 2
.h
Mo Moda
LMo Lmite inferior de la clase modal
d1
frecuencia de la clase modal menos la frecuencia de la clase
anterior a ella ( d 1 = f i - f i -1 )
d2
mi
55
65
75
85
95
fi
10
18
14
6
2
f ri
0,20
0,36
0,28
0,12
0,04
f ri %
20
36
28
12
4
Fi
10
28
42
48
50
Fri
Fri %
0,20
0,56
0,84
0,96
1
20
56
84
96
100
LMo = 60
f i = 18
f i -1 = 10
d 1 = f i - f i -1 =18-10 =8
f i +1 = 14
h = 10
d 2 = f i - f i +1 = 18-14=4
8
Mo = 60 +
.10 = 66,66
8+4
v La edad que ms se repite es 66,66 aos
Mediana:
es el valor que divide al conjunto ordenado de datos, en dos subconjuntos
con la misma cantidad de elementos. La mitad de los datos son menores que la
mediana y la otra mitad son mayores
x1 , x 2 , x3 , ... , x n
x( 1 ) , x( 2 ) , x( 3 ) , ... , x( n )
donde el subndice encerrado entre parntesis indica el orden o ubicacin en el conjunto ordenado
n +1
2
~=~
x = x n +1
Me = m
x( 1 )
x( 2 )
x( 3 )
x( 4 )
x( 5 )
Me = x n+1 = x 5 +1 = x( 3 ) = 5
b La mitad de las observaciones son menores o iguales que 5 y la otra mitad son mayores o
iguales que 5.
x n + x n
+1
2
~=~
Me = m
x=
x( 1 )
x( 2 )
x( 3 )
x( 4 )
x( 5 )
x (6 )
x 6 + x 6
Me =
+1
2
x( 3 ) + x( 3+1)
2
x( 3 ) + x(4 )
2
5+6
= 5 ,5
2
b La mitad de las observaciones son menores o iguales que 5,5 y la otra mitad son mayores o
iguales que 5,5.
n+1
. El valor de este intervalo para la
2
n+1
- Fi -1
~=~
.h
Me = m
x = Lm + 2
fi
Me Mediana
Lm Lmite inferior de la clase mediana
n
cantidad de datos
Fi-1 frecuencia acumulada absoluta de la clase anterior al
intervalo mediana
fi
frecuencia absoluta de la clase mediana
h
amplitud del intervalo de clase
mi
[50,60)
[60, 70)
[70, 80)
[80, 90)
[90,100)
55
65
75
85
95
fi
f ri
10
18
14
6
2
0,20
0,36
0,28
0,12
0,04
f ri %
20
36
28
12
4
Fi
10
28
42
48
50
Fri
Fri %
0,20
0,56
0,84
0,96
1
20
56
84
96
100
50 + 1
, es
2
decir en la posicin 25,5 . Buscamos en la frecuencia acumulada Fi y vemos que se
La clase mediana es la que contenga el elemento en la posicin
LMe = 60
Fi -1 = 10
f i = 18
h=5
25,5 - 10
Me = 60 +
.10 = 68,61
18
INTERPRETE: ...............................................................................
VENTAJAS Y DESVENTAJAS DE LA MEDIANA
v Se puede utilizar para datos cualitativos ordinales y para datos cuantitativos
Autores: Liliana Marconi / Adriana DAmelio
v Una muestra con n (minscula) observaciones, tiene una media x (que se denomina
estadstica)
v Una poblacin con N (mayscula) elementos tiene una media m (que se denomina
parmetro)
Clculo de la media para datos no agrupados
m=
x=
x
n
Vemos que es la suma de las observaciones divididas el total de datos. Cuando calculamos la
media de la poblacin, dividimos por la cantidad de datos de la poblacin N y cuando se calcula la
media muestral por n
Ejemplo: El Departamento de Accin Social ofrece un estmulo especial a aquellas
agrupaciones en las que la edad promedio de los nios que asisten est
por debajo de 9 aos. Si los siguientes datos corresponden a las edades
de los nios que acuden de manera regular al Centro calificar ste
para el estmulo?
8 5 9 10 9 12 7
x=
12 13 7 8
x = 8 + 5 + 9 + 10 + 9 + 12 + 7 + 12 + 13 + 7 + 8 = 9,09
n
11
Interpretacin: ...........................................................................................................
..................................................................................................................................
Clculo de la media para datos agrupados
Para calcular la media para datos agrupados, primero calculamos el punto medio de cada clase
(marca de clase mi ). Despus multiplicamos cada punto medio por la frecuencia absoluta de cada
intervalo
x=
mi . f i
n
Autores: Liliana Marconi / Adriana DAmelio
mi
[50,60)
[60, 70)
[70, 80)
[80, 90)
[90,100)
Total
x=
mi . f i
fi
55
65
75
85
95
10
18
14
6
2
50
550
1170
1050
510
190
3470
3470
= 69,4
50
Mo < Me < x
v En una distribucin con sesgo negativo, la moda es el punto ms alto, la mediana est
a la izquierda de la moda y la media est a la izquierda de la mediana. Es decir, x <
Me < Mo
v Cuando la poblacin tiene una distribucin sesgada, con frecuencia la mediana
resulta ser la mejor medida de posicin, debido a que est siempre entre la media y la
moda. La mediana no se ve altamente influida por la frecuencia de aparicin de un
solo valor como es el caso de la moda, ni se distorsiona con la presencia de valores
extremos como la media.
v La seleccin de la media, la mediana o la moda, depende de la aplicacin. Por
ejemplo, se habla del salario promedio (media); el precio mediano de una casa nueva
Autores: Liliana Marconi / Adriana DAmelio
puede ser una estadstica ms til para personas que se mudan a un nuevo vecindar io
(si hay una o dos crestas que distors ionan la media). Y mientr as que la famili a
pr omedio conste de 1,7 nios, tiene ms sentido para los diseadores de automviles
pensar en la famili a modal, con dos nios.
SI M T R I CA (Sesgo 0)
MEDIDAS DE DISPERSIN
Las medidas de dispersin son tiles porque:
Nos proporcionan informacin adicional que nos permite juzgar la confiabilidad de nuestra medida
de tendencia central. Si los datos estn muy dispersos la posicin central es menos representativa de
los datos, como un todo, que cuando estos se agrupan ms estrechamente alrededor de la media.
Ya que existen problemas caractersticos de distribuciones muy dispersas, debemos ser capaces de
distinguir que presentan esa dispersin antes de abordar los problemas
Nos permiten comparar varias muestras con promedios parecidos
Los analistas financieros estn preocupados por la dispersin de las ganancias de una empresa que
van desde valores muy grandes a valores negativos. Esto indica un riesgo mayor para los accionistas
y para los acreedores. De manera similar los expertos en control de calidad, analizan los niveles de
calidad de un producto
RANGO:
Es la diferencia entre el mayor y el menor de los valores
Observados
R = x( n ) - x( 1 )
Siendo x( n ) la observacin mayor y x( 1 ) la observacin
Menor
(x - m )
=
s
s2:
x :
m :
N:
x2
N
- m2
Varianza de la poblacin
Elemento u observacin
Media de la poblacin
Nmero total de elementos de la poblacin
s =
(x - m )
N
x2 - m 2
N
Para calcular la varianza de la poblacin, dividimos la suma de las distancias al cuadrado entre la
media y cada elemento de la poblacin. Al elevar al cuadrado cada una de las distancias, logramos
que todos los nmeros que aparecen sean positivos y, al mismo tiempo asignamos ms peso a las
desviaciones ms grandes. Las unidades de la varianza estn elevadas al cuadrado (pesos al cuadrado,
unidades al cuadradro, etc.) lo que hace que no sean claras o fciles de interpretar.
La desviacin estndar, que es la raz positiva de la varianza, se mide en la misma unidad que la
variable, y su interpretacin es " en promedio los valores se alejan de la media en ..... unidades"
Aplicacin de la desviacin estndar poblacional
La desviacin estndar nos permite determinar, con un buen grado de precisin, dnde estn
localizados los valores de una distribucin de frecuencias con relacin a la media.
Para curvas cualesquiera, el teorema de Chebyshev asegura que al menos el 75% de los valores
caen dentro de 2s (2 desviaciones estndar) a partir de la media m , y al menos el 89% de los
valores caen dentro de 3s .
Se puede medir con ms precisin el porcentaje de observaciones que caen dentro de un rango
especfico de curvas simtricas con forma de campana (regla emprica):
1. Aproximadamente 68% de las observaciones cae dentro de 1s
2. Aproximadamente 95% de las observaciones cae dentro de 2s
3. Aproximadamente 99% de las observaciones cae dentro de 3s
( mi - m ). f i mi2 . f i
=
=
N
s = s2 =
( mi - m ). f i
N
- m2
mi2 . f i
N
-m2
s 2 : Varianza de la poblacin
s : Desviacin estndar de la poblacin
f i : frecuencia absoluta de la clase i
mi : marca de clase de la clase i
m : media de la poblacin
N : tamao de la poblacin
con x y N con n - 1 .
(x - x )
=
s
s2 :
x :
x :
n:
n -1
x2
n.x
n -1 n -1
Varianza de la muestra
Elemento u observacin
Media de la muestra
Nmero de elementos de la muestra
(x - x )
s= s =
2
n -1
x 2 - n.x
n-1
n -1
DATOS AGRUPADOS
VARIANZA MUESTRAL:
s2 =
( mi - x ). f i
n -1
s=
( mi - x ). f i
n -1
s : Varianza de la muestra
s : Desviacin estndar de la muestra
f i : frecuencia absoluta de la clase i
mi : marca de clase de la clase i
x : media de la muestra
n : tamao de la muestra
Ejemplo:
Los siguientes datos representan una muestra de la cantidad de pedidos
diarios entregados :
17
a)
b)
25
28
27
16
21
20
22
18
23
17
18
20
21
22
23
25
27
28
Autores: Liliana Marconi / Adriana DAmelio
x-x
(2)
(3)
16
17
18
20
21
22
23
25
27
28
21,7
21,7
21,7
21,7
21,7
21,7
21,7
21,7
21,7
21,7
-5,7
-4,7
-3,7
-1,7
-0,7
0,3
1,3
3,3
5,3
6,3
x = 217
(x - x )
(x - x )
(x - x )
=
1)
(1)2
(4)
32,49
22,09
13,69
2,89
0,49
0,09
1,69
10,89
28,09
39,69
2
x2
n -1
256
289
324
400
441
484
529
625
729
784
= 152 ,1
x 2 = 4861
152 ,1
= 16 ,9
10 - 1
b)
x2
=
n.x
4861 10.(21,7 )
152 ,1
=
=
= 16 ,9
n -1 n -1
9
9
9
2
Segn Chebyshev: al menos el 75% de los valores caen en ese intervalo, por lo tanto se verifica
Segn la regla emprica: aproximadamente el 95% de las observaciones caen en dicho intervalo,
(el 100% es un valor bastante cercano)
COEFICIENTE DE VARIACIN:
La desviacin estndar es una medida absoluta de la dispersin que expresa la variacin en las
mismas unidades que los datos originales. Pero no puede ser la nica base para la comparacin de
dos distribuciones. Por ejemplo si tenemos una desviacin estndar de 10 y una media de 5, los
valores varan en una cantidad que es el doble de la media. Si por otro lado tenemos una desviacin
estndar de 10 con una media de 5000, la variacin respecto a la media es insignificante.
Lo que necesitamos es una medida relativa que nos proporcione una estimacin de la magnitud de
la desviacin respecto de la magnitud de la media.
El coeficiente de variacin es una medida relativa de dispersin que expresa a la desviacin
estndar como un porcentaje de la media
CV =
s
.100%
m
en la poblacin
CV =
s
.100%
x
en la muestra
x A = 88
s A = 12 ,67
x B = 83 ,8
s B = 6 ,02
x C = 104 ,2
sC = 16 ,35
12 ,67
.100% = 14 ,4%
88
6 ,02
CV =
.100% = 7 ,18%
83 ,8
16 ,35
CV =
.100% = 15 ,69%
104 ,2
CV =
Vemos que el vendedor C tiene la mayor variabilidad, mientras que el B tiene la menor. El
desempeo de C parece ser mejor si analizamos la media, pero hay que tener en cuenta que tambin
tiene la mayor variabilidad en la concrecin de los objetivos.
PERCENTILES
Un percentil aporta informacin acerca de la dispersin de los datos en el intervalo que va del
menor al mayor valor de los datos. En los conjuntos de datos que no tienen muchos valores repetidos,
el percentil p divide e los datos en dos partes. Cerca del p porciento de las observaciones tienen
valores menores que el percentil p y aproximadamente (100-p) por ciento de las observaciones tienen
valores mayores o iguales que este valor.
Definicin:
El percentil p es un valor tal que por lo menos p porciento de las observaciones son menores o
iguales que este valor y por lo menos (100-p) por ciento de las restantes son mayores o iguales que
ese valor.
Clculo del percentil:
Paso 1. Ordenar los datos de menor a mayor en orden ascendente.
Paso2. Calcular el ndice i
p
n
100
i=
3355
3450
3480
3480
3490
Paso 2:
p 85
n =
12 = 10.2
100 100
i=
Paso 3. Como i no es un nmero entero se debe redondear al primer entero mayor que es 11.
Es decir el percentil 85 se encuentra en la posicin 11. Este es 3730
CUARTILES
Con frecuencia es conveniente dividir los datos en cuatro partes, as cada una contiene el 25% de los
datos. A los puntos de divisin se los llama cuartiles :
Q1= primer cuartil o percentil 25
Q2= segundo cuartil o percentil 50
Q1= tercer cuartil o percentil 75
Rango intercuartlico (RIC) es tambin una medida importante a tener en cuenta, es la diferencia
entre el tercer y primer cuartel
RIC= Q3- Q1
Nos indica el 50 % de las observaciones centrales
DIAGRAMA DE CAJA Y BIGOTES
Un diagrama de caja es un resmen grfico de los datos con base en el resumen de cinco nmeros .
La clave para elaborar un diagrama de cajas est en calcular Q1, Q3 y la mediana o Q2.
Tambin hay que calcular el RIC= Q3- Q1
Pasos para dibujar el diagrama de cajas:
1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartel. En nuestros datos
de salarios Q1=3465 y Q3= 3600 . Significa que la caja contiene el 50% de los datos centrales .
2. En el punto dnde se localiza la mediana (3505) se traza una lnea horizontal o vertical segn
se represente la caja en posicin vertical u horizontal respectivamente. Si se quieren comparar dos
poblaciones a veces tambin se representa la media dentro de la caja.
3.Usando el rango intercuartlico RIC= Q3- Q1 se localizan los lmites. En un diagrama de caja
los lmites se encuentran en 1,5*(RIC) abajo del Q1 y 1,5(RIC) arriba del Q3 . En el caso de los
salarios el RIC= Q3- Q1 = 3600-3465=135. por lo tanto los lmites son
Li=3465 - 1,5*(RIC)= 3465-1,5*135 = 3262,5
Ls= 3600+ 1,5*(RIC)= 3600+1,5*135=3802,5
Los datos que quedan fuera de estos lmites se consideran observaciones atpicas.
4. A las lneas punteadas se las llama bigotes . Los bigotes van desde los extremos de la caja
hasta los valores menor y mayor de los correspondientes a los lmites inferior y superior encontrados
en el paso 3.Por lo tanto los bigotes terminan en los salarios cuyos valores son 3310 y 3730.
Autores: Liliana Marconi / Adriana DAmelio
Actividad con R
> sueldo<-c(3310,3355,3450,3480,3480,3490,3520,3540,3550,3650,3730,3925)
> boxplot(sueldo, main="Primer sueldo de los egresados de Administracin", col="blue")
Para datos sin agrupar en el caso de la edad de los jubilados encuestados se colocan en una
columna y luego en el men herramientas se busca anlisis de datos estadstica descriptiva se marca
el rango de las celdas y se le pide resumen de estadsticas aceptar y larga
Edad de los jubilados encuestados en Mendoza en noviembre del 2008.
Columna1
Media
Error tpico
Mediana
68,42
1,47277054
65,5
Autores: Liliana Marconi / Adriana DAmelio
Moda
65
Desviacin estndar
10,4140604
Varianza de la muestra 108,452653
Curtosis
-0,6706671
Coeficiente de asimetra 0,43071849
Rango
40
Mnimo
53
Mximo
93
Suma
3421
Cuenta
50
Columna1
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
3540
47,8198957
3505
3480
165,652978
27440,9091
1,71888364
1,09110869
615
3310
3925
42480
12