Está en la página 1de 41

Universidad Csar

Vallejo.

MTODOS
ESTADSTICOS
Docente: Julio Csar Aguilar Incio
Medidas de
Dispersin
Las medidas de dispersin o variabilidad
Son tiles porque:
Permiten juzgar la confiabilidad de la
medida de tendencia central.
Los datos demasiados dispersos tienen
un comportamiento especial.
Es posible comparar dispersin de
diversas muestras.
AMPLITUD TOTAL: A RANGO: R
Se obtiene de la diferencia entre el dato mayor y
el dato menor.
Ejemplo:
Los siguientes datos representan los pesos de 10
productos. Calcule el rango.
60, 58, 80, 70, 75, 55, 76, 60, 68, 70
Amplitud Total Rango = 80 - 55 = 25
Interpretacin
La diferencia entre el producto con mayor peso y el producto con
menor peso es 25 kilos.

Clculo a partir de datos agrupados
Se utiliza la siguiente formula:


Amplitud Total o Rango = ( L
s
- L
i
) + 1
donde:
L
s
:

Limite superior de la ltima clase

: Limite inferior de la primera clase
i
L
Ejemplo:
La distribucin de frecuencias siguiente representa
los puntajes de una muestra de trabajadores en
una prueba de seleccin. Calcule e interprete el
rango

Rango = (20 - 1) + 1

R = 20


Interpretacin: la diferencia de puntos entre el
trabajador que ms puntaje tiene y el trabajador
con menos puntaje es de 20 das.
Puntaje N de trabajadores
1 - 4 4
5 - 8 8
9 - 12 15
13 - 16 23
17 - 20 10
Total 60
Ventajas
fcil de calcular
fcil de entender e interpretar

Desventajas
slo considera los valores extremos
no toma en cuenta ni el nmero de datos ni el
valor de stos
no es posible de calcular en tablas con
extremos abiertos.
La VARIANZA
Es una medida de dispersin e indica la
desviacin promedio con respecto a la media
aritmtica
a) Clculos a partir de datos no agrupados.
para una muestra


para un poblacin
1
1
2
) X (
2


=
=
n
n
i
i
x
S
N
N
i
i

=
=
1
2
) X (
2

o
8 8 - 10 = 2 4
10 10 - 10 = 0
0
5 5 - 10 = 5
25
12 12 - 10 = 2
4
10 10 - 10 = 0 0
15
15 - 10 = 5 25
Ejemplo:
La siguiente informacin se refiere a los puntajes obtenidos de
6 trabajadores en una prueba de seleccin:
8, 10, 5, 12, 10, 15. Calcule la varianza.
Elaboramos un cuadro de la forma siguiente
x
X x
i

( )
2
X x
i

60 X=

( )

= 0 X x
i
10
6
60
=
=
x
x
( ) 58
2
=

x
i
X
( )

= 58 X
2
x
i
1
) (X
2
2


n
i
S
x
2
puntos 6 , 11
1 6
58
2
=

=
S
LA DESVIACION ESTANDAR
Es la raz cuadrada de la varianza, sea
poblacional o muestral.
a) Clculos a partir de datos no agrupados

Para la muestra



Para la poblacin
1
1
2
2

= =

=
n
n
i
i
x) (X
S
s
N
N
i
i


= =
=1
2
2
) X (
o
o
Ejemplo:
En relacin al ejemplo anterior. Calcular la desviacin
estndar de los puntajes obtenidos por 6 trabajadores en
un examen de seleccin:
8, 10, 5, 12, 10, 15
Ya sabemos por el ejemplo anterior que S
2
= 11,6 das
2
.
Entonces:
s
2
S =
das 3,4 S
das 6 , 11 S
2
=
=
-3 -2 - + +2 +3

68.3 %

95.5 %

99.7 %
Teorema de Chebyshev
El coeficiente de variacin
Es una medida de variabilidad relativa de los
datos, permite comparar la variabilidad de dos o
ms conjuntos de datos expresados en unidades
diferentes (peso; kg. y libras).

a) Calculos a partir de datos no agrupados

Para la muestra:

Para la poblacin:
100 =
x
CV
s
100 =

o
CV
Ejemplo:
A continuacin se presentan las ventas en miles de dlares de una
muestra de empresas manufactureras y una muestra de empresas de
productos alimenticios Cul de los grupos de empresas sus ventas
son ms estables?.

I grupo II grupo
40,70,60,48,52,65,58 70,35,150,140,82,110,140,120

Calculamos la media y desviacin estndar para
cada uno de los grados
Grupo I
40 -16,14 260,50
70 13,86
192,10
60 3,86
14,90
48 -8,14
66,26
52 -4,14 17,14
65 8,86 78,50
58
1,86 3,46
x X x
i

( )
2
X x
i

14 56
7
393
1
, = = =

=
n
x
n
i
i
X
393 X=

( )

= 0 X x
i
( )

= 86 , 632 X
2
x
i
( ) = 86 632
2
, x
i
X Si
27 10
1 7
86 632
1
1
2
,
,
( )
=


=
=
n
n
i
i
x X
S
100
S
=
x
CV
29 18 100 , = =
56,14
10,27
CV
Grupo II
70 -35,87 1286,6569
35 -70,87 5022,5569
150 44,13 1947,4569
140 34,13 1164,8569
82 -23,87 569,7769
110 4,13 17,0569
140 34,13 1164,8569
120 14,13 199,6569
x X x
i

( )
2
X x
i

87 105
8
847
1
, = =

=
=
n
i
x
n
i
X
847 X =
( ) = 04 , 0 X x
i
( ) = 88 , 11372 X
2
x
i
( ) 88 11372
1
2
, =


=
n
i
i
x X Si
30 40
1 8
88 11372
1
1
2
,
,
) (
=


=
=
n
n
i
i
x X
S
100
S
=
x
CV
06 , 30 100
105,87
40,30
= = CV
El II grupo presenta una mayor variabilidad en sus
ventas que el I grupo.
CONSIDERACIONES
19/08/2014
SI:
C.V < 33% La distribucin se puede considerar
aproximadamente simtrica.
C.V 33% La distribucin puede ser asimtrica
positiva o negativa.
Curvas simtricas: Cuando
al trazar una lnea el rea se
divide en dos partes iguales.
Curvas asimtricas o
sesgadas: Concentrados en
el extremo inferior o superior
del eje horizontal.
La cola indica el tipo de
sesgo.
Medidas Forma:

p = 3 (X - Me)
S
X=Me=Mo
Mo<Me<X
Asimetra a la derecha
X<Me<Mo
Asimetra a la izquierda
Simtrica
p < 0 p = 0 p > 0
Coeficiente de Simetra de Pearson
Refleja el grado de agudeza.
(a) Leptocrtica (concentracin al centro)
(b) Mesocrtica (distribuidos simtricamente)
(c) Platicrtica (aplanada).
Coeficiente de Curtosis
DESVIACIN ESTANDAR
1
) (
2
2


=
n
n
x f
x f
S
i i
i i
Donde: f
i
: frecuencias absolutas simples
X
i
: puntos medios de los intervalos de clase

Ejemplo:
Calcular la desviacin estndar de la siguiente
distribucin de frecuencias:
Puntajes X
i
f
i
X
i
*f
i
X
i
2
*f
i
2 - 4 3 4 12 36
5 - 7 6 10 60 360
8 - 10 9 15 135 1215
11 - 13 12 30 360 4320
14 - 16 15 5 75 1125
17 - 19 18 1 18 324
Total 65 660 7380
DESVIACIN ESTANDAR
1 65
65
7380
(660)
2

= S
25 . 3 = S
USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION
La desviacin estndar se emplea cuando
tambin es apropiado el uso de la media,
es decir, con distribuciones simtricas(no
sesgadas) de datos numricos.
Percentiles y rango intercuartilicos se
emplean, cuando la distribucin no es
simtrica(sesgada) y es apropiado el uso
de la mediana.

USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION
El rango es una medida apropiada para
datos numricos cuando el propsito es
enfatizar valores extremos.
El coeficiente de variacin es til cuando
la intencin es comparar dos
distribuciones numricas medidas en
escalas diferentes.

El Boxplot (Diagrama de Caja)
Al igual que el histograma y el grfico de
Tallo y Hoja permite tener una idea visual
de la distribucin de los datos (simetra y
variabilidad)
Permite detectar outliers (valores
extremos).
Permite comparar la media y la
variabilidad de varios grupos (alternativa
grfica a pruebas estadsticas)

Boxplot: Procedimiento
1. Dibujar una caja cuyo lmite inferior ser
Q1 y el superior Q3. Dentro de la caja
trazar una lnea que localice la mediana.
2. Calcular el rango intercuartlico:
R.I. (Q) = RIQ = Q3 Q1
3. Dibujar un bigote del borde inferior de
la caja hasta Q1-1.5xRIQ .

Boxplot: Procedimiento
5. Dibujar otrobigote del borde
superior de la caja hasta
Q3+1.5xRIQ .
6. Dibujar cualquier observacin que
se ubique fueras de los bigotes
(estos sern los outliers).

BoxPlot: Ejemplo
0
10
20
30
40
50
D
a
t
o
s
OTRA ALTERNATIVA DE
ANALIZAR LA DISPERSIN DE
UN CONJUNTO DE DATOS:
GRFICO DE TALLO - HOJAS
Grfico de Tallo - Hoja
Un diagrama de tallos y hojas consiste en una serie de
hileras horizontales de nmeros. El nmero utilizado
para designar una hilera es un tallo y el resto de
nmeros en la hilera se denominan hojas.

Se tienen los siguientes datos permetro
(cm) de productos, que constituye una
muestra obtenida de una poblacin de
recin nacidos:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
Para la clasificacin de datos, se deben
identificar los valores entre los cuales se
encuentra la distribucin, es decir, el dato
menor y el dato mayor.





Dato menor: 33.1cm
Dato mayor: 36.5cm

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
Se deben identificar los tallos -los nmeros que
van a designar las hileras- los cuales deben
contener a todos los valores de la distribucin (del
33.1 al 36.5). La eleccin de los tallos depende de
la unidad con la que se quiera trabajar: enteros,
dcimas, centsimas... En el caso del ejemplo, los
datos estn dados indicando dcimas por lo que
trabajar con tallos enteros es la opcin ms
precisa y cmoda.
Los tallos seran entonces: 33, 34, 35 y 36.

Sin embargo, no se puede realizar un diagrama de
tallos y hojas con menos de 5 tallos. Por lo tanto, los
tallos propuestos se deben dividir (desdoblar) en una
especie de intervalo, produciendo el doble. La divisin
del tallo debe distinguirse visualmente:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
Seguidamente, se realiza el proceso de clasificacin
en s. Todos los datos, dependiendo de su valor, se
colocan a lado de su respectivo tallo. En el ejemplo,
los datos cuyo valor se encuentre entre 33.0 y 33.4
se deben colocar en la hilera del tallo 33*. Se debe
indicar el valor decimal exacto de cada dato a la
derecha del tallo. En el ejemplo hay 2 valores entre
33.0 y 33.4. Para clasificar el primero (33.1) se
agrega al diagrama de tallos y hojas de la siguiente
manera:
33*|1
Para clasificar el segundo dato que corresponde a este
tallo (33.4):
33*|14

Lo mismo se realiza con cada tallo y lo
valores que le correspondan:
En la hilera del tallo 33. se debe colocar los
nmeros 67789, correspondientes a los
valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9.
A la hilera del tallo 34* se debe colocar
012222233 correspondientes a los valores
que se encuentran entre 34.0 y 34.4.
etc.

Al clasificar todos los valores en sus tallos
respectivos, se obtiene el diagrama:

Anlisis de la distribucin usando Tallos y Hojas
Las principales caractersticas de la
distribucin que se observan fcilmente
en el diagrama de tallos y hojas son:
Hay 35 observaciones.
El dato menor es 33.1cm.
El dato mayor es 36.5cm.
El rango de los valores observados es de
3.4cm
(dato mayor dato menor).
De los 35 datos, 18 estn alrededor de
34cm.
Los casos mayores a 36cm son pocos.
La distribucin de los datos es asimtrica:
distribucin heterognea.

También podría gustarte