Ventajas y Desventajas de Medidas de Correlacion Lineal

También podría gustarte

Está en la página 1de 24

Medidas de dispersin

Clase dictada por Ana Vigna


Aspirante a Estadstica
Licenciatura en Relaciones Internacionales
8 de noviembre de 2010

Contenidos de la clase:
|

Medidas de dispersin:
z
z

Medidas:
z
z
z
z
z

qu son?
en qu

q se diferencian y cmo se relacionan con las


medidas de tendencia central?
Rango o recorrido
R
id
Rango o recorrido intercuartlico
Varianza
Desvo estndar o tpico
Coeficiente de variacin

Ejercicios de aplicacin

Frmulas
Frmulas para
datos originales y
agrupados
Ventajas y
desventajas

Medidas de dispersin
|

Indican si las p
puntuaciones
nt aciones son m
muy parecidas o m
muy distintas entre
s.
Las siguientes distribuciones tienen todas una media de 4. Qu las
diferencia?

7, 6, 3, 3, 1

3, 4, 4, 5, 4

4, 4, 4, 4, 4
Existen dos procedimientos:
z
z

Considerar
C
id
ell recorrido
id o amplitud
lit d d
de lla escala
l en lla que se
distribuyen las puntuaciones;
Describir la variacin por medio de las diferencias que se
producen entre todas las puntuaciones y un ndice de
tendencia central.

Medidas de dispersin
|

qu
En
q se diferencian con las medidas de tendencia
central?
|

Mientras las medidas de tendencia central nos indican dnde


se concentra un grupo de puntuaciones
puntuaciones, las medidas de
dispersin refieren a la homogeneidad / heterogeneidad de
una distribucin.

Cmo se relacionan con las medidas de tendencia


central?
|
|

Son complementarias
Para calcular algunas medidas de dispersin es necesario
conocer los valores de otras medidas
Ambos tipos de medidas son necesarias para una
descripcin acabada de una distribucin

Rango o recorrido
Se calcula
S
l l restndole
t d l all valor
l ms
alto
lt d
de
una distribucin, el valor ms bajo
| Se aplica tanto a distribuciones de datos
originales, como a distribuciones de datos
agrupados.
d
|

Rango = Valor .mximo Valor .mnimo

Rango = Valor .mximo Valor .mnimo


Distribucin de datos originales
g
Distribucin de encuestados segn edad:
z 20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48
Entre el encuestado de mayor edad y
z Rango = 63 18 = 45 aos
el ms joven, hay una diferencia de
45 aos
| Distribucin de datos agrupados
|

Distribucindepasessegnporcentajedelapoblacinde15yms
Distribucin
de pases segn porcentaje de la poblacin de 15 y ms
aosdeedadanalfabeta,AmricaLatinayelCaribe.Ao2010

L.Inf. L.Sup
0a5
5a10
10a20
20a42
n (total)
n(total)

Xc
2,5
7,5
15
31

fi
14
8
3
3
28

fr (%)
50
28
11
11
100

Fi
14
22
25
28

Fr(%)
50
78
89
100

Ai
5
5
10
22

Fuente: Elaboracin propia en base a datos de CEPAL: Anuario estadstico de Amrica Latina y el Caribe, 2009

Rango = 42 0 = 42 puntos porcentuales

Entre el pas con


mayor porcentaje de
analfabetismo y el
pas con menor
porcentaje, hay una
diferencia de 42
puntos porcentuales

MEDIDA

Rango o
recorrido

VENTAJAS

Es fcil de calcular, y tiene


una interpretacin intuitiva

DESVENTAJAS
Es muy general, tan slo nos
da una idea de cun amplia
p es
la variacin entre puntajes
extremos.
No toma en cuenta los valores
intermedios de la distribucin
distribucin.

Recorrido o rango intercuartlico


|
|
|

Es la diferencia entre el Q1 y el Q3
Nos indica la dispersin en el 50% central de la distribucin
Es ms sensible a la concentracin de los datos que el
recorrido ordinario
Su clculo es indistinto para datos originales como para datos
agrupados.

RI = Q3 Q1

Rango intercuartlico
Rangointercuartlico
Q1
25%

Q2
25%

P25

Q3
25%

P50

25%
P75

RI = Q3 Q1
|
|

Datos originales
g
20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

Q1 = 1/ 4n = 0,25 * 12 = 3

Q3 = 3 / 4n = 0,75* 12 = 9

18, 20, 20, 24, 32, 32, 32, 48, 49, 53, 59, 63
Q1
=(20+24)/2
=22

RI = 51 22 = 29.aos

Q3
=(49+53)/2
=51

oA partir de los 22 aos


hasta los 51 se ubica el
50% central de la
distribucin

o29 aos es la distancia existente


en el 50% central de la
distribucin

RI = Q3 Q1
|

Datos
agrupados

Distribucindepasessegnporcentajedelapoblacinde15yms
aaosdeedadanalfabeta,AmricaLatinayelCaribe.Ao2010
os de edad a a abeta,
ca at a y e Ca be. o 0 0

L.Inf. L.Sup
Xc
fi
fr (%)
Fi
Fr(%) Ai
0a5
2,5
14
50
14
50
5
Lmite inferior del
5a10
7,5
8
28
22
78
5
que contiene
intervalo q
10 20
10a20
15
3
11
25
89
10
al primer cuartil (Fr%
20a42
31
3
11
28
100
22
supera al 25%)
n(total)
28
100
Total de casos
Frecuencia acumulada absoluta de la clase
anterior a la que contiene al primer cuartil

(1/ 4N Fi 1)
Q1 = L.Inf . +
* Ai
fi

(1/ 4 * 28 0)
Q1 = 0 +
* 5 = 2,5
14
Q3 = 5 +

frecuencia absoluta simple


de la clase que contiene al
Amplitud del intervalo que
primer cuartil
contiene al primer cuartil

(3 / 4 * 28 14)
* 5 = 9,4
8

RI = 9,4 2,5 = 6,9

MEDIDA

Rango o
recorrido

Rango
g
intercuartlico

VENTAJAS

DESVENTAJAS

Es fcil de calcular, y tiene


una interpretacin intuitiva

Es muy general, tan slo nos


da una idea de cun amplia es
la variacin entre puntajes
extremos.
No toma en cuenta los valores
i
intermedios
di d
de lla di
distribucin.
ib i

Fcil de calcular
No sufre la influencia de los
valores extremos

Solo mide la dispersin en el


centro de la distribucin
Solo mide la distancia entre el
Q1 y Q3, y no la forma en que
los datos estn distribuidos

Varianza
|

Se basa en las diferencias entre la media aritmtica y cada


una de las puntuaciones
Es el promedio de los cuadrados de las distancias de las
observaciones a partir de la media (su valor nunca ser
negativo).
La frmula del clculo depender si la distribucin es de
datos originales o agr
agrupados,
pados as como de si se trabaja con
poblaciones (se usa en el denominador N) o con una muestra
(se usa n-1).
N

Datos originales:

S2 =

2
(
X

X
)
i
i =1

n 1

2
X

n
X
i
2

i =1

n 1

Varianza
|

Se basa en las diferencias entre la media aritmtica y cada


una de las puntuaciones
Es el promedio de los cuadrados de las distancias de las
observaciones a partir de la media (su valor nunca ser
negativo).
La frmula del clculo depender si la distribucin es de
datos originales o agr
agrupados,
pados as como de si se trabaja con
poblaciones (se usa en el denominador N) o con una muestra
(se usa n-1).
N

( X i X ) * fi

Tabla de frecuencia
de datos:
S2 =

i =1

n 1

2
X
fi

n
X
i
2

i =1

n 1

Varianza
|

Se basa en las diferencias entre la media aritmtica y cada


una de las puntuaciones
Es el promedio de los cuadrados de las distancias de las
observaciones a partir de la media (su valor nunca ser
negativo).
La frmula del clculo depender si la distribucin es de
datos originales o agr
agrupados,
pados as como de si se trabaja con
poblaciones (se usa en el denominador N) o con una muestra
(se usa n-1).
N

Tabla de frecuencia
de clases:

( Xci X ) * fi

S2 =

i =1

n 1

2
Xc
fi

n
X
i
2

i =1

n 1

( X i X ) * fi

S2 =
|
|

x=

i =1

n 1

2
X
fi

n
X
i
2

i =1

n 1

Datos originales
20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

20 + 49 + 59 + 18 + 32 + 32 + 63 + 24 + 20 + 32 + 53 + 48 450
=
= 37,5.aos
12
12

Edad
18
20
24
32
48
49
53
59
63
n(Total)

fi
1
2
1
3
1
1
1
1
1
12

Xi2
Xi2*fi
324
324
400
800
576
576
1024
3072
2304
2304
2401
2401
2809
2809
3481
3481
3969
3969
(Xi2 *fi)=
19736

X 2 = 1406,25

S2 =

19736 12 * 1406,25
= 260,1
11

S2 =

2
(
Xc

X
)
* fi
i
i =1

Tabla de frecuencia de clases:


L.Inf. L.
Sup
0a5
5a10
10 20
10a20
20a42
n (total)
n(total)

Xc
2,5
7,5
15
31

x=

2
Xc
fi

n
X
i
2

i =1

233
= 8,32.puntos.porcentuales
28

fi (Xc*fi) Xc2
Xc2*fi
14
35
6
87,5
8
60
56
450
3
45
225
675
3
93
961
2883
(Xc*fi)
(Xc2*fi)
28 =233
= 233
= 4095 5
=4095,5

2
4095
,
5

28
*
(
8
,
32
)
4095,5 28 * (69,2)
2
S =
=
= 77,1
28
28

MEDIDA

VENTAJAS

DESVENTAJAS

Es
Es fcil de calcular, y tiene
una interpretacin intuitiva

Es muy general, tan slo nos


da una idea de cun amplia es
la variacin entre puntajes
extremos.
No toma en cuenta los valores
intermedios de la distribucin.

Rango
intercuartlico

Fcil de calcular
No sufre la influencia de los
valores extremos

Solo mide la dispersin en el


centro de la distribucin
Solo mide la distancia entre el
Q1 y Q3, y no la forma en que
los datos estn distribuidos

Varianza

Considera todos los valores


d la
de
l di
distribucin
t ib i

Al expresarse en el cuadrado
de las unidades de los datos, es
de difcil interpretacin.

Rango o
recorrido

Desvo estndar o tpico

Es la medida ms frecuentemente usada de variabilidad,,


y se calcula como la raz cuadrada de la varianza.
Expresa la cantidad de variabilidad promedio en una
di t ib i
distribucin.
Nos permite determinar cmo se distribuyen los valores
en relacin con la media
Su frmula es indistinta para distribuciones de datos
originales o agrupados.
N

S=

2
(
X

X
)
i
i =1

= S2

S= S
|
|

Datos originales
20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

S = 260,1S = 260,1 = 16,1.aos

Tabla de frecuencia de clases:

S 2 = 77,1

S = 77,1 = 8,8.puntos.porcentual es

MEDIDA

VENTAJAS

DESVENTAJAS

Es fcil de calcular, y tiene


una interpretacin intuitiva

Es muy general, tan slo nos


da una idea de cun amplia es
la variacin entre puntajes
extremos.
No toma en cuenta los valores
intermedios de la distribucin.

Rango
intercuartlico

Fcil de calcular
No
N sufre
f lla iinfluencia
fl
i d
de llos
valores extremos

Solo mide la dispersin en el


centro de la distribucin
Solo
S l mide
id lla di
distancia
i entre ell
Q1 y Q3, y no la forma en que
los datos estn distribuidos

Varianza

Considera todos los valores


de la distribucin

Al expresarse en el cuadrado
de las unidades de los datos, es
de difcil interpretacin.

Desvo
estndar o
tpico

Se expresa en las unidades


originales de la variable

Es sensible a las unidades de


medida

Rango o
recorrido

Coeficiente de variacin
|

Hace referencia a la variabilidad relativa,, relaciona la


media con el desvo
Nos indica el porcentaje de variacin que existe con
respecto
t all valor
l promedio
di d
de lla di
distribucin.
t ib i
Su frmula es igual para datos originales que para datos
agrupados.

S
CV = * 100
X

S
CV = * 100
X
|

Datos originales
g

16,1
CV =
* 100 = 43%
37,5
Tabla de frecuencia de clases:

8,8
CV =
* 100 = 106%
8,32

MEDIDA

VENTAJAS

DESVENTAJAS

Es fcil de calcular, y tiene


una interpretacin intuitiva

Es muy general, tan slo nos


da una idea de cun amplia es
la variacin entre puntajes
extremos.
No toma en cuenta los valores
intermedios de la distribucin.

Rango
intercuartlico

Fcil de calcular
No
N sufre
f lla iinfluencia
fl
i d
de llos
valores extremos

Solo mide la dispersin en el


centro de la distribucin
Solo
S l mide
id lla di
distancia
t
i entre
t ell
Q1 y Q3, y no la forma en que
los datos estn distribuidos

Varianza

Considera todos los valores


de la distribucin

Al expresarse en el cuadrado
de las unidades de los datos, es
de difcil interpretacin.

Desvo
estndar o
tpico

Se
S expresa en las
l unidades
id d
originales de la variable

Es
E sensible
ibl a llas unidades
id d d
de
medida

Es til para comparar la


Coeficiente de variabilidad entre conjuntos
variacin
de datos (de diferentes o
iguales unidades de medida)

Arrastra las limitaciones que


tiene la media como medida de
tendencia central

Rango o
recorrido

Bibliografa
z

Garca Ferrando,
Ferrando, M. Socioestadstica
Socioestadstica..
Introduccin a la estadstica en sociologa

Lind, Marchal,
Lind,
Marchal, Mason:
Mason: Estadstica para
Administracin y Economa

Repetto, D. Material de apoyo para el curso de


Repetto,
Estadstica de Relaciones Internacionales

También podría gustarte