Está en la página 1de 62

Medidas de posicin

y de tendencia
central.
1

Media Poblacional
Sea N=tamao de la poblacin
N

x 1 + x 2 + ... + x N i = 1
=
=
N
N

Estimacin de la Media Poblacional


La estimacin de la media aritmtica o simplemente
promedio (tambin llamada media muestral ya que
generalmente se calcula en relacin a una muestra) se
calcula de la siguiente forma: si las observaciones de
una muestra de tamao n son x1, x2,,xn entonces
n

xi

+
+
...
+
x
x
x
i =1
n
2
= X = 1
=
n
n
= X
3

Ejemplo
Estimar la media de los pesos de los

profesores de la PUJ- Cali si se tomo la


muestra: 84, 91, 72, 68, 87 y 78 kg.

= X = 80

MEDIANA

se suele definir como el valor ms intermedio una vez


que los datos han sido ordenados en forma creciente.
Se suele denotar por Me. La forma ms general de
calcular la mediana es la siguiente:

x (( n + 1) 2)

Me = x + x
( n 2)
( ( n 2)+1)

si n es impar
si n es par
5

MEDIANA

y La mediana es aquel valor que deja el cincuenta por


ciento de los datos por debajo y otro cincuenta por
encima.
y Cabe destacar que es preferible el uso de la
mediana como medida descriptiva del centro
cuando se quiere reducir o eliminar el efecto de
valores extremos en un conjunto de datos (muy
grandes o muy pequeos).
6

Ejemplo: encuentra la Mediana


de la muestra: {12, 3 ,5}.
Ponlos en orden: {3, 5, 12}, el
nmero del medio es 5,
entonces la mediana es 5.
n=3 es impar, entonces la mediana
es el dato que est en la posicin (n+1)/2=2.
El dato en la posicin 2 (despus de ordenar)
es 5

Ejemplo: encuentra la Mediana


de la muestra {12, 3 ,5, 2}.
Ponlos en orden: {2, 3, 5, 12}, los nmeros del
medio son 3 y 5, el promedio de 3 y 5 es 4, as
que la mediana es 4.
n=4 es par, entonces la mediana es el promedio de
los datos
en las posiciones (n/2) y (n/2+1). Las posiciones
son:
n/2=4/2=2
n/2+1=4/2+1=2+1=3.
L d t
l
i i
2 3
3 5

CUARTILES
Los cuartiles dividen en cuatro partes las
observaciones.
El primer cuartil Q1 es un valor de la
variable que supera el 25% de las
observaciones y es superado por el 75%
de las observaciones.
El Q2 es la mediana (50%).
Q3 deja por debajo 75% y por encima
25% de las observaciones.

CUARTILES

75%
25%
25%
Mnimo

25%
75%

25%

Cuartil 1

Q1

25%

Mediana
Cuartil 2

Q2

25%

Cuartil 3

Q3

Mximo

10

PERCENTILES

20%

80%

Mnimo Percentil 20

Mximo

P20

11

DECILES

20%
Mnimo

80%
Decil 2

Mximo

D2

12

PERCENTILES; DECILES,
Mediana.

50%
Mnimo

50%
P50

Mximo

D5
Me

13

Procedimiento para el calculo de los


percentiles

Sea Lp la posicin del


deseado, est dado por:

percentil

p
L p = (n + 1)
100

donde n es el numero de datos y P el


percentil
14

Procedimiento para el calculo de los


percentiles
Ejemplo:

Comisiones que gan el ultimo mes una muestra de


corredores. Determinar: Mediana, Q1, Q3.

2038
1940
1758
2311
1721
2054
1637

2406 2287
2097
1471
2047
1460
2205
1787
15

Procedimiento para el calculo de los


percentiles
Ejemplo: Se deben ordenar los datos
1)1460
8) 2038
15) 2406
2) 1471
9)2047
3)1637
10) 2054
4)1721
11) 2097
5)1758
12) 2205
6)1787
13)2287
7)1940
14) 2311
16

Procedimiento para el calculo de los


percentiles
Ejemplo: a)
Mediana=Q2 = P50
Determinar la posicin del P50 .
50
L50 = (15 + 1)
=8
100
El P50 est en la posicin 8, entonces P50 =2038.
Mediana=2038 lo que significa que la mitad de
los
corredores
obtienen
comisiones
mayores a 2038 y la mitad ganan menos que
17
2038.

Diagrama de Caja y Bigotes


Un diagrama es una representacin
grfica basada en cuartiles. Para
construir el diagrama se necesitan 5
estadsticos:
Mnimo.
Primer Cuartil.
Mediana.
Tercer Cuartil.
Mximo.

18

Diagrama de Caja y Bigotes

Rango intercuartil

Q1

mediana

Q3

Escala
19

Diagrama de Caja y Bigotes


Rango intercuartil: Distancia entre 1 y
3 cuartil: Q3 - Q1
Dato atpico: Es un valor mayor a 1.5
veces la amplitud del rango intercuartil mas
pequeo que Q1 o mayor que Q3.

20

Diagrama de Caja y Bigotes

100

200

300

Salida de software
R

400

500

600

Grafico No 9: Deuda (dlares) que tienen los trabajadores de


la empresa DD con el banco BBB en la ciudad de Cali en el
ao 2009.

El 50% de los trabajadores deben entre 180 y 320 dlares. El 25% de los
trabajadores deben mas de 320 dlares y otro 25% deben menos de 180
dlares. La deuda menor de los trabajadores de 100 dlares y la deuda mayor
de un trabajador es 600 dlares

21

Diagrama de Caja y Bigotes

100

200

300

Salida de software R

400

500

600

Grafico No 9: Deuda (dlares) que tienen los trabajadores de


la empresa DD con el banco BBB en la ciudad de Cali en el
ao 2009.

El 50% de los trabajadores deben entre 180 y 320 dlares. El 25% de los
trabajadores deben mas de 320 dlares y otro 25% deben menos de 180
dlares. La deuda menor de los trabajadores de 100 dlares y la deuda mayor
de un trabajador es 600 dlares

22

2500

Dato
atpico.

2000

S.Amer

m:Mnimo: 2568.0
Q1 :Cuartil 1: 2631.5
Me:Mediana: 2845.0
Q3 :Cuartil 3: 3072.5
M:Mximo: 3338.0

3000

Diagrama de Caja y Bigotes

Rango intercuartil (RI): 3072.5- 2631.5=441


Datos atpicos son cantidades mayores a: Q3+1.5* RI
3072.5+1.5*441=3734 (el mximo es 3338 es menor a 3734,
por tanto NO es dato atpico)
Datos atpicos son cantidades menores a: Q1-1.5* RI
2631-1.5*441=1969.5 (el mnimo es 1500 es menor a 1969,
por tanto es dato atpico)

23

7697

7401

7105

6809

6513

6217

5921

5625

5329

5033

4737

4441

4145

3849

3553

3257

2961

2665

2369

2073

1777

1481

1185

889

593

297

VALORES CORRESPONDIENTES A
UNA OSCILACION DIARIA ?????

3.5

2.5

1.5

0.5

24

VALORES CORRESPONDIENTES A
UNA OSCILACION DIARIA ?????

BOX PLOT
3.5
3.0
2.5
2.0
1.5
1.0
Median = 1.2765
25%-75%
= (1.008, 1.615)
Non-Outlier Range
= (0.098, 2.523)
Outliers
Extremes

0.5
0.0
-0.5
Var2

25

7697

7401

7105

6809

6513

6217

5921

5625

5329

5033

4737

4441

4145

3849

3553

3257

2961

2665

2369

2073

1777

1481

1185

889

593

297

VALORES CORRESPONDIENTES A
UNA OSCILACION DIARIA ?????

27/2
NIVEL DEL MAR

3.5

2.5

1.5

0.5

26

Moda:

Es una medida de tendencia central que


se puede utilizar sea cual sea el tipo de
variable a estudiar. La moda de un
conjunto de observaciones es el valor que
ms se repite, aquel cuya frecuencia
absoluta es mxima. Puede ser nica, que
haya ms de una, o que no exista.
27

Ejemplo: Determinar la moda 3, 7, 5,


13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23,
29

Ordnalos
3, 5, 7, 12, 13, 14, 20, 23, 23, 23,
23, 29, 39, 40, 56
As es ms fcil ver qu nmeros
aparecen ms veces. En este
caso la moda es 23.
28

Medidas de
Dispersin.

29

Medidas de Dispersin.

Se puede decir que un conjunto de datos

tiene una dispersin reducida si los


mismos se aglomeran estrechamente en
torno a alguna medida de localizacin de
inters y se dice que tiene una dispersin
grande si se esparcen ampliamente
alrededor
de
alguna
medida
de
localizacin de inters.

Medidas de Dispersin.
Las

medidas
descriptivas
ms
comunes de dispersin son: el rango,
la varianza, la desviacin estndar y
el rango intercuartlico.

El rango
El rango de la muestra es la medida de
variabilidad ms sencilla entre todas las
mencionadas; y se define como la diferencia
entre la observacin ms grande y la ms
pequea :

R = M m

El rango
Aunque es una medida muy fcil de

calcular, ignora toda la informacin de la


muestra entre las observaciones ms
grande y ms pequea. Sin embargo, vale
la pena resaltar que el rango se utiliza
mucho en aplicaciones estadsticas al
control de calidad, donde lo comn es
emplear muestras con tamaos n = 4 o
n = 5 ya que en estos casos la prdida de
informacin no se considera relevante

El rango
En general, se desea una medida de
variabilidad que dependa de todas las
observaciones y no slo de unas pocas;
as que parece razonable medir la
variacin
en
trminos
de
las
desviaciones relativas a alguna medida
de localizacin (generalmente esta
medida es la media)

Desviaciones de la
Media
Para el conjunto de datos x1, x2,.,xn
( x1 x ), ( x2 x ),....., ( xn x )
Las diferencias
Determinan las desviaciones de la
media.
Dado que la suma de estas
desviaciones es cero, se utiliza como
medida de variabilidad el promedio de
los cuadrados de tales desviaciones.

Estimacin de la
varianza.
Sin embargo, como slo hay n-1
desviaciones independiente se
conviene en dividir entre n-1, es
decir,
n

s =
2

(x x)
i =1

Estimacin de la varianza.

2

=S

(x x )
i =1

n 1

Esta ltima ser la frmula que


emplearemos.

Varianza y Desviacin

La varianza
ser estimada por S2 . La
varianza no tiene las mismas unidades que los
datos, se define la desviacin estndar como la
raz cuadrada (positiva)
=de la2 varianza
a fin de tener una medida en las mismas
unidades de los datos;

La desviacin estndar
es til para
comparar dispersin entre dos poblaciones,
pero tambin lo es para calcular el porcentaje
de la poblacin que pueden localizarse a menos
de una distancia especfica de la media.

VARIANZA
DESVIACIN
POBLACIONAL
n

=
2

(x )
i =1

N
n

(x )
i =1

39

Estimacin de la VARIANZA y
DESVIACIN POBLACIONAL
n

s = =
2

(x x )
i =1

n 1
n

s = =

(x x )
i =1

n 1
40

Estimacin de la VARIANZA y
DESVIACIN POBLACIONAL
Ejemplo: Los salarios por horas de las
muestras de empleados de medio
tiempo de BBB son: 12, 20, 16, 18, 19.
Estimar la varianza y la desviacin
poblacional.
Solucin:
1) Estimar la media con el promedio.

12+20+16+18+19
x=
=17
5

41

Estimacin de la VARIANZA y
DESVIACIN POBLACIONAL
2) Estimar la varianza.
Salario(x)
12
20
16
18
19
85
SUMA

xx

-5
3
-1
1
2
0

( )
xx

25
9
1
1
4
40

( x x)
5

= s =
2

i=1

n 1

40
=
=10
51

42

Estimacin de la VARIANZA y
DESVIACIN POBLACIONAL
2) Estimar la desviacin.

= s = 10
El salario por horas se desva de la
media, en promedio,
unidades de la
10
media de 17 dlares por hora.
43

Mn.

P25

P50

P75

Mx.

0.03

0.04

0.05

Medidas de dispersin

0.02

25%

25% 25%

25%

0.01

Rango intercuartlico

0.00

Rango

150

160

170

180

190

44

Cierta distribucin que veremos


ms adelante (normal o gaussiana)
quedar completamente
determinada por la media y la
desviacin tpica.
A una distancia de una desv. tpica de
la media hay ms de la ms de la
mitad.

50

40

30

20

10
Desv. tp. = 568,43
Media = 2023
N = 407,00

0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.

0
90

0
50

A una distancia de dos desv. tpica de


la media las tendremos casi todas.

Peso recin nacidos en partos gemelares

45

0.01

0.01

0.02

0.02

0.03

0.03

0.04

0.04

0.05

0.05

Regla emprica

xs

x 2s
95 %

0.00

0.00

68.5 %

150

160

170

180

190

150

160

170

180

190

Centrado en la MEDIA y a una DESVIACIN TIPICA de


distancia hay aproximadamente el 68% de las observaciones.
A dos desviaciones tpicas tenemos el 95% (aprox.)

46

Coeficiente de variacin

S
CV =
x
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con
respecto a la media
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
47

Coeficiente de variacin

Es una cantidad adimensional. Interesante para comparar


la variabilidad de diferentes variables.
Si el costo tiene CV=30% y la ganancia tiene CV=10%,
las empresas presentan ms dispersin en el costo que
en ganancia.
No debe usarse cuando la variable presenta valores
negativos o donde el valor 0 sea una cantidad fijada
arbitrariamente
Por ejemplo 0C 0F
48

Graficas de tallo y hojas


Ejemplo: Nmero de espacios publicitarios de 30
segundos en la radio que compr cada uno de los 45
Miembros de GBA. Organizar los datos en diagrama de tallo.
96
139
112
118

93
142
135
136

88
94
132
125

117 127 95 113 96 108 94 148 156


107 125 155 155 103 112 127 117 120
111 125 104 106 139 134 119 97 89
143 120 103 113 124 138

49

Graficas de tallo y hojas


Grafico No 10:

Tall
o
8
9
10
11
12
13
14
15

Nmero de espacios
publicitarios de 30 segundos en la radio que compraron
45 miembros de GBA en el ao 2009.

Hoja
89
6356447
873463
732721983
75705504
9529468
823
655

Tall
o
8
9
10
11
12
13
14
15

Hoja
89
3445667
334678
122337789
00455577
2456899
238
556

50

Graficas de tallo y hojas


Tall
o
8
9
10
11
12
13
14
15

Salida de software R
Hoja
89
3445667
334678
122337789
00455577
2456899
238
556

51

Graficas de tallo y hojas


Ejemplo: Construir un grafico de tallo y hojas.
Data: 1, 3, 2, 5, 2, 2, 0, 1, 3, 1

52

Graficas de tallo y hojas


Ejemplo: Construir un grafico de tallo y hojas.
Data:
18 19 29 12 18 15 16 20 17 11
22 17 13 16 20 8 21 24 15 19
12 10 16 16 12

53

Graficas de tallo y hojas


Ejemplo: Construir un grafico de tallo y hojas.
Data: 46 38 50 35 32 44 41 35 29
39 42 38 39 42 39 4 44 45 38 51
35 62 44 43 37

54

Diagrama de puntos o de
dispersin.
Es una tcnica til para mostrar
relacin entre variables, para
trazar el diagrama se necesitan
dos variables, se escala una
variable sobre el eje X y la otra
sobre el eje Y.
Por lo general una variable
depende de la otra.
55

Diagrama de puntos o de
dispersin.
Tiempo uso
30
58
87
115
120
142
145
33
69
111
156
172
203
203
30
51
75
108
115
139
140
32
62
112
167
179
209
214
30
49
81
125
142
174
177

Grafico No 11: Costo del auto y


tiempo de uso en aos.
200

150

Tiempo.uso

T costo
1 118
1 484
1 664
1 1004
1 1231
1 1372
1 1582
2 118
2 484
2 664
2 1004
2 1231
2 1372
2 1582
3 118
3 484
3 664
3 1004
3 1231
3 1372
3 1582
4 118
4 484
4 664
4 1004
4 1231
4 1372
4 1582
5 118
5 484
5 664
5 1004
5 1231
5 1372
5 1582

100

50

500

1000

1500

Costo

El diagrama muestra relacin positiva


entre las variables. Entre mas costo
del auto mayor tiempo de servicio.

56

Diagrama de puntos o de
dispersin.
Grafico No 12: Errores tipiando
y Horas del da trabajadas.

El diagrama muestra relacin positiva


entre las variables. Entre mas horas
trabajadas mayor el nmero de
errores

57

Correlacin Fuerte

58

Correlacin Dbil

59

Correlacin

60

Correlacin

61

Correlacin

62