Está en la página 1de 55

MEDIDAS DE POSICIN

Un brevsimo resumen sobre


estadsticos
Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.
Media, mediana y moda
Posicin
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Cuartiles, quintiles, deciles y percentiles.
Dispersin
Indican la mayor o menor concentracin de los datos con respecto
a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza,
Estadsticos de posicin
Cuartiles: Dividen a la muestra en 4 grupos homogneos.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75

Quintiles: 4 valores que dividen a una muestra en 5 grupos
homogneos
Quintil 2= Decil 2= Percentil 20

Deciles: 9 valores que dividen a una muestra en 10 grupos
homogneos
Decil 5= mediana= cuartil segundo= percentil 50

Percentil de orden k = cuantil de orden k/100
Percentil 50= mediana= cuartil segundo= decil quinto,
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%



el retraso del crecimiento
intrauterino sucede cuando
la talla al nacer est por
debajo del 3er percentil en
una grfica estndar de
crecimiento.
PERCENTIL o CENTIL
El percentil k, al que simbolizaremos
como P
k
, es el valor numrico de la
variable tal que el k por ciento de los
datos ordenados est por debajo de ese
valor. En consecuencia, el (100-k) por
ciento de los datos est por encima de
P
k
.
Percentil (Datos agrupados)
.
100
n
k Localizacin
Identificacin
1
.
100
i
k i
i
n k
F
P L A
f

| |

|
= +
|
|
|
\ .
Ejemplo 1
En la siguiente distribucin,
calcule el percentil 20 y el
percentil 95.
Intervalo f
i

[50 - 70[ 30
[70 - 90[ 50
[90 - 110[ 65
[110 - 130[ 30
[130 150] 25
Solucin
Intervalo f
i

[50 - 70[ 30
[70 - 90[ 50
[90 - 110[ 65
[110 - 130[ 30
[130 150] 25
F
i

30
80
145
175
200
Percentil 20:
200.20
40
100
= =
Identificacin:
.
100
n k
1
20
.
100
i
i
i
n k
F
P L A
f

| |

|
= +
|
|
|
\ .
Localizacin:
20
P
74 =
40 30
70 .20
50

| |
= +
|
\ .
Solucin
Intervalo f
i

[50 - 70[ 30
[70 - 90[ 50
[90 - 110[ 65
[110 - 130[ 30
[130 150] 25
F
i

30
80
145
175
200
Percentil 95:
200.95
190
100
= =
Identificacin:
.
100
n k
1
95
.
100
i
i
i
n k
F
P L A
f

| |

|
= +
|
|
|
\ .
Localizacin:
95
P
142 =
190 175
130 .20
25

| |
= +
|
\ .
DECIL
Los deciles son los siguientes:
Decil 1 :
1
D
10
P =
Decil 2 :
2
D
20
P =
Decil 3 :
3
D
30
P =

Decil 9 : 9
D
90
P =
CUARTIL
Los cuartiles son los siguientes:
Cuartil 1 :
1
Q
25
P =
Cuartil 2 :
2
Q
50
P =
Cuartil 3 :
3
Q
75
P =
Me =
RANGO INTERCUARTIL
Q
3
Q
1
EJEMPLO
Una empresa ha aplicado un test a los
postulantes al puesto de prevencin de riesgos.
Los resultados se observan en la tabla
Puntaje Cantidad
00 20 5
20 40 15
40 60 40
60 80 30
80 100 10
La empresa calcula el noveno
decil para decidir los que pasan
a una entrevista personal. Qu
puntaje mnimo requieren los
que pasen a la etapa de la
entrevista?
Clculo de los cuartiles
1 Ordenamos los datos de menor a mayor.

2 Buscamos el lugar que ocupa cada cuartil mediante la expresin .
1 Ordenamos los datos de menor a mayor.

2 Buscamos el lugar que ocupa cada cuartil mediante la expresin .
Nmero impar de datos

2, 5, 3, 6, 7, 4, 9

Nmero par de datos

2, 5, 3, 4, 6, 7, 1, 9

Ejemplo
Peso M. Clase Fr. Fr. ac.
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 130 115 3 58
58
8 , 76
11
36 5 , 43
10 70
100 / 75
1
75
=

+ =

+ =

f
F N
c L P
i
i
PROF. ADA PREZ M.
Estudios.aiep@gimail.com
RANGO
INTERCUARTILDIAGRAMA CAJA
Se le pide a Ud. Tcnico En Prevencin un informe de la lluvia cada
registrada en cada estacin meteorolgica de una zona donde se har
una faena para considerar la planificacin de la jornada de trabajo y
precauciones del tiempo.
Cmo damos respuesta a esta peticin?
a) Cul de las 3 estaciones tiene el mayor rango de lluvia cada
en los 12 meses?. Justicar.
b) En general, Qu medidas de dispersin puedes calcular en
un grafo de caja?
c) Cul es el valor aproximado de las medidas de dispersin
en la estacin 2?
d) Aproximadamente cuntos meses llovi menos de 8 mm en
la estacin 1. Justicar.
e) En vista de que la caja de la estacin 1 es simtrica,
Podemos decir que la distribucin de los valores de lluvia
cada en la estacin 1 ser simtrica?. Justiciar.
f ) Estos son los datos de la lluvia cada en la estacin 4:
3 5 9 9 9 10 11 11 11 11 12 15
i. Calcular las medidas de tendencia central y de dispersin a
estos datos.
ii. Dibujar en el grfico la caja correspondiente a la estacin 4.
DIAGRAM DE CAJA Y BIGOTE (BOXPLOT)

El diagrama de caja y bigote es un grafico basado en cuartiles
para representar un conjunto de datos basandose en los
cuartiles Q1 y Q3.
Presenta al mismo tiempo una medida de dispersin, de
tendencia central y de valores extremos
Se debe determinar la mediana, el primero y el tercer cuartil y
los valores mximo y mnimo
Rango Intercuartlico RIC=Q3-Q1
DIAGRAMA DE CAJA Y BIGOTE.
Datos:
105,97,245,163,207,134,218,199,160,196, 221,154,228,
131,180, 178, 157,151,175,201,183,153,174,154,190.


ORDENAMIENTO
97 , 105 , 131 , 134 , 151 , 153 , 154 , 154 , 157 , 160 ,
X1 , X2, X3 , X4, X5 , X6 , X7 , X8 , X9 , X10

163 , 174 , 175 , 178 , 180 , 183 , 190 , 196 , 199 , 201
,
X11 , X12, X13, X14, X15, X16, X17, X18, X19 , X20

207 , 218 , 221 , 228 , 245.
X21 , X22, X23, X24, X25

Q1 6.25 = 7 Q1 = 153
Q2 12.5 = 13 Q2= 175
Q3 18.75 = 19 Q3 = 199
Dato mnimo = 97 Dato Mximo= 245
Calculo de mediana o cuartil 2 o sea el 50% o la mitad(Q2)
Calculo de cuartil 3 o sea el 75%(Q3 )
Calculo de cuartil 1 o sea el 25% o cuarta parte (Q1)
En un aeropuerto se registran los vuelos que arriban en una
semana determinada y los datos se vuelcan en la siguiente
tabla:
Ordene en forma creciente y calcule mediana y cuartiles.
Cuntos vuelos hay el da que hay menos vuelos?
Cuntos vuelos hay el da que hay ms vuelos?
Represente mediante un diagrama de caja y bigotes.
Da Lunes Martes Mircoles Jueves Viernes Sbado Domingo
Vuelos 25 37 45 50 32 40 30
Diagrama de Pareto
Se ordenan la frecuencias en orden descendente
La escala horizontal no es necesariamente numrica
La lnea indica los porcentajes acumulados
tiles en anlisis de datos de defectos en procesos
de produccin
Muy usada en los programas de mejoramiento de
calidad pues permite a los ingenieros concentrarse
en los problemas realmente importantes
Ejemplo, Proceso de fabricacin de un
puerta de automvil
Tipo de Defecto Cant
Mancha 21
Rayn 35
Defecto en
manija
17
Floja 29
Abollada 3
Defecto en vidrio 5
TOTAL 110
Tipo de Defecto Cant
Rayn 35
Floja 29
Mancha 21
Defecto en manija 17
Otros 8
TOTAL 110
%
32
26
19
16
7
100
Diagrama de Pareto
Ejemplo: Resistencia a la tensin de 80 muestras de
aleacin Aluminio-Litio
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 1 5 2
11 0 5 8 3
12 0 1 3 3
13 1 3 3 4 5 5 6
14 1 2 3 5 8 6 9 9 8
15 0 0 1 3 4 4 6 7 8 8 8 8 12
16 0 0 0 3 3 5 7 7 8 9 10
17 0 1 1 2 4 4 5 6 6 8 10
18 0 0 1 1 3 4 6 7
19 0 3 4 6 9 9 6
20 0 1 7 8 4
21 8 1
22 1 8 9 3
23 7 1
24 5 1
Serie de tiempo
0
50
100
150
200
250
300
5
1
0
1
5
2
0
2
5
3
0
3
5
4
0
4
5
5
0
5
5
6
0
6
5
7
0
7
5
8
0
Resist a la tensin
- Partes del Boxplot

El nombre original del grfico introducido por Jhon Tukey en 1977 es Box and
whisker plot, es decir, diagrama de caja y bigote. En efecto, el grfico consiste en
un rectngulo (caja) de cuyos lados superior e inferior se derivan
respectivamente, dos segmentos: uno hacia arriba y uno hacia abajo (bigotes).

La caja y los bigotes estn ubicados paralelos a un eje rotulado, que en este
caso est en la escala del 1 al 5 e indica el puntaje obtenido en una pregunta
segn la opinin de los estudiantes que llenaron el instrumento de opinin.

Las partes del Boxplot se identifican como sigue:
- Qu es y qu medidas se usan en su construccin?

Es un grfico representativo de las distribuciones de un conjunto de datos en cuya construccin se usan cinco
medidas descriptivas de los mismos, a saber: mediana, primer cuartil, tercer cuartil, valor mximo y valor
mnimo.

ndice
- Qu informacin muestra?

Esta presentacin visual, asocia las cinco medidas que suelen trabajarse de
forma individual. Presenta al mismo tiempo, informacin sobre la tendencia
central, dispersin y simetra de los datos de estudio. Adems, permite
identificar con claridad y de forma individual, observaciones que se alejan de
manera poco usual del resto de los datos. A estas observaciones se les conoce
como valores atpicos.

Por su facilidad de construccin e interpretacin, permite tambin comparar a
la vez varios grupos de datos sin perder informacin ni saturarse de ella. Esto
ha sido particularmente importante a la hora de escoger esta representacin
para mostrar la opinin de los estudiantes respecto a la actuacin docente a
travs de las diversas preguntas del instrumento utilizado.
1.-Lmite superior: Es el extremo superior del bigote. Las opiniones por encima
de este lmite se consideran atpicas. Para ms detalles consulte sobre la
construccin de los lmites y los valores atpicos.

2.-Tercer cuartil (Q
3
): Por debajo de este valor se encentran como mximo el
75% de las opiniones de los estudiantes.

3.-Mediana: Coincide con el segundo cuartil. Divide a la distribucin en dos partes
iguales. De este modo, 50% de las observaciones estn por debajo de la mediana
y 50% est por encima.

4.-Primer cuartil (Q
1
): Por debajo de este valor se encuentra como mximo el
25% de las opiniones de los estudiantes

5.-Lmite inferior: Es el extremo inferior del bigote. Las opiniones por debajo de
este valor se consideran atpicas. Para ms detalles consulte sobre la
construccin de los lmites y los valores atpicos.

6.-Valores atpicos: Opiniones que estn apartadas del cuerpo principal de datos.
Pueden representar efectos de causas extraas, opiniones extremas o en el caso
de la tabulacin manual, errores de medicin o registro.
Se colocan en la grfica con asteriscos (*) o puntos (.) segn se alejan menos o
ms del conjunto de datos. Se utiliza un superndice numrico para indicar el
nmero de veces que aparece ese dato como atpico. NOTA: Esta presentacin en
lnea del Boxplot est en primera versin y aun en proceso de mejora. Se sealan los
datos atpicos con una circunferencia (o) en el caso de ser nica la observacin. En
caso contrario, usted slo ver un tringulo ( ). Si esto sucede, debe remitirse al
reporte numrico para verificar la cantidad de observaciones atpicas por pregunta.

7.-Media aritmtica: Es lo que tradicionalmente se conoce como promedio.
Originalmente no forma parte del boxplot, sin embargo, se consider su inclusin
para dar una idea del puntaje general obtenido por pregunta. Actualmente se
trabaja en la elaboracin de estadsticos ms representativos que la media
aritmtica para describir el conjunto de datos.

- Cmo se interpreta?

Tenga en cuenta las siguientes consideraciones a la hora de interpretar el
boxplot:

.-Mientras ms larga la caja y los bigotes, ms dispersa es la distribucin
de datos.

.-La distancia entre las cinco medidas descritas en el boxplot (sin incluir
la media aritmtica) puede variar, sin embargo, recuerde que la cantidad de
elementos entre una y otra es aproximadamente la misma. Entre el lmite
inferior y Q
1
hay igual cantidad de opiniones que de Q
1
a la mediana, de sta
a Q
3
y de Q
3
al lmite superior. Se considera aproximado porque pudiera
haber valores atpicos, en cuyo caso la cantidad de elementos se ve
levemente modificada.

.-La lnea que representa la mediana indica la simetra. Si est
relativamente en el centro de la caja la distribucin es simtrica. Si por el
contrario se acerca al primer o tercer cuartil, la distribucin pudiera ser
sesgada a la derecha (asimtrica positiva) o sesgada a la izquierda
(asimtrica negativa respectivamente. Esto suele suceder cuando las
opiniones de los estudiantes tienden a concentrase ms hacia un punto de la
escala.

.-La mediana puede inclusive coincidir con los cuartiles o con los lmites
de los bigotes. Esto sucede cuando se concentran muchos datos en un
mismo punto, en este caso, cuando muchos estudiantes opinan igual en
determinada pregunta. Pudiera ser este un caso particular de una distribucin
sesgada o el caso de una distribucin muy homognea.

.-Las opiniones emitidas como No aplica (N/A) cuando en realidad s
aplica o las opiniones nulas (cuando el estudiante no opina en una pregunta),
no son tomadas en cuenta para elaborar el boxplot de esa pregunta. Por esta
razn encontrar que en ocasiones no hay igual nmero de opiniones para
todas las preguntas.

.-Debe estar atento al nmero de estudiantes que opina en cada
pregunta. Lo que pareciera ser dispersin en los resultados, en ocasiones
podra deberse a un tamao de muestra muy pequeo: pocos estudiantes
opinaron. Debe ser cauteloso a la hora de interpretar. En estos casos se
sugiere remitirse al reporte numrico.

.-En trminos comparativos, procure identificar aquellas preguntas cuyos
boxplot parecen diferir del resto. Pudiera con esto encontrar fortalezas o
debilidades en su actuacin segn la opinin de los estudiantes.
Las medidas de dispersin indican el grado de representatividad de las
medidas de tendencia central. Miden el grado de dispersin/ concentracin de
los datos en torno a las medidas de tendencia central

Existen dos tipos de medidas de dispersin: ABSOLUTAS Y RELATIVAS




ABSOLUTAS
Mediana Rango
Rango intercuartlico
Rango entre percentiles
Media Desviacin media
Varianza
Desviacin tpica

RELATIVAS
Mediana Coeficiente variacin intercuartlica
Media Coeficiente variacin de Pearson

Amplitud o Rango:
Diferencia entre observaciones extremas.
1, 2, 3,4,4,8. El rango es 8-1=7
Es muy sensible a los valores extremos.

Rango entre percentiles (interquartile range):
Es la distancia entre percentil 90 y percentil 10.
Rango entre percentiles = P
90
P
10

Parecida al rango, pero eliminando las
observaciones ms extremas inferiores y
superiores.
No es tan sensible a valores extremos
Rango intercuartlico:
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = Q
3
- Q
1

Parecida al rango, pero eliminando las
observaciones ms extremas inferiores y
superiores.
Es el menos sensible a valores extremos.

150 160 170 180 190
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
0
.
0
5
150 160 170 180 190
25% 25% 25% 25%
Mn. P
25
P
50
P
75
Mx.
Rango intercuartlico
Rango
Dispersin absoluta: mediana
Varianza S2 :
Mide el promedio de las desviaciones (al cuadrado) de las observaciones con
respecto a la media.

Es sensible a valores extremos (alejados de la media).

Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un
principiante.

Desviacin media:
Mide el promedio de las desviaciones (absolutas) de las observaciones con respecto
a la media.

Es la menos sensible a valores extremos (alejados de la media).

Viene expresada en las mismas unidades de la variable.
Desviacin tpica
Es la raz cuadrada de la varianza

Tiene las misma dimensionalidad (unidades) que la variable. Es sensible a valores
extremos (alejados de la media).

Dispersin absoluta: media
Dispersin relativa: mediana
100 *
1 3
me
Q Q
Vq

=
Es la razn entre el rango intercuartlico y la mediana.
Mide el rango intercuartlico en forma dequ tamao tiene con respecto a la
mediana

Es frecuente mostrarla en porcentajes
Si la mediana es 80 y el rango intercuartlico es de 5 entonces
Vq=5/80*100=6,25%

Es una cantidad adimensional (independiente de las unidades de medida).
Interesante para comparar la variabilidad de diferentes variables.
Si el peso tiene Vq=6,25% y la edad tiene Vq=10%, los individuos presentan
ms dispersin en edad que en peso.
Coeficiente de variacin de PEARSON

Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de
qu tamao tiene con respecto a la media

Tambin se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional (independiente de las unidades de medida).
Interesante para comparar la variabilidad de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms
dispersin en peso que en altura.

No debe usarse cuando para variables cuyo nivel de medicin es por intervalos, es
decir,la variable cuenta con un valor 0 fijado arbitrariamente.

Por ejemplo 0C 0F

Si la variable presenta valores negativos, al calcular el coeficiente de variacin de
pearson los habr que considerar como positivos
Dispersin relativa: media
VARIABLES NORMALIZADAS O UNIDADES TIPIFICADAS
Normal.............. |z| < 1
Anormal............ 1 < |z| < 2
Muy anormal...... |z| >=2

Variables normalizadas: nmero de unidades de desviacin tpica que
un individuo queda por encima o por debajo de la media del grupo.
Son unidades independientes de las unidades originales de medida
con lo cual facilitan enormemente la comparacin. til para comparar
un individuo respecto a los datos poblacionales a los que pertenece.
Las unidades Z se calculan: Z= x -
S
VARIABLES NORMALIZADAS O UNIDADES
TIPIFICADAS

x