Está en la página 1de 8

Medidas de Dispersión o de Variabilidad

Asimetría y Curtosis
Puntajes Típicos
Escalas Derivadas
Rango Percentilar
Baremo

UNIDAD 2
Segunda Parte

La Amplitud (o rango) Intercuartílica/o es la distancia entre los cuartiles tercero y


primero.
Es la diferencia entre el mayor y el menor de los valores observado.
AIQ = 𝑄3 − 𝑄1
𝑅 = 𝑋𝑚Á𝑥 − 𝑋𝑚𝑖𝑛
Tiene ventaja sobre el recorrido porque deja de lado los valores extremos, aquellos que
Representa la distancia entre el mayor y el menor valor observado. Como
involucra el concepto de distancia es para nivel intervalar o proporcional. pertenecen al veinticinco por ciento más bajo o al veinticinco por ciento más alto de la
distribución, por lo que resulta más estable en el muestreo.
La principal desventaja es que es muy sensible a los valores extremos y nada
a los intermedios. También se utiliza la amplitud (o rango) semi-intercuartílica o semi-recorrido
Otro inconveniente es que está ligado al tamaño de la muestra utilizada. Es intercuartilar Es la semi-distancia entre los cuartiles tercero y primero: 𝑆𝑅𝐼𝐶 = (𝑄3 −
probable que las muestras de mayor tamaño presente mayor amplitud aunque las 𝑄1 )/2.
poblaciones de referencia tengan igual variabilidad.
Es indistinto utilizar una u otra, ya que dan información equivalente; dividir por 2 no es
Ejemplos:
relevante pero es tradicional porque así la introdujo Galton.
A: 3,5,5,6,7,8,9 𝑅=6
B: 3,5,5,6,7,8,15 𝑅 =12
C: 3,9,9,9,9,9,15 𝑅 =12

71 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


Es el promedio del cuadrado de las distancias de los valores a la
(𝑥𝑖− 𝑥)ҧ 2
media. Se simboliza con 𝑠𝑋2 . 𝑠𝑋2 = σ𝑛𝑖=1 *
𝑛−1

𝑄1 𝑄2 𝑄3 La razón por la que se divide por 𝑛 −1 es que la expresión


𝑄1 𝑄2 𝑄3 resultante tiene mejores propiedades estadísticas que si se divide por 𝑛.
𝑄3 − 𝑄1
𝑄3 − 𝑄1
La varianza permite comparar la variabilidad de dos o más
conjuntos de valores en una misma variable en un nivel intervalar.
En el esquema de la izquierda la distancia semi-intercuartílica es mayor Notar que σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ = 0 ¿Por qué?
que en el de la derecha lo que se debe al hecho de que hay mayor * Algunos autores la llaman cuasivarianza o peudovarianza.
variabilidad.

Ejemplo
Sean los siguientes conjuntos de puntuaciones 1- La varianza es un valor no negativo.
E: 1,2,5,9,13 𝑥ҧ𝐸 = 6 2- La varianza de una constante (llamémosla k) es cero: V(k) = 0.
F: 4,5,6,7,8 𝑥ҧ𝐹 = 6
3- Si se suma una constante a un conjunto de puntuaciones, la varianza no
Reemplazando en la fórmula 𝑠𝑋2 = σ𝑛𝑖=1(𝑥𝑖− 𝑥)ҧ 2 / (𝑛 −1), la varianza para el conjunto E se modifica. Es decir:
resulta:
Si 𝑦𝑖 = 𝑥𝑖 + 𝑘
100
𝑠𝑥2 = (−5)2 +(−4)2 +(−1)2 +(3)2 +(7)2 /4= = 25 entonces 𝑠𝑌2 = 𝑠𝑋2
4

y para el conjunto F: 4- Si se multiplica por una constante a un conjunto de puntuaciones, la


10 varianza de las nuevas puntuaciones es igual al producto de las originales
𝑠𝑥2 = (−2)2 +(−1)2 +(0)2 +(1)2 +(2)2 / 4 = = 2,5
4 por el cuadrado de la constante. Es decir:
La serie E presenta mayor variabilidad en las puntuaciones que el conjunto F, es
Si 𝑦𝑖 = 𝑘 𝑥𝑖
decir, el conjunto de puntuaciones E es más heterogéneo.
entonces 𝑠𝑌2 = 𝑘 2 𝑠𝑋2

72 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


En el ejemplo anterior, se ve a simple vista que el conjunto E es más variable que el F y 𝑠𝑋
Se define como 𝐶𝑉𝑋 = 100
esto se refleja en la varianza. Sin embargo la diferencia entre los valores 25 y 2,5 parece muy 𝑥ത 
exagerada; no se ve que E sea 10 veces más variable que F. Esa “distorsión” se debe al efecto del
cuadrado, ya que la va varianza está en los cuadrados de las unidades de la variable. Por ejemplo,
Por tanto, expresa la desviación estándar relativa a la media en porcentaje.
si la variable se mide en metros, la varianza se mide en metros al cuadrado. Para corregir esta ▪ Este coeficiente permite comparar la variabilidad de grupos cuando las variables
distorsión y tener una medida de dispersión en las mismas unidades de la variable, a la varianza se están en un nivel proporcional.
le saca la raíz cuadrada y se obtiene la desviación estándar o típica (o desvío típico): 𝑠𝑋 =
σ𝑛𝑖=1(𝑥𝑖− 𝑥)ҧ 2 /(n−1) ▪ Puede considerarse como un índice de representatividad de la media. Cuanto mayor
es el coeficiente de variación menos representativa es la media.
Para el conjunto E la desviación estándar es 25 = 5
Para el conjunto F la desviación estándar es 2,5 ≅ 1,58 ▪ Este coeficiente no tiene significación en un nivel intervalar porque si el cero no es
Estos valores sí parecen dar cuenta de la “separación promedio” con menos distorsión que absoluto, se puede hacer una transformación sumándole a todos los valores de X una
en la varianza. constante. Entonces la media quedaría incrementada en esa constante pero la
Propiedades de la desviación estándar desviación estándar seguiría siendo la misma, con lo que el CV se alteraría y, por
1- Es un valor no negativo tanto, no tendría sentido interpretarlo ya que variaría con las distintas escalas.
2- Si 𝑦𝑖 = 𝑥𝑖 + 𝑘 entonces 𝑠𝑌 = 𝑠𝑋
3- Si 𝑦𝑖 = 𝑘 𝑥𝑖 entonces 𝑠𝑌 = |𝑘| 𝑠𝑋

Por ejemplo: Ejemplo:


Supongamos que se mide la temperatura y se obtienen los datos:
xi : 15, 20 y 25 entonces 𝑥ҧ = 20, sx = 5; por lo que CVX = 25%, es decir, que la Sea X la variable peso, por ser medida sobre cien bebés recién nacidos y sobre
desviación estándar represente una cuarta parte, un 25% de la media. cien adultos. Se dispone de los resúmenes estadísticos para ambos grupos, los cuales
Pero como el cero de esta escala es arbitrario, los mismos tres valores se exhiben a continuación:
podrían haber sido, por ejemplo, 115, 120 y 125 (equivale a haber ubicado el Bebés Adultos
origen de la escala 100 unidades más abajo). En ese caso la media es 120 pero la
desviación estándar es la misma (recordar las propiedades cuando se suma una 𝑥ҧ𝐵 = 3 𝑘𝑔 𝑥𝐴ҧ = 60 𝑘𝑔
constante). Por tanto, el CVX = (5/120)x100 = 4,17%. Vemos que se altera 2 2
𝑠𝑋𝐵 = 0,25 𝑘𝑔2 𝑠𝑥𝐴 = 1𝑘𝑔2
totalmente la relación entre la desviación estándar y la media al hacer un cambio
admisible en la escala intervalar. Entonces no tiene sentido interpretar este 𝑠𝑋𝐵 = 0,5 𝑘𝑔 𝑠𝑋𝐴 = 1𝑘𝑔
coeficiente porque varía con la escala. 0,5 𝑘𝑔 1 𝑘𝑔
𝐶𝑉𝐵 = ∗ 100 ≅ 16,7 % 𝐶𝑉𝐴 = ∗ 100 ≅ 1,6 %
Si, en cambio, los valores corresponden a un nivel proporcional, las únicas 3 𝑘𝑔 60 𝑘𝑔
transformaciones válidas son las que multiplican por una constante. Como la
A pesar que de que la desviación estándar para los bebés es menor que para los
desviación estándar y la media quedan multiplicadas por la misma constante, ésta
se simplifica al hacer el cociente y el CV no se altera. Ésa es la razón por la que adultos (0,5 kg < 1 kg), se observa que la variación del peso de los bebés de 0,5 kg en
este coeficiente solamente tiene sentido en el nivel proporcional, porque es relación a un peso medio de 3kg es mucho más significativa que la variación del peso
invariante ante las distintas transformaciones admisibles en el nivel de razón. de los adultos de 1 kg sobre un peso medio de 60 kg. Esta situación es puesta de
manifiesto por el coeficiente de variación, pues 𝐶𝑉𝐵 > 𝐶𝑉𝐴 ( 16,7% > 1,6%).

73 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


Ejemplo:
Si hubiera que arriesgarse a adivinar qué color eligió cualquiera de los
Para variables cualitativas/cuasi-cuantitativas el concepto de variabilidad está sujetos para representar la palabra paz en la serie de datos siguientes diríamos
vinculado a la noción de concentración-dispersión. blanco, tanto para la serie 1 como para la 2, ya que fue el más elegido, pero
tenemos más certidumbre en la predicción en la serie 1 que en la 2.
La entropía cuantifica el nivel de incertidumbre acerca de la clase a la que
pertenece el dato y se calcula mediante la siguiente expresión:
Color blanco verde amarillo celeste rosa
𝐻 = − ෍ 𝑓′𝑖 ∗ 𝑙𝑜𝑔 𝑓′𝑖 Serie 1: Nro. de sujetos 16 8 5 7 4
Serie 2: Nro. de sujetos 10 8 6 9 7
▪ A mayor entropía, mayor dispersión de los datos y mayor incertidumbre.
▪ La entropía aumenta en la medida en que más equitativamente se distribuyen las ¿Pero qué contestaríamos si la distribución de datos fuera como se muestra a
frecuencias entre las clases y con el número de clases. continuación?

Color blanco verde amarillo celeste rosa


Serie 3: Nro. de sujetos 8 8 8 8 8

CONCLUSIÓN
La entropía va en aumento Hserie 1 < Hserie 2 < Hserie 3 , siendo la serie 3 de El grado de asimetría de una distribución hace referencia al grado en que los
datos la que posee mayor entropía ya que todos los valores se reparten con la misma datos se reparten equilibradamente por encima y por debajo de la tendencia central.
frecuencia. Ejemplo:
Esto puede comprobarse mediante el cálculo de la entropía según la fórmula Las siguientes distribuciones de frecuencias representan las notas de un examen
presentada. fácil (A) medio (B) y difícil (C).
𝑥𝑖 0 1 2 3 4 5 6 7 8 9 10
- f´log f´ f´ - f´log f´ f´ - f´log f´
Color f´ A 1 2 3 6 8 12 16 22 15 10 5
Serie 1 Serie 2 Serie 3
BLANCO 0,400 0,1592 0,250 0,1505 0,2 0,1398 B 2 5 8 10 15 20 15 10 8 5 2
VERDE 0,200 0,1398 0,200 0,1398 0,2 0,1398
C 5 10 15 22 16 12 8 6 3 2 1
AMARILLO 0,125 0,1129 0,150 0,1236 0,2 0,1398 𝑋ത 𝑀𝑑𝑛 𝑀𝑜 𝑋ത 𝑀𝑜 𝑀𝑑𝑛 𝑋ത
CELESTE 0,175 0,1325 0,225 0,1458 0,2 0,1398 𝑀𝑜
ROSA 0,100 0,1000 0,175 0,1325 0,2 0,1398 𝐴 𝐵 𝐶
H = 0,6444 H = 0,6922 H = 0,699

74 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


Es un gráfico útil para visualizar la simetría o tipo de asimetría de la distribución, además
ÍNDICES DE ASIMETRÍA de detectar datos atípicos (outliers). Muestra sobre el eje vertical los valores de la variable y
muestra una “caja” delimitada por los cuartiles primero y tercero. También se muestra la mediana
𝑛
(𝑥𝑖 − 𝑥)ҧ 3 ∗ 𝑓𝑖 (cuartil segundo) y la media. Las líneas que se extienden hacia los valores extremos muestran el
𝐴𝑆 = (𝑥ҧ − 𝑀𝑜 )/𝑠𝑋 𝐴𝑆 = (𝑄3 −𝑄2 ) − (𝑄2 −𝑄1 ) / (𝑄3 −𝑄1 )
𝐴𝑆 = ෍ recorrido de la variable, así como la distribución de las observaciones y su simetría.
𝑖=1
n 𝑆𝑋 3
Este índice sólo se puede Índice de asimetría intercuartílico.
𝑛
calcular en Está comprendido entre -1 y 1 con lo 𝑧𝑖 3
∗ 𝑓𝑖 Max=10
que se facilita su interpretación. 𝐴𝑆 = ෍
distribuciones unimodales 𝑛 8=P95
𝑖=1 25% extremo superior

Índice de asimetría de 5=Q3


Pearson ത
𝑋=3,72 3=Mdn 50% central

A 𝐴𝑆 = -0,5449 25% extremo inferior


Min=0
B 𝐴𝑆 = 0

C 𝐴𝑆 = 0,5449

Concentración de Colesterol en sangre de 30 mujeres

Cumulative
BOX AND WHISKER PLOT
Value Freq Percent Freq Percent
112 1 3.3 1 3.3
121 1 3.3 2 6.7
137 1 3.3 3 10.0
140 1 3.3 4 13.3
159 1 3.3 5 16.7
173 1 3.3 6 20.0
177 1 3.3 7 23.3
Q1 181 1 3.3 8 26.7 A lo sumo 25% tienen menos de 181 y a lo sumo 75%
más de 181. 339
182 1 3.3 9 30.0
189 2 6.7 11 36.7 P25 = 181  1.5 x 68 = 102
190 1 3.3 12 40.0
191 1 3.3 13 43.3
196 1 3.3 14 46.7
197 1 3.3 15 50.0
Mediana:199 La mitad tiene menos de199 y la otra mitad más. Q3=249
201 1 3.3 16 53.3
214 1 3.3 17 56.7 P50 = 199 249-181= 68
223 1 3.3 18 60.0
224 1 3.3 19 63.3 Q2=199
225 1 3.3 20 66.7
228 1 3.3 21 70.0 Q1=181
241 1 3.3 22 73.3
Q3  1.5 x 68 = 102
249 1 3.3 23 76.7 A lo sumo 75% tienen menos de 249 y 25% más.
P75 = 249
257 1 3.3 24 80.0 112
259 1 3.3 25 83.3
261 1 3.3 26 86.7
262 1 3.3 27 90.0
337 1 3.3 28 93.3
339 1 3.3 29 96.7
356 1 3.3 30 100.0
Total 30 100.0

75 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


Expresa el grado de apuntamiento de la curva que representa a la distribución
Las puntuaciones típicas zi ubican la posición de un sujeto i en relación a un
grupo de referencia. Partiendo del puntaje bruto o directo 𝑥𝑖 se puede definir
de frecuencias. Mayor curtosis significa mayor apuntamiento.
𝑥𝑖 = 𝑥𝑖 − 𝑥ҧ la puntuación diferencial.
𝑥𝑖− 𝑥ҧ 4 ∗𝑓𝑖 𝑍𝑖4 ∗𝑓𝑖
𝐶𝑟 = σ𝑛𝑖=1 − 3 = σ𝑛𝑖=1 −3 Indica a cuántas unidades por encima o por debajo de la media se encuentra un
n 𝑠𝑋 4 n
puntaje directo 𝑥𝑖 , sin que tengamos información acerca de la variabilidad de las
observaciones 𝑥𝑖 .
𝐶𝑟 > 0 LEPTOCÚRTICA 𝐶𝑟 = 0 MESOCÚRTICA 𝐶𝑟 < 0 PLATICÚRTICA
A los puntajes brutos x se los puede estandarizar o tipificar a través de la
siguiente transformación, por la que se obtiene la puntuación típica o puntaje
típico z que se define como
𝑥𝑖 −𝑥ҧ
𝑧𝑖 = para una muestra o bien como
𝑠
𝑋

𝑥𝑖 −𝜇
𝑧𝑖 = para una población.
𝜎

▪ La puntuación típica 𝑧𝑖 indica a cuántas desviaciones estándar por encima o por debajo
Comparación entre distintas variables
de la media está el puntaje 𝑥𝑖 ; de este modo se estandariza el alejamiento que tiene
una observación particular con respecto a la media, por lo cual se dice que se ha Ejemplo:
expresado la posición de un sujeto relativa al grupo de pertenencia, en términos de Malena obtuvo 13 puntos en una prueba de razonamiento lógico (RL), 12
desviaciones estándar. Es tomar como unidad de medida la desviación estándar.
puntos en una de razonamiento verbal (RV) y 10 puntos en una de memoria
▪ Sobre la base de las propiedades mencionadas para la media y la varianza de una visual (MV). Se sabe que las medias y desviaciones típicas de los puntajes
variable X en secciones anteriores se puede deducir que la puntuación típica Z tiene de cada prueba son (12,2), (14,2) y (8,1) respectivamente. ¿En qué prueba
media igual a cero y varianza y desviación estándar iguales a uno. tuvo el peor rendimiento relativo?
▪ Las puntuaciones típicas permiten hacer comparaciones, llevando los resultados a una ZRL = (13-12)/2 = 0,5 ZRV ZRL ZMV
escala común. Son útiles en los siguientes casos:
ZRV = (12-14)/2 = -1 ------|----------|-----|---------------|--
- Hacer comparaciones entre unidades de distintos grupos; es decir, comparar Z de -1 0 0,5 2
distintas observaciones de un mismo sujeto o de sujetos diferentes. ZMV = (10-8)/1 = 2
- Hacer comparaciones entre variables medidas en distintas unidades (p.ej. metros y El peor desempeño lo tuvo en razonamiento verbal, pues su puntaje típico es
centímetros) o de diferente naturaleza (como peso y estatura), ya que los puntajes Z son el más alejado por debajo de la media.
adimensionales.

76 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


Existe una equivalencia entre las puntuaciones en las escalas derivadas
Las puntuaciones típicas tienen indudables ventajas pero el
inconveniente de que algunas son negativas y casi todas tienen decimales. Por X 𝑥ҧ -3s 𝑥ҧ -2s 𝑥ҧ - s 𝑥ҧ 𝑥ҧ + s 𝑥ҧ +2s 𝑥ҧ +3s
esta razón se han buscado otras puntuaciones que permitan resolver estas
dificultades. Z -3 -2 -1 0 1 2 3
Algunos puntajes derivados a partir del puntaje Z son: |-----------|-------------|------------|-------------|--------------|--------------|

Puntaje T definido por la transformación afín: T = 50 + 10. Z


T 20 30 40 50 60 70 80
La media es 50 y la desviación típica es 10. La ventaja que ofrece es la de
|-----------|-------------|------------|-------------|--------------|--------------|
trabajar con números no negativos y redondear las cifras decimales.
Puntaje CI (cociente intelectual) con media 100 y desviación típica 15, definido
CI 55 70 85 100 115 130 145
por la transformación afín: CI = 100 + 15. Z
|-----------|-------------|------------|-------------|--------------|--------------|

Es una tabla de valores transformados que permiten ubicar a un sujeto en relación a su


grupo de referencia.
Se presenta una distribución de frecuencias para los
✓ Indica la posición relativa de un sujeto según el porcentaje de las Ejemplo puntajes obtenidos en una prueba psicológica administrada
puntuaciones del grupo de pertenencia que se encuentran debajo de su xi fi Fi F’i
a 310 personas. Con los datos agrupados se construye la
puntuación. ojiva de Galton y a través de interpolaciones se obtienen los
20-29 0 0 0,00 percentiles (y por consiguiente los rangos percentilares)
30-39 10 10 0,03 correspondientes a estas puntuaciones brutas que permiten
✓ Muestra la posición del sujeto en el grupo según el porcentaje de establecer la correspondencia entre percentiles y puntajes
40-49 30 40 0,13
puntuaciones que supera. brutos como se muestra en la tabla.
50-59 50 90 0,29

Ejemplo: un sujeto con rango percentilar 70 es el que obtuvo una 60-69 70 160 0,52

puntuación que supera al 70% de las puntuaciones de sus pares y que es 70-79 90 250 0,81

superado por el 30% de los casos. 80-89 40 290 0,94


90-99 10 300 0,97
✓ Para su obtención es necesario conocer la distribución de la variable. 100-109 5 305 0,98
110-119 5 310 1,00
Total 310

77 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA


Tabla 1 Tabla 2
Con esta información (Tabla 1) Puntaje z
Percentil xi xi
sabemos que si una persona obtuvo 60
10 47,0 puntos tiene un puntaje bajo dado que 20-29 - 2,8
20 54,4 no supera el 30 por ciento del grupo, 30-39 - 2,1
30 60,4 mientras que si alguien obtuvo 77 40-49 - 1,5
40 64,9 puntos tiene un puntaje alto ya que 50-59 - 0,9
supera por lo menos a un 70 por ciento 60-69 - 0,2
50 69,3
de las observaciones. 70-79 0,4
60 72,9
También se pueden asignar a las 80-89 1,1
70 76,3
puntuaciones brutas las puntuaciones 90-99 1,7
80 79,8 típicas correspondientes como se 100-109 2,3
90 87,3 muestra en la Tabla 2. 110-119 3,0

Tanto la Tabla 1 como la Tabla 2 constituyen baremos, ya que posibilitan decidir cómo se
posiciona un sujeto dado con respecto a su grupo de referencia, ya sea a partir de los
percentiles o bien de los puntajes típicos. El baremo provee la transformación de
puntajes absolutos en puntajes relativos.

78 ESTADISTICA I GALIBERT MATERIAL DE CATEDRA

También podría gustarte