Está en la página 1de 63

DATOS AGRUPADOS

Regularmente se calculan las medidas de tendencia


central, dispersión y de posición utilizando la totalidad de
los datos, más ahora que se cuenta con programas
estadísticos para analizar cualquier cantidad de
observaciones por variable. Sin embargo, es posible utilizar
agrupación cuando el número de datos es mayor que 20.
La elección de realizar o no un análisis descriptivo
utilizando datos agrupados está en función del interés y
finalidad, y no necesariamente, de la cuantía de
observaciones que se tienen sobre las variables de estudio.

DATOS AGRUPADOS
Resulta de interés el uso de datos agrupados cuando la
finalidad es:
• Configurar la forma de la distribución de los datos. Es común
determinar si los datos siguen una distribución normal.
• Analizar el comportamiento de la variable en determinados
rangos de valores mediante una distribución de frecuencias.
La caracterización de los árboles de un rodal en clases
diamétricas es de uso extendido en el ámbito forestal. En
ciertos casos se recoge información ubicando las respuestas
en rangos en lugar de utilizar valores exactos.
• Facilitar la comparación e interpretación. Estructurar una
tabla de frecuencias a partir de un conjunto de datos
constituye un proceso de reducción.

DATOS AGRUPADOS
El cálculo de estadísticos descriptivos a partir de datos
agrupados, requiere el uso de puntos medios de clase para
aproximar los valores de los datos de cada clase. Por tanto, los
resultados que se obtienen a través de la técnica de datos
agrupados son estadísticos aproximados. El procedimiento
consiste en elaborar una distribución de frecuencias, calculando
el rango, el número de clases y el intervalo de clases. Una tabla
de distribución de frecuencias se define como una agrupación
de datos en clases mutuamente excluyentes, que muestra el
número de observaciones que hay en cada clase y su
proporción o peso porcentual respecto al total de
observaciones.

DATOS AGRUPADOS
Un institución que informa sobre la utilización de
tecnología en el hogar, obtuvo los siguientes datos sobre el
tiempo de uso de computadora expresado en horas por
semana, en una muestra de 50 personas.

4.1 1.5 10.4 5.9 3.4 5.7 1.6 6.1 3.0 3.7
3.1 4.8 2.0 14.8 5.4 4.2 3.9 4.1 11.1 3.5
4.1 4.1 8.8 5.6 4.3 3.3 7.1 10.3 6.2 7.6
10.8 2.8 9.5 12.9 12.1 0.7 4.0 9.2 4.4 5.7
7.2 6.1 5.7 5.9 4.7 3.9 3.7 3.1 6.1 3.1

DATOS AGRUPADOS
Con los datos anteriores se debe realizar lo siguiente:
a) Elaborar una tabla de frecuencias
b) Calcular la media aritmética y la moda.
c) Determinar la desviación estándar y el coeficiente de variación.
d) Calcular la mediana, el P95 y el rango intercuartil.
e) Graficar el polígono de frecuencias y la ojiva de frecuencias.
f) Graficar un histograma y la curva de distribución normal estandarizada.
g) Responder las siguientes preguntas:
¿Qué porcentaje de personas utiliza la computadora al menos 9 horas?
¿Qué porcentaje utiliza la computadora entre 2 y 6 horas inclusive?
h) Clasifique el tipo de distribución con base a los coeficiente de asimetría
y curtosis e interprete.
CLASES Absoluta A. Acum Relativa R. Acum
M
LI LS f F fr FR %datos

M ×f M- (M-)2 (M-)2 *f (M-)3 *f (M-)4 *f



DATOS AGRUPADOS
Cálculo del rango (R):
R  DM  dm  14.8  0.7  14.1

Número de clases (k):


k  1  log 2 n Regla de Sturges k  1  3.322  log n
k n Utilizada en Excel (para n<100)
ln n Criterio del mínimo número de clases
k  2k  n
ln 2 (Lind & Marchal, 2012)
k  log 2  n  1 Utilizada en InfoStat (similar a la anterior)
De los modelos disponibles, se opta por utilizar el de Lind & Marchal:
ln n ln 50
k   5.64  6 Aproximar a unk número entero
ln 2 ln 2 siempre que 2 >n. En este caso
25<50. Por ello, k=6, 26>50
Intervalo de clase (I):
R 14.1 La aproximación dependerá de que se cubra el
I   2.35
k 6 rango (2.35*6=14.1)

DATOS AGRUPADOS
Cálculo límites de clases: Cálculo marca de clase (M)
LI1ra clase  dm  0.7 LI  LS 0.7  3.05
M 1ra clase    1.88
LS1ra clase  LI  I  0.7  2.35  3.05 2 2
LI  LS 3.05  5.40
1ra clase  0.7  3.05  M 2 da clase    4.23
2 2
LI 2 da clase  LSclase anterior  3.05

LS2 da clase  LI  I  3.05  2.35  5.4

2da clase  3.05  5.40 


Y así sucesivamente.

Frecuencias absolutas de clase


Por conteo se determina cuántas observaciones quedan dentro de los límites definidos para cada una
de las clases. Aunque en la tabla no se indique expresamente y con intención de corregir la aparente
ambigüedad de que el límite superior de una clase sea igual el límite inferior de la siguiente, debe
entenderse que, que el límite superior de las clases a excepción de la última, es abierto. Por ello,
cualquier dato de la serie que sea igual al límite superior debe colocarse en la siguiente clase.

DATOS AGRUPADOS
CÁLCULO DE FRECUENCIAS ACUMULADAS Y RELATIVAS PARA LAS
PRIMERAS TRES CLASES

Primera clase Segunda clase Tercera clase


f 6 f  21 f  13
F 6 F  6  21  27 F  27  13  40
6 21 13
fr   100  12% fr  100  42% fr   100  26%
50 50 50
Fr  12% Fr  12  42  54% Fr  54  26  80%

Donde f es la frecuencia absoluta, F la frecuencia absoluta acumulada, fr la frecuencia


relativa y FR la frecuencia relativa acumulada.
La tabla de frecuencias concluye con las frecuencias relativas acumuladas, no
obstante, es necesario agregar otras columnas para el cálculo de los estadísticos
requeridos. La tabla de frecuencias aumentada presentada parcialmente a
continuación, responde al objetivo de calcular coeficientes de asimetría y
curtosis.

DATOS AGRUPADOS
CLASES Absoluta A. Acum Relativa R. Acum
M M ×f
LI LS f F fr FR M-  (M-)2 (M-) 2*f
0.70 3.05 1.88 6.00 6.00 12.00 12.00 11.25 -4.09 16.72 100.32
3.05 5.40 4.23 20.00 26.00 40.00 52.00 84.50 -1.74 3.02 60.48
5.40 7.75 6.58 14.00 40.00 28.00 80.00 92.05 0.61 0.37 5.23
7.75 10.10 8.93 3.00 43.00 6.00 86.00 26.78 2.96 8.77 26.30
10.10 12.45 11.28 5.00 48.00 10.00 96.00 56.38 5.31 28.21 141.03
12.45 14.80 13.63 2.00 50.00 4.00 100.00 27.25 7.66 58.69 117.38
50.00 100.00 298.20 10.72 115.78 450.75

Identificación de clases
La clase mediana es la de menor frecuencia absoluta acumulada que contiene a
n/2 (25 datos) y la clase modal es la que tiene mayor frecuencia absoluta. Por lo
tanto, la segunda clase, es tanto la clase mediana como la modal.

Cálculo de la media aritmética

x
  M  f   298.20  5.96 horas
n 50
Me Mo s2 P95 Q HIST DistN

DATOS AGRUPADOS
Cálculo de la mediana (Me):
 nF  xn 50n n
 
2 am  100 100 2
Me  Li  I  
 fm 
Donde:
n= número de datos
Fam=Frecuencia absoluta acumulada de la clase anterior a la clase mediana.
fm= frecuencia absoluta de la clase de la clase mediana
Li=límite inferior de la clase mediana
I= intervalo de la clase mediana

 50  6 
 
Me  3.05  2.35  2   5.28 horas
 20 

Me

DATOS AGRUPADOS
Cálculo de la moda (Mo):
 f ma 
Mo  Li  I  
  f ma   f mp 
Donde:
fma= diferencia positiva entre la frecuencia absoluta de la clase
modal y la anterior
fmp= diferencia positiva entre la frecuencia absoluta de la clase
modal y la posterior
Li=límite inferior de la clase modal
I= intervalo de la clase modal

Mo  3.05  2.35 
14 
  4.7 horas
 14  6 

Mo

DATOS AGRUPADOS
CÁLCULO DE LA VARIANZA (S2):

SIN AGRUPAR AGRUPADOS


n k

  xi  x    M i  x  fi 

2 2

s2  i 1
s2  i 1
n 1 n 1
k k

M f
n 2
f x 2
 i nx
x 2 2
i i i

s 
2 i 1 s2  i 1 i 1

n 1 n 1
2   k
 
2
 n

  xi  1 
 k  
 i 1
M i fi  
 

n
 i 1  s2  2

 x 2
 n  1  i 1
M i if k 

i
n  fi 
s 
2 i 1
n 1  i 1


DATOS AGRUPADOS
Cálculo de la varianza y desviación estándar (s):

    f  450.75
2
 M  x
s 
2
  9.20 h 2
n 1 49

s  s 2  9.25  3.03 horas

Cálculo del coeficiente de variación (CV):


s 3.03
CV   100   100  50.84%
x 5.96

s2

DATOS AGRUPADOS
CÁLCULO DE MEDIDAS DE POSICIÓN (CUANTILES)
 xn  F 
 100 ac 
Cx  Li  I  
 fc 
Donde:
Cx= cuantil de orden x.
x= Orden del cuantil
n= número de datos
Fac=Frecuencia acumulada de la clase anterior a la clase Cx.
fc= frecuencia absoluta de la clase Cx
Li=límite inferior de la clase Cx
Ic= intervalo de la clase Cx

La clase Cx es la de menor frecuencia absoluta


acumulada que contiene a xn/100

DATOS AGRUPADOS
Cálculo del percentil 95 (P95)

 xn  F 
 100 ac 
C x  Li  I  
 fc 

xn 95  50
  47.5
p 100

La clase P95 es la quinta


47.5  43 
P95  10.10  2.35  
 5 
P95  12.22 h

P95

DATOS AGRUPADOS
Cálculo del rango intercuartil (RIQ):  xn  F 
 100 ac 
RIQ  Q3  Q1 C x  Li  I  
 fc 

Primer cuartil (Q1=P25) Tercer cuartil (Q3=P75)

xn 25  50 xn 75  50
  12.5   37.5
100 100 100 100

La clase Q1 es la segunda La clase Q3 es la tercera

Q1  3.05  2.35 
12.5  6 
 20 
 Q3  5.4  2.35  37.5  26
14 
Q1  3.81 h Q3  7.330 h

RIQ  7.330  3.81  3.52 h


Q

DATOS AGRUPADOS
HISTOGRAMA Y POLÍGONO DE FRECUENCIAS
El histograma es la gráfica de un conjunto de datos compuesta por una
serie de rectángulos, cada uno con un ancho proporcional al rango de
los valores de cada clase y altura proporcional a la frecuencia absoluta
o frecuencia relativa de cada clase. La frecuencia relativa puede ser
en porcentaje o en forma decimal (densidad). Se utiliza para
representar gráficamente la distribución de variables cuantitativas
continuas con agrupamiento de datos.
El polígono de frecuencias es la línea que une los puntos medios
(marca de clase) de cada clase de un conjunto de datos, trazada a la
altura correspondiente a la frecuencia de los datos. El propósito del
polígono de frecuencias es simular la función de densidad de la
distribución de datos.

DATOS AGRUPADOS
HISTOGRAMA Y POLÍGONO DE FRECUENCIAS

Histograma y poligono de frecuencias Histograma de Horas


22 45

20 40
18
35
16
Frecuencia absoluta

30
14

Porcentaje
12 25

10 20

8
15
6
10
4
2 5

0
0.70 3.05 5.40 7.75 10.10 12.45 14.81 0.70 3.05 5.40 7.75 10.10 12.45 14.80
Horas Horas

El histograma muestra la distribución del tiempo de uso por


semana del ordenador. El polígono de frecuencias simula la
función de densidad de la distribución de datos.

Hist

DATOS AGRUPADOS
OJIVA DE FRECUENCIAS (OJIVA DE GALTON)
La ojiva es la gráfica de una distribución de frecuencias acumuladas, ya sea absoluta
o relativa. Se traza uniendo los límites de cada clase del conjunto de datos. Una ojiva
permite observar porcentaje de los datos que está por debajo o por arriba de ciertos
valores, en lugar de hacer un mero registro del número de elementos que hay en
cada intervalo. El propósito de la ojiva de frecuencias es simular la función de
distribución empírica (función de densidad acumulada) del conjunto de
observaciones.
Ojiva de frecuencias
100
100 96
La frecuencia relativa
86
Frecuencia relativa acumulada (%)

80 acumulada puede ser en


80
porcentaje o en forma
60
decimal (probabilidad)
52

40

20
12

0
0.70 3.05 5.40 7.75 10.10 12.45 14.81
Horas

DATOS AGRUPADOS
Lo deseable es que los datos describan una distribución
aproximadamente normal, configurando una curva en forma de
campana. Por ejemplo, en una distribución normal simétrica, a
una desviación estándar tanto hacia la izquierda como a la
derecha deben concentrarse aproximadamente el 68.3% de los
datos, a 2 desviaciones estándar el 95.4% y a 3 el 99.7%

 1 68.26894% de los datos


 2 95.44997% de los datos
 3 99.73002% de los datos
 4 99.99367% de los datos

DATOS AGRUPADOS
El número de desviaciones estándar a la que se encuentra ubicado un dato a
partir de la media se puede determinar restándole al dato la media y luego
dividirlo por la desviación estándar. A ese número de desviaciones estándar se
le llama valor z y se obtiene a través de la siguiente fórmula:
xi   xi  x
zi  zi 
 s
La función de densidad normal para cualquier serie de datos con media  y
desviación estándar  se puede construir graficando la siguiente función:
2
 x   0.5 z 2
1  12   0.4 e
f  x  e   
f  z 
 2 

Ahora bien, para graficar la función de densidad normal estándar, con media
cero (µ=0) y desviación estándar uno (=1), se utiliza la siguiente función
simplificada:

f  z   0.4 e  0.5 z 2
N 0,1 
 

DATOS AGRUPADOS
GRAFICANDO LA FUNCIÓN DE DENSIDAD NORMAL
En el caso de datos sin agrupar, la curva normal se obtiene utilizando la
función de densidad. Para sobreponer la curva normal estandarizada a
un histograma (datos agrupados), se le agrega a la función de densidad
el intervalo de clase (I). Para ello se emplean las frecuencias relativas,
los límites inferiores de clase, el límite superior de la última clase, las
marcas de clases y el valor de la media aritmética. Se calculan los
valores z, luego f(z), finalmente se grafican los puntos [x,f(z)] y unen los
puntos formando la curva (campana de Gauss).
 0.5 z 2
xi  x 0.4 I e
zi  f  z 
s s
Para calcular puntos adicionales simétricos se utiliza:
xi s    zi   s  x

DATOS AGRUPADOS
Para el tiempo del uso de la computadora se tiene:
xi  x 0.7  5.96
zi    1.74 xi zi f (z i )
s 3.03
0.70 -1.74 0.07
2
0.4 I e  0.5 z 1.88 -1.35 0.13
f  z  3.05 -0.96 0.20
s
4.23 -0.57 0.26
 
2
 0.5  1.74 
0.4 2.35 e
f  z   0.07 5.40 -0.18 0.30
3.03 6.58 0.20 0.30
7.75 0.59 0.26
Punto :  0.7, 0.07 
8.93 0.98 0.19
10.10 1.37 0.12
xi s    zi   s  x 11.28 1.76 0.07
xi s  1.74  3.03  5.96 12.45 2.14 0.03
13.63 2.53 0.01
xi s  11.23
14.80 2.92 0.00
Punto :  11.23, 0.07  5.96 0.00 0.31

DATOS AGRUPADOS
Al graficar los puntos se configura la curva de la función de densidad
normal. Luego se procede a unir los puntos a mano alzada y graficar el
histograma

0.35

0.30

0.25 fr
12.00
0.20 40.00
28.00
0.15
6.00
0.10 10.00
4.00
0.05

0.00
-1.65 0.70 3.05 5.40 7.75 10.10 12.45 14.80

DATOS AGRUPADOS
Un histograma permite tener una idea de la forma de la distribución de
datos. En el caso del tiempo de uso de la computadora, la curva descrita
evidencia cierto grado de sesgo positivo (formación de una cola hacia la
derecha del gráfico). Si los datos tiende a agruparse en las primeras clases,
se dice que la distribución tiene un sesgo positivo. Si los datos tienden a
agruparse en las últimas clases de la distribución de frecuencias, se dice que
esta tiene sesgo negativo.
Histograma y ajuste normal
Media 5.706
40
Desv.Est. 3.128

35
N 50 Se observa sesgo positivo
de la distribución de datos
Frecuencia relativa (%)

30

25

20

15

10

0
-1.65 0.70 3.05 5.40 7.75 10.10 12.45 14.80
Horas

DATOS AGRUPADOS

Histograma y área (procentaje de datos)


fr 40%
fru  40
I
35
12
fru 
Frecuencia relativa (%)

2.35 30 28%
5.11% 25
fru 
h
20

15
fr 12%
fru  10
10%
I
6%
4 5 4%
fru  5.11% 11.91%
2.35 17.02% 2.55% 4.26% 1.70%
0
0.70 3.05 5.40 7.75 10.10 12.45 14.80
1.70%
fru  Horas
h
%datos Histo

DATOS AGRUPADOS
HISTOGRAMA Y AREA (PORCENTAJE DE DATOS)
La suma del área de las barras es igual a la unidad, que expresada en
porcentaje representa el 100% de los datos. Así, la frecuencia relativa de
cada barra es el porcentaje de datos que queda incluido en cada una. Por
ejemplo, para aproximar el porcentaje de personas que utiliza la
computadora al menos 9 horas se procede de la siguiente manera:
10.10h  9.0h  1.10h
2.55%
1.10h   2.81%
h
4%  10%  2.81%  16.81%

Ahora para aproximar el porcentaje de personas que la utiliza la


computadora entre 2 y 6 horas inclusive.
3.05h  2.0h  1.05h 6.0h  5.4h  0.6h 40%  5.37%  7.15%  52.52%

5.11% 11.91%
1.05h   5.37% 0.6h   7.15%
h h
Histo

DATOS AGRUPADOS
HISTOGRAMA Y AREA (PORCENTAJE DE DATOS)
x x

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

52.52%
16.81%

MEDIDAS DE FORMA
Adicionalmente a los histogramas para observar la forma de
distribución de los datos, también es posible estudiarla empleando
métodos numéricos. Las medidas de forma son valores que proveen
información del aspecto de la distribución de datos. Estas medidas
se conocen como SESGO y CURTOSIS. Una se refiere a la forma de
la dispersión de los datos y la otra a la forma de la concentración
de los mismos, respectivamente.
 Medidas de asimetría
Coeficiente de asimetría de Fisher
Coeficiente de asimetría de Yule-Bowley
Coeficiente de asimetría de Pearson
 Medidas de curtosis
Coeficientes de curtosis de Fisher
Coeficiente de curtosis de Pearson
Coeficiente de curtosis de Moors

MEDIDAS DE FORMA: SESGO

Se dice que una distribución en simétrica si se puede doblar a lo largo de


un eje vertical central, de manera que ambos lados coincidan. Una
distribución normal tiene la mayor concentración de datos en la región
central. Así mismo, la media, moda y mediana son iguales. Cuando no
ocurre esa situación se dice que la distribución está sesgada. En ese
sentido, puede que exista asimetría positiva o negativa. Cuando la media
es mayor que la mediana el sesgo se da a la derecha (asimetría positiva)
porque se hace una cola hacia esa dirección. Cuando la media es menor
que la mediana, entonces el sesgo se da a la izquierda (asimetría negativa)
y la cola es larga en esa dirección. La asimetría positiva indica que los
valores más extremos son mayores que la media. La asimetría negativa
indica que los valores más extremos son menores que la media. Los índices
de asimetría de Fisher próximos a cero indican simetría.

MEDIDAS DE FORMA: SESGO

Tal y como se ha mencionado, la dispersión de los datos se presenta


en tres formas. Cada una define y precisa la forma de cómo están
distribuidos los datos respecto al eje de simetría (la mediana).
1. Asimetría positiva. Cuando la cola más dispersa se extiende sobre
el lado de los valores más altos de la variable con escasa
frecuencia.
2. Simétrica, si la dispersión es igual o similar en ambos lados de
distribución de frecuencias respecto a eje de simetría. Una
distribución normal simétrica es una distribución con colas
ligueras.
3. Asimetría negativa. En el caso que la cola más dispersa se extiende
sobre el lado de los valores más pequeños y con escasa frecuencia.

MEDIDAS DE FORMA: SESGO
ASIMETRÍA POSITIVA DISTRIBUCIÓN SIMÉTRICA ASIMETRÍA NEGATIVA
A>0 A=0 A<0
22 18
20
20 16
18
18
14 16
16
12 14
14
12
12 10

10
10 8
8
8
6
6
6
4
4
4
2 2
2

0 0
3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48

Mo Me Media Mo Media Me Mo
Me
Media
Media>Me>Mo Mo=Me=Media Media<Me<Mo
50 50 50

45 45 45

40 40 40

35 35 35

30 30 30 
25 25
 25

20
 20 20

15 15 15

10 10 10

5 5 5

0 0 0

MEDIDAS DE FORMA: SESGO
ASIMETRÍA POSITIVA DISTRIBUCIÓN SIMÉTRICA ASIMETRÍA NEGATIVA
A>0 A=0 A<0
22 18
20
20 16
18
18
14 16
16
12 14
14
12
12 10

10
10 8
8
8
6
6
6
4
4
4
2 2
2

0 0
3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48

Mo Me Media Mo Media Me Mo
Me
Media
Media>Me>Mo Mo=Me=Media Media<Me<Mo

Distribución Media Mediana Moda Q1 Q3 IQR Asimetría


Asimétrica: sesgo positivo 18.39 18 8 8 24.25 16.25 0.83
simétrica 25.5 25.5 25.5 18 33 15 0
Asimétrica: sesgo negativo 32.61 33 43 26.75 43 16.25 -0.83

MEDIDAS DE FORMA: SESGO
COEFICIENTES DE ASIMETRÍA (A)

PEARSON* YULE-BOWLEY (1920)


3  x  Me  Q3  Q1  2Q2
A A
s Q3  Q1
Si A≥1 ó A≤1, los datos se
consideran significativamente
sesgados.
DATOS AGRUPADOS
n
n  M i  x  f i
3

A i 1
DE FISHER s  n  1  n  2 
3

n
n  xi  x 
3

1  ei POBLACIONAL
3

A  i 1 n
s 3  n  1  n  2    xi   
3
t s3
A i 1
DATOS SIN AGRUPAR: Excel e InfoStat n3

MEDIDAS DE FORMA: CURTOSIS

La curtosis (k o g2) surge al comparar la forma de una distribución en


particular con la forma de una distribución normal. Las medidas de
curtosis ofrecen una idea sobre la concentración de datos (masa de
probabilidad) en la zona central, así como, en las colas de la
distribución de frecuencias. La mayor o menor concentración de
frecuencias a los extremos de la media y en la zona central de la
distribución dará lugar a una distribución más o menos apuntada en
comparación con la distribución normal. Por esta razón a las medidas
de curtosis se les llama también de apuntamiento. Las medidas de
curtosis se aplican a distribuciones campaniformes, es decir,
unimodales con ligera asimetría.

MEDIDAS DE FORMA: CURTOSIS

Según el valor del coeficiente, las curvas pueden clasificarse en


platicúrticas, mesocúrticas o leptocúrticas. Un valor grande y positivo
para la curtosis indica que las colas de la distribución son más largas
que las de una distribución normal; un valor negativo para curtosis
indica colas más cortas (llegando a ser como las de una distribución
uniforme en forma de caja). Al representar gráficamente variables con
curtosis pequeña, platicúrticas, se observan curvas o histogramas con
colas cortas y aspecto aplanado; si la variable tiene curtosis grande, es
decir, si es leptocúrtica, su gráfica tiende a ser alta, con colas largas y
pesadas. En comparación con la distribución normal, una distribución
con colas pesadas tiene más datos en sus extremos inferior y superior.

MEDIDAS DE FORMA: CURTOSIS
La importancia de la curtosis está, en parte, relacionada al hecho que,
en la misma forma que la asimetría afecta la inferencia respecto a la
media, alta curtosis afecta la inferencia respecto a medidas de
dispersión. Otra motivación para el estudio de la curtosis es que un
valor alto de esta medida se relaciona con una distribución de colas
pesadas. Las medidas de curtosis y asimetría están fuertemente
relacionadas, dado que ambas otorgan importancia a las colas de la
distribución. Cabe esperar que el coeficiente de curtosis sea más
sensible a las colas de la distribución y esté correlacionada con la
medida de asimetría. En la práctica, al tratar con datos y distribuciones
empíricas puede ser mejor calcular más de una estadística de curtosis
debido a que cada una tiende a ser más sensible que otras a lo que
sucede en la parte central o en las colas de la distribución.

MEDIDAS DE FORMA: CURTOSIS
DATOS SIN AGRUPAR
Basado en octiles (Moors, 1988)* Coef. De curtosis percentílico

P 7   P 5   P 3   P 1  Q3  Q1
k 8 8 8 8
 1.23 k  0.263
P 6   P 2  2  P90  P10 
8 8

InfoStat (Pearson) Excel (Fisher)


n n

 x    n  n  1   xi  x 
4 4

3  n  1
i 2

k i 1
3 k 4 i 1

n 4 s n  1 n  2 n  3  n  2   n  3
     

DATOS AGRUPADOS (Fisher)


n
n  n  1   M i  x  fi
4

3  n  1
2
k 4 i 1

s  n  1  n  2   n  3  n  2   n  3

DATOS AGRUPADOS
x

5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110

Mayor cantidad de datos


MESOCÚRTICA, igual
en la parte central, la cual
de apuntada que la
normal. disminuye gradualmente
hacia los extremos.
k 0
f

Los datos se concentran en una región Los datos se distribuyen formando una
estrecha de la parte central de la región central amplia más o menos
distribución, claramente diferenciada uniforme, poco diferenciada o gradualmente
en comparación con los extremos diferenciada respecto a los extremos.
x
x

5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110

LEPTOCÚRTICA, más PLATICÚRTICA,


apuntada que la aplanada en
normal. comparación con la
normal.
k 0
k 0

MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES
Distribución normal Distribuciones simétricas con colas ligeras
21 16
20
20 14 14
14

12
12
15
10 9

Frecuencia
Frecuencia

10 8 7
10
6
6 4 4
4
5 4
2 2
1
0 0
-3.2 -2.4 -1.6 -0.8 0.0 0.8 1.6 2.4 0.0 0.3 0.6 0.9

Normal uniforme

Normal Asimetría Curtosis Normal Asimetría Curtosis


Si -0.16 0.05 No 0.03 -1.06

Distribución asimétrica con cola ligera


20 19 16 15 15

16 14

15 12 11
10 9
Frecuencia

Frecuencia

10 9 8 7
7
6 5
5
5 4 4 4

2
2

0 0
0.72 0.80 0.88 0.96 1.04 1.2346E-01 2.4030E-01 3.5715E-01 4.7400E-01 5.9084E-01 7.0769E-01 8.2454E-01 9.4138E-01
Dis beta Beta

Normal Asimetría Curtosis Normal Asimetría Curtosis


No -0.81 -0.52 Si -0.03 -0.83

MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES

Distribuciones simétricas con colas pesadas


21 21 25 24
23
20

20

15

15
Frecuencia

Frecuencia
10
10
7
7
5 5
5
3 5 4
2 3
2
1
0 0
-2.4 -1.6 -0.8 0.0 0.8 1.6 2.4 3.2 -3.235E+00 -2.125E+00 -1.014E+00 9.7264E-02 1.2082E+00 2.3191E+00 3.4300E+00 4.5409E+00
Student5 Laplace

Normal Asimetría Curtosis Normal Asimetría Curtosis


Si 0.62 0.73 Si 0.29 1.48

25
25

20
20
Frecuencia

15

10 9
6
5
2
1 1
0
-3 -2 -1 0 1 2 3 4
Student10

Normal Asimetría Curtosis


Si 0.23 0.71

MEDIDAS DE FORMA: NORMALIDAD Y DESVIACIONES
Distribuciones asimétricas con colas pesadas
25 18
25
16
16 15
20 14

12
10
Frecuencia

Frecuencia
15
13 10

11 8 8
8
10
7 6 5
5 4
5
3 2
2
0
0 0
-1.1 0.1 1.3 2.5 3.7 -1 5 11 17 23
expon chi10

Normal Asimetría Curtosis Normal Asimetría Curtosis


No 1.53 1.88 No 0.5 -0.66

25
25

20

15
14
Frecuencia

15

10

5 4
3
2
1
0
0 5 10 15
chi5

Normal Asimetría Curtosis


No 1.21 1.3

MEDIDAS DE FORMA: CURTOSIS
En algunos casos los coeficientes de asimetría y curtosis pueden no reflejar la forma real
de la distribución, especialmente cuando hay uno o más valores atípicos en la serie de
datos. Por esta razón, puede ser difícil dar una interpretación sensata a los valores de
estas medidas simplemente por no saber si están afectados por valores atípicos. Por ello
es deseable contar con mediciones robustas de asimetría y curtosis que no sean
demasiado sensibles a valores atípicos. Por ejemplo, la mediana puede usarse para la
ubicación y el rango intercuartílico para la dispersión. En este sentido, Bowley (1920)
propuso un coeficiente de asimetría basado en cuantiles. Otro estadístico robusto es el
coeficiente de asimetría de Pearson que considera la media aritmética, la mediana y la
desviación estándar.
Moors (1988) demostró que el coeficiente de curtosis puede ser grande cuando la masa
de probabilidad está centrada cerca de la media o en las colas de las distribuciones. Con
base en esta interpretación, propuso una alternativa robusta para el coeficiente de
curtosis basado en octiles. En este caso se debe considerar que siete octiles dividen a la
serie de datos en ocho partes iguales. El primer octil equivale al percentil 12.5 (O 1=P12.5),
O2=P25=Q1, O3=P37.5, O4=P50=Me, O5=P62.5, O6=P75=Q3 y el octil 7 (O7) equivale al percentil
87.5 (P87.5)

MEDIDAS DE FORMA: SESGO
Para el ejemplo, horas de uso de la computadora:
M f (M-media)3 *f i (M-media)4 *f i n
n  M i  x  fi
3
1.88 6.00 -410.21 1677.33
4.23 20.00 -105.18 182.91 A i 1
6.58 14.00 3.19 1.95 s  n  1  n  2 
3

50  1213.98 
8.93 3.00 77.88 230.61
11.28 5.00 749.03 3978.10 A
13.63 2.00 899.26 6889.25 3.033  49   48 
Suma 50.00 1213.98157 12960.14410 A  0.93
Asimetría positiva, con
n
cola hacia la derecha
n  n  1   M i  x  f i
4

3  n  1
2
k 4 i 1

s  n  1  n  2   n  3  n  2   n  3
50  51 12960.14 3  49 2
k 
3.03  49  48  47 48  47
4

k  0.35
Leptocúrtica, más apuntada
que la normal

MEDIDAS DE FORMA
COEFICIENTE DE ASIMETRÍA Y CURTOSIS
ESTANDARIZADOS (STATGRAPHICS SOFTWARE)
Se utilizan para determinar si la variable sigue una distribución normal.
De ser así, los coeficientes de asimetría y curtosis deben oscilar entre -2
y 2, que sería el rango esperado para una distribución normal. Los
valores de estos estadísticos fuera del rango indicado indican
alejamiento significativo de normalidad, lo que tendería a invalidar
cualquier prueba estadística con referencia a la desviación estándar.
Si la distribución de los datos muestrales es normal, entonces el
coeficiente de asimetría tiene distribución asintótica normal de media
cero y varianza 6/n, por lo que se puede emplear para estandarizar el
coeficiente de asimetría.
A0 A n
A*  
6 6
n

MEDIDAS DE FORMA
COEFICIENTE DE ASIMETRÍA Y CURTOSIS
ESTANDARIZADOS (STATGRAPHICS SOFTWARE)
Del mismo modo, si la distribución de los datos muestrales es normal,
entonces la curtosis tiene distribución asintótica normal de media
cero y varianza 24/n, por lo que se puede emplear para estandarizar el
coeficiente de curtosis.

k 0 k n
k*  
24 24
n

El valor estandarizado se obtiene, en términos generales, restando la


media y dividiendo por su correspondiente desviación estándar.

MEDIDAS DE FORMA
COEFICIENTE DE ASIMETRÍA Y CURTOSIS
ESTANDARIZADOS (SPSS SOFTWARE)
El análisis descriptivo de datos utilizando el programa estadístico SPSS
reporta los valores del error estándar (EE) tanto del coeficiente de
asimetría (A) como del de curtosis (k). La relación de asimetría o
curtosis a su error estándar (A/EE, k/EE) se puede usar como una
prueba de normalidad (es decir, puede rechazar la normalidad si la
proporción es menor que -2 o mayor que +2). Una distribución que
tenga una asimetría positiva significativa tiene una cola derecha larga.
Una distribución que tenga una asimetría negativa significativa tiene
una cola izquierda larga.

MEDIDAS DE FORMA
COEFICIENTE DE ASIMETRÍA Y CURTOSIS
ESTANDARIZADOS (STATGRAPHICS SOFTWARE)
Para nuestro ejemplo tenemos que los coeficientes de asimetría y
curtosis estandarizados son:
A n 0.93 50 k n 0.35 50
A 
*
 k 
*

6 6 24 24
A*  2.68 k *  0.51

Como el valor del coeficiente de asimetría estandarizado excede de 2, se


concluye que la muestra no proviene de una población con distribución normal.
Los datos no se distribuyen normalmente. Por tanto, en cuanto al resumen de
medidas descriptivas se tiene que:
NO   5.96  3.03
SI Me  5.28  7.33  3.81

EJERCICIO DE REPASO
Cuando no se tiene previsto calcular coeficientes de asimetría y
curtosis utilizando las expresiones de Fisher, la tabla de frecuencias
aumentada pude contener solo los siguientes encabezados.
CLASES Absoluta A. Acum Relativa R. Acum
M M ×f M2*f
LI LS f F fr FR

EJERCICIO DE REPASO
Los siguiente datos se refieren al consumo de frijol per cápita por año
expresado en libras, los cuales se obtuvieron a partir de una muestra
seleccionada aleatoriamente de 120 guatemaltecos.
a) Elaborar una tabla de frecuencias
b) Calcular la media aritmética, moda y mediana.
c) Determinar la desviación estándar y el coeficiente de variación.
d) Calcular el rango intercuartil y la desviación intercuartílica.
e) Graficar el histograma, polígono y ojiva de frecuencias.
f) ¿Qué porcentaje de guatemaltecos consume entre 19 y 25 libras de
frijol por año inclusive?
g) Clasifique el tipo de distribución con base a los estadísticos de
forma.
h) Determine los coeficientes de asimetría estandarizados ¿Siguen los
datos una distribución normal? ¿Por qué?

EJERCICIO DE REPASO

12.10 12.30 12.40 22.40 22.60 22.70 22.70 22.80 23.50 13.50 23.60 23.90 24.20 14.20 24.30
24.50 24.50 15.00 15.90 16.10 16.30 16.60 17.10 17.10 17.30 17.50 25.30 18.30 18.40 26.50
27.00 18.90 19.00 25.80 19.20 19.30 26.40 19.50 19.50 19.70 19.70 19.80 19.80 20.10 20.10
20.40 20.50 20.70 20.80 20.80 20.80 21.00 21.00 21.10 21.20 21.30 21.50 21.90 21.90 20.10
20.20 22.40 22.40 22.40 22.70 22.70 22.70 22.80 22.80 23.20 23.20 23.40 23.40 23.50 23.50
23.70 25.60 25.70 25.80 25.00 25.10 25.60 25.70 25.80 26.50 26.60 26.70 26.70 26.80 27.00
27.00 27.00 27.10 27.10 27.20 27.30 27.40 27.40 27.50 27.50 27.60 27.60 27.70 27.80 27.80
28.00 28.20 28.30 28.30 28.70 29.10 29.20 29.30 29.30 29.40 29.50 29.50 29.60 29.60 29.80

CLASES Absoluta A. Acum Relativa R. Acum


M
LI LS f F fr FR %datos

M ×f M- (M-)2 (M-)2 *f (M-)3 *f (M-)4 *f



EJERCICIO DE REPASO
A continuación se presenta el histograma y los valores correspondientes a la producción
(en gramos) de hule seco por sangría, por planta de hule, en el área A de la Hacienda
"Caballo Blanco", Génova Costa Cuca, Quetzaltenango. A) Determine el porcentaje de los
árboles que tienen una producción entre 14 y 21 gramos de hule seco. B) ¿Cuál es el
valor de hule seco sobre el cual queda el 15% de árboles con mayor producción? C) Si los
valores de asimetría y curtosis son -0.12 y -0.83, respectivamente, indique el tipo de
asimetría y curtosis que presenta la distribución de los datos. D) ¿Siguen los datos una
distribución normal? ¿por qué?
12 23 14 19 24 25 22 24 19 22 11 18 13 26 28 18 27 10 17 26
21 13 17 17 19 24 18 10 14 21 21 15 16 21 14 25 28 23 13 20
27 18 14 21 23 21 23 25 26 20 21 19 20 23 27 18 16 16 15 16
65%
41.67% 23.33%
100%
21.67% 20% 14 81.67%18.33%
25

20 15% 12 16.67%
11
9 10
Porcentaje

15

6.67%
10
4
5

5% 7.78%
0
10 13 16 19 22 25 28
Intervalos de clase (hule seco en gramos)

EJERCICIO DE REPASO
Calcule la media aritmética, la desviación estándar y analice
la siguiente serie de datos utilizando medidas de forma.
Concluya en relación al aspecto de la distribución.
3 33 30 14 36 7 17 38 26 44

n
n  xi  x 
3 n

  xi   
4

A i 1
k i 1
3
s  n  1  n  2 
3
n 4

EJERCICIO DE REPASO
Una empresa de servicios de recreación estudia la cantidad que gastan al
día en alimento y bebida las familias que visitan un parque de diversiones.
Una muestra de 40 familias que visitó el parque la semana pasada revela
que han gastado las siguientes cantidades en dólares:
77 18 63 84 38 54 50 59 54 56 36 26 50 34 44
41 58 58 53 51 62 43 52 53 63 62 65 61 61 52
60 60 45 66 83 71 63 58 61 71

a) Elabore una tabla de frecuencias


b) Calcular la media aritmética y la moda.
c) Determinar la desviación estándar y el coeficiente de variación.
d) Calcular la mediana y el rango intercuartil.
e) ¿Cuál es la cantidad sobre la cual queda el 15% de familias que más gastan?
f) Graficar el histograma, el polígono de frecuencias y la ojiva de frecuencias.
g) ¿Cuántas familias gastan entre 18 y 57 dólares inclusive? ¿Qué porcentaje gasta 50
dólares o más?
h) Clasifique el tipo de distribución con base a los coeficiente de asimetría y curtosis e
interprete. ¿Los datos siguen una distribución normal? ¿Por qué?
Calcular el número clases utilizando el criterio de Sturges

EJERCICIOS DE REPASO
A continuación se muestran los histogramas de las notas obtenidas por los
estudiantes en tres exámenes del curso. Para cada uno de los tres casos,
opere y conteste las siguientes preguntas:
a) Elabore la tabla de frecuencias y demás columnas requeridas
b) Calcular la media aritmética y la moda.
c) Determinar la desviación estándar y el coeficiente de variación.
d) Calcular la mediana y el rango intercuartil.
e) Graficar el polígono de frecuencias y la ojiva de frecuencias.
f) ¿Qué porcentaje de alumnos obtuvieron al menos 61 puntos.
g) ¿Cuál es la nota bajo la cual queda el 25% de los alumnos con menor
nota?
h) Clasifique el tipo de distribución con base a los coeficiente de asimetría y
curtosis e interprete.
i) ¿Cuál de los tres casos se asemeja más a una distribución normal y por
qué?

Los respectivos histogramas se presentan en la siguiente diapositiva



EJERCICIOS DE REPASO
18 14 14
14
16
16 12
12
14 13
10

Frecuencia absoluta
9
Frecuencia absoluta

12 11
10 8
10 8 7
8
8 6
6
6
4
4
2 2

0 0
5.00 20.84 36.68 52.52 68.36 84.20 100.04 5.00 20.84 36.68 52.52 68.36 84.20 100.04
Clases (notas) Clases (notas)

Examen 1 20 Examen 2
20

15
15
Frecuencia absoluta

11
10
10
8

0
0
5.00 20.84 36.68 52.52 68.36 84.20 100.04
Clases (notas) Examen 3

TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN AGRUPACIÓN
En ciertos casos donde la variable es discreta, es necesario
organizar datos utilizando tablas de frecuencias sin recurrir a la
agrupación de datos y formación de intervalos, principalmente,
cuando las distintas observaciones de la variable de estudio son
relativamente pocas, pero que se repiten un número significativo
de veces. El cálculo de los estadísticos característicos del conjunto
de datos pueden obtenerse a través de procedimientos análogos a
la agrupación de datos, no obstante, el histograma como opción
gráfica no aplica. Pueden utilizarse gráficos circulares o de barras
para presentar las frecuencias. A continuación se muestra el
procedimiento para obtener las medidas de tendencia central y de
dispersión para este tipo particular de casos.

TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
La MODA es la observación con mayor frecuencia absoluta.

La MEDIANA se obtiene a partir de la frecuencia absoluta acumulada


y el cociente n/2, siendo n el número total de datos. Se calcula así:
 Si en la distribución de frecuencias no aparece ninguna frecuencia
absoluta acumulada igual a n/2, se toma como mediana la
observación cuya frecuencia absoluta acumulada es la menor que
contiene a n/2.
 Si en la distribución de frecuencias aparece una observación cuya
frecuencia acumulada es igual a n/2, la mediana es el promedio
entre esa observación y la siguiente. En este caso n debe ser par.

TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO

El promedio corresponde a una media ponderada:

xp 
 x p x f
 i i i i

p f i i

La desviación estándar se calcula utilizando cualquiera


de las siguientes expresiones:
2
 k

k k k  i i x f
x f x f  xi f i   i 1k 
2 2 2
i i i
s i 1

n 1
i 1 i 1
 fi
s i 1

n 1

TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
En un estudio de la dinámica poblacional del gusano medidor
(Trichoplusia ni) en el cultivo de repollo (Brassica oleracea var.
Capitata), el número de plantas en las que se encontraron 0, 3,
5, 6, 7, 9 ó 10 insectos por planta se presentan a continuación.
Completar la tabla de frecuencias. Calcular la moda, mediana y
media aritmética del número de insectos por planta. Obtener la
desviación estándar.
No. Insectos No. Plantas
0 7
3 12
5 35
6 28
7 23
9 17
10 12

TABLA DISTRIBUCIÓN DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
No. Insectos fi Fi x if i x i2 fi*xi2
0 7 7 0 0 0 Mo  5 in s planta
3 12 19 36 9 108
5 35 54 175 25 875
6 28 82 168 36 1008 134
Posición   67
7 23 105 161 49 1127 2
9 17 122 153 81 1377
10 12 134 120 100 1200
Me  6 in s planta
134 813 5695

 xi fi  813
k k

xp  x 2
f x
i i
2
f i
5695  6.07 2 134
 fi 134 s i 1

n 1
i 1

134  1

x p  6.1 in s planta
s  2.4 in s planta

TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
De los registros de una finca, se obtuvo el número de árboles
que ha podado cada trabajador por día de una especie forestal.
Organice los datos en una tabla de frecuencias. Calcule la
media, mediana, moda y el coeficiente de variación del número
de árboles podados al día por trabajador.
30 30 30 30 30 30 30 30 30 30 30 30 30 33 33 33 No árboles
30
33 33 33 33 33 33 33 33 33 33 33 33 35 35 35 35 33
35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35
36
35 35 35 36 36 36 36 36 36 36 36 36 36 36 38 38 38
38 38 38 38 38 38 38 38 38 38 38 38 38 38 38 38 40
41
38 38 38 38 40 40 40 40 40 40 40 40 40 40 40 40
40 40 40 40 40 40 40 40 40 41 41 41 41 41 41 41
41 41 41 41 41 41 41 41 41 41 41 41 --- --- --- ---

TABLA DISTRIBUCIÓN DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
Se evalúa la respuesta a la fertilización en el cultivo de rosa y se
registra el número de retoños por planta a los 30 días de realizada
la misma. Los datos que se obtuvieron son los siguientes: 3, 4, 3, 4,
5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 y 2.
Con esta información:
a) Organice los datos en una tabla de frecuencias.
b) Calcule la media, mediana y el coeficiente de variación del
número de retoños por planta.

También podría gustarte