Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva
Estadistica Descriptiva
ESTADSTICA DESCRIPTIVA
Pgina 1 de 20
ESTADSTICA DESCRIPTIVA
CONTENIDO
1. Introduccin
2. Medidas de tendencia central y dispersin para datos simples
3. Otras medidas de dispersin: Percentiles y quartiles
4. Distribucin de frecuencias, histogramas, diagama de tallo y hojas
5. Medidas de tendencia central y de dispersin para datos agrupados
6. Usos frecuentes de la desviacin estndar
7. Uso de Minitab y Excel
8. Ejercicios
Pgina 2 de 20
ESTADSTICA DESCRIPTIVA
ESTADSTICA DESCRIPTIVA
1. Introduccin
La Estadstica descriptiva es la rama de las matemticas que comprende la recopilacin,
tabulacin, anlisis e interpretacin de datos cuantitativos y cualitativos, para tomar decisiones
que se requieran a fin de que el comportamiento de los datos se mantenga dentro de los
parmetros de control establecidos.
La Estadstica descriptiva proporciona un criterio para lograr mejoras, debido a que sus
tcnicas se pueden usar para describir y comprender la variabilidad. Por ejemplo, consideremos
en una caldera de vapor la presin del combustible alimentado y la eficiencia de la caldera, si
utilizamos instrumentos de medicin con la resolucin suficiente, encontraremos que existe
variabilidad en esos parmetros, y mediante el uso de tcnicas estadsticas podemos realizar
mejoras para reducir la variacin en rendimiento de la caldera.
Para poder obtener consecuencias y deducciones vlidas de los datos de un estadstico, es muy
til contar con informacin sobre los valores que se agrupan hacia el centro y sobre que tan
distanciados o dispersos estn unos respecto a otros. Comenzaremos por definir estas medidas:
La estadstica inferencial se refiere a la estimacin de parmetros y pruebas de hiptesis
acerca de las caractersticas de la poblacin en base a los datos obtenidos con una muestra.
xi
n
Pgina 3 de 20
xi
n
ESTADSTICA DESCRIPTIVA
Ejemplo 1: En un equipo de ftbol, una muestra de estaturas de sus integrantes son las
siguientes:
1.70,1.79,1.73,1.67,1.60,1.65,1.79,1.84,1.67,1.82, 1.74. Calcule la media.
x
xi 19
1.73
n
11
n 2 n 2 1
2
Ejemplo 2: Para el ejemplo anterior cul es la mediana?
Ordenando los datos de mayor a menor se obtiene:
1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;
Como tenemos 11 datos el nmero es non por lo que (n+1)/2 = 12/2 = 6, buscando el
nmero que ocupa la sexta posicin en los datos ordenados encontramos el valor de la
x 1.73
mediana ~
Media acotada (Truncated Mean): Determinado porcentaje de los valores ms altos y bajos
de un conjunto dado de datos son eliminados (tomando nmeros enteros), para los valores
restantes se calcula la media.
Ejemplo 3: Para la siguiente serie de datos calcule la media acotada al 20%:
68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,
Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el ms bajo y
el ms alto, ordenado los datos obtenemos:
8.4,31.1,33.2,34.3,42.5,54.2,68.7,71.6,72.3,73.4,80.6,82.2,87.9,97.7,97.9, los valores a
eliminar son: 8.4 y 97.9; calculando la media de los datos restantes obtenemos
~
x ,.20
63.82
Medidas de dispersin
Para comprender el concepto de varianza, supngase que tenemos los datos siguientes de los
cuales queremos saber que tan dispersos estn respecto a su media:
2, 3, 4, 5, 6
Pgina 4 de 20
ESTADSTICA DESCRIPTIVA
Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:
(-2) + (-1) + (0) + (1) +(2) = 0
Por lo que tomando diferencias simples no es posible determinar la dispersin de los datos.
Si ahora tomamos esas mismas diferencias al cuadrado y las sumamos se tiene:
4 + 1 + 0 + 1 + 4 = 10
Varianza de los datos
Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados
estn de la media
( xi x ) 2
n
( xi x ) 2
n 1
( xi x ) 2
n
( xi x ) 2
n 1
s
(100)
X
Pgina 5 de 20
ESTADSTICA DESCRIPTIVA
12.14
(100) 12.05%
78.7
2
(100) 20%
10
Por tanto la dispersin de las temperaturas es mayor que la de los tiempos de de respuesta, es
posible comparar estas dispersiones con el CV aunque los dos conjuntos de datos sean
completamente dismbolos.
Ejemplo 4: La resistencia al rompimiento de dos muestras de botellas es la siguiente:
Muestra 1:
Muestra 2:
230
190
250
228
245
305
258
240
265
265
240
260
Muestra 2
x 248
x 248
Suma(Xi - x )2 = 790
n-1=5
s=
790
= 12.56
5
Suma(Xi - x )2 = 7510
n-1 = 5
s=
7510
= 38.75
5
Aunque la media en ambas muestras es la misma, la desviacin estndar (s), rango y coeficiente
de variacin, son menores en la muestra 1, por lo cual deducimos que es presenta menor
variabilidad.
Ejemplo 5:
Se desea hacer un estudio estadstico de la temperatura del agua, para esto es necesario tomar
una muestra y calcular la media, mediana, media acotada al 15%, desviacin estndar, rango y
coeficiente de variacin. Se realizan 14 observaciones arrojando los siguientes resultados en C:
2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6,2.9, 3.0.
Pgina 6 de 20
ESTADSTICA DESCRIPTIVA
1) Calcular la media, mediana, desviacin estndar, media acotada al 5%, desviacin estndar,
rango y coeficiente de variacin.
P
100
Donde:
Lp es el sitio del percentil deseado en una serie ordenada
n es el nmero de observaciones
P es el percentil deseado
Por ejemplo para el conjunto de datos siguiente:
3
4
7
9
10
10
12
14
15
17
19
20
21
25
27
27
29
31
31
34
34
34
36
37
38
38
39
43
45
47
48
48
52
53
56
56
59
62
63
64
67
67
69
72
73
74
74
76
79
80
35
17.85
100
O sea que el percentil 35 est al 85% del trayecto comprendido entre la observacin 17 que es
29 y la observacin 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las
observaciones estn por debajo de 30.7 y el 65% restante por encima de 30.7.
De la misma forma los percentiles 25, 50 y 75 proporcionan la localizacin de los cuartiles Q1,
Q2 y Q3 respectivamente.
Q1: es el nmero que representa al percentil 25 (hay 25% de los datos por debajo de
este).
Q2 o Mediana: es el nmero que representa al percentil 50 (hay 50% de los datos por
debajo de este).
Pgina 7 de 20
ESTADSTICA DESCRIPTIVA
Q3: es el nmero que representa al percentil 75 (hay 75% de los datos por debajo de
este).
DIAGRAMA DE CAJA
Es la representacin grfica de los datos en forma de caja:
1 10 4
1050
Q3
Weight
Q3 + 1.5 RIC
950
Q2 Mediana
Q1
850
Q1 1.5RIC
Rango
Intercuartlico =
RIC = Q3 Q1
Valores
atpicos
Bigotes
Pgina 8 de 20
ESTADSTICA DESCRIPTIVA
Ejemplo 6
Construir un histograma con la siguiente serie de datos:
2.41
3.34
4.04
4.46
8.46
9.15
11.59
12.73
13.18
15.47
16.20
16.49
17.11
17.87
18.03
18.69
19.94
20.20
20.31
24.19
28.75
30.36
30.63
31.21
32.44
32.89
33.51
33.76
34.58
35.58
35.93
36.08
36.14
36.80
36.92
37.23
37.31
37.64
38.29
38.65
39.02
39.64
40.41
40.58
40.64
43.61
44.06
44.52
45.01
45.08
45.10
45.37
45.70
45.91
46.50
47.09
47.21
47.56
47.93
48.02
48.31
48.55
48.62
48.98
49.33
49.36
49.95
50.02
50.10
50.10
50.72
51.40
51.41
51.77
52.43
53.22
54.28
54.71
55.08
55.23
55.56
55.87
56.04
56.29
58.18
59.03
59.37
59.61
59.81
60.27
61.30
62.53
62.78
62.98
63.03
64.12
64.29
65.44
66.18
66.56
67.45
67.87
69.09
69.86
70.37
71.05
71.14
72.46
72.77
74.03
74.10
76.26
76.69
77.91
78.24
79.35
80.32
130 11.4 11 .
Por lo cual
Paso 4: Calcular el tamao del intervalo de clase ( C ), dividiendo el rango entre el nmero de
columnas: C =
94.37
8.58 9 , resultando el tamao del intervalo 9.
11
Paso 5: Calcular los limites de clase de cada intervalo: [0-8], [ 9-17], etc., considerando que el
tamao del intervalo representa la diferencia entre dos lmites de clase adyacentes ya sean
inferiores o superiores.
Pgina 9 de 20
81.21
82.37
82.79
83.31
85.83
88.67
89.28
89.58
94.07
94.47
94.60
94.74
96.78
ESTADSTICA DESCRIPTIVA
Paso 6: Contar el nmero de valores que caen en cada intervalo utilizando una hoja de
registro, de esta manera se obtiene la frecuencia para cada intervalo.
Tabla 1.
Columna
1
2
3
4
5
6
7
8
9
10
11
Intervalo
0 -8
9-17
18-26
27-35
36-44
45-53
54-62
63-71
72-80
81-89
90-98
Registro de frecuencias
IIIII
IIIII
IIII
IIIII
I
IIIII
IIIII
I
IIIII
IIIII
II
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
III
IIIII
IIIII
IIIII
III
IIIII
IIIII
III
IIIII
III
5
9
6
11
17
28
18
13
10
8
5
Histograma
30
Frecuencia
25
20
15
Frecuencia
10
5
0
9
18
27
36
45
54
63
72
81
90
99
Clase
= 50
6 89
7 233566
8 01123456
Pgina 10 de 20
ESTADSTICA DESCRIPTIVA
(11)
23
14
7
3
1
9
10
11
12
13
14
12224556788
002466678
2355899
4678
24
1
Xg
fM
n
Donde
f es la frecuencia o nmero de observaciones en cada clase
M es el punto medio de cada clase, se determina como el valor medio entre los lmites de
clase.
n es el tamao de la muestra o la suma de todas las frecuencias de las clases
Ejemplo:
Clase
(Presin)
Frecuencia de clase
(das)
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
50
Xg
fM
54.5
64.5
74.5
84.5
94.5
104.5
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
Frecuencia acumulada
F
3
10
28
40
48
50
3935
78.7
50
Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este caso la
clase de 70 a 79 con punto central de clase = 74.5.
n/2 F
~
50 / 2 10
Mediana X Lmd
(C ) 70
10 78.33 pasajeros
f
18
md
Donde:
Pgina 11 de 20
ESTADSTICA DESCRIPTIVA
Primero se halla la clase que tenga la frecuencia ms alta, en este caso la clase 70 a 79.
Da
18 7
(C ) 70
10 76.47
(18 12) (18 7)
Db Da
Moda Lmo
Donde:
Lmo es el lmite inferior de la clase modal con la frecuencia ms alta (70).
Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 7 = 11)
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 12 = 6)
C es el intervalo de la clase modal ( 80 70 = 10 )
s2
s
fM
nX 2
n 1
Frecuencia de clase
(das)
M
fM
M2
fM2
50-59
60-69
29121.75
70-79
99904.50
80-89
85683.00
90-99
71442.00
100-109
21840.50
3
7
54.5
64.5
163.5
451.5
2790.25
4160.25
8910.75
18
74.5
1341.0
5550.25
12
84.5
1014.0
7140.25
94.5
756.0
8930.25
104.5
209.0
10920.25
3935.0
Pgina 12 de 20
316902.
50
ESTADSTICA DESCRIPTIVA
3935
78.7
50
316902.50 50(78.7) 2
s2
147.31 pasajeros
49
s 12.14 pasajeros
Xg
EL TEOREMA DE TCHEBYSHEV
1
)% de las observaciones se
K2
encuentran dentro de K desviaciones estndar de la media, con K >= 1.
Por ejemplo si K = 3 desviaciones estndar respecto a la media, se tiene que por lo menos el:
(1
1
1
)% 1 2 % 88.89%
2
K
3
SESGO
En la distribucin normal si no es simtrica y tiene una cola ms amplia del lado derecho, se dice
que existe un sesgo a la derecha y viceversa.
3( X Mediana)
s
Pgina 13 de 20
ESTADSTICA DESCRIPTIVA
Si P < 0 los datos estn sesgados a la izquierda, si P > 0 estn sesgados a la derecha; si P
= 0 estn distribuidos normalmente.
Para el caso de los datos del ejemplo anterior se tiene:
P
3(78.7 78.33)
0.03 Los datos estn un poco sesgados hacia la derecha.
12.14
Otra estimacin del sesgo o coeficiente de asimetra se hace a travs de momentos estadsticos
(diferencias contra la media) como lo sugiere Fisher:
n
Mj
(X
i 1
X)j
Sesgo 1
j 1, 2,3, 4
1 n
( Xi X ) 3
n i 1
M3
o 1
M 23 / 2
1 n
( Xi X ) 2
n i 1
3/ 2
Por ejemplo:
Ejemplo de una distribucin con sesgo negativo o sesgada hacia la izquierda con Sesgo = -1.01
Pgina 14 de 20
ESTADSTICA DESCRIPTIVA
Ejemplo de una distribucin con sesgo positivo o sesgada hacia la derecha con Sesgo = 1.08
CURTOSIS
Kurtosis 2
1 n
( Xi X ) 4
n i 1
M4
- 3 o 2
M 22
1 n
( Xi X ) 2
n i 1
0.
La distribucin es mesocrtica (plana normal) si 2 0 , leptocrtica si 2 0 ms
puntiaguda que la normal o platicrtica (ms plana que la normal ) con 2 0 .
Pgina 15 de 20
ESTADSTICA DESCRIPTIVA
Seleccionar las grficas opcionales para los datos: Histograma, diagrama de caja y de puntos.
Seleccionar los estadsticos especficos que se desean obtener:
Pgina 16 de 20
ESTADSTICA DESCRIPTIVA
Lnea
1
2
N
250
250
N*
0
0
Variable
Peso en gr
Lnea
1
2
Q3
4040.0
4121.5
Mean
3999.6
4085.6
SE Mean
3.14
3.32
StDev
49.6
52.5
Minimum
3877.0
3954.0
Q1
3967.8
4048.8
Median
3999.5
4087.0
Maximum
4113.0
4202.0
Boxplot of Caja
22.5
20.0
17.5
Caja
15.0
12.5
10.0
7.5
5.0
Histograma en Minitab:
Pgina 17 de 20
ESTADSTICA DESCRIPTIVA
Frequency
30
20
10
-10
20
50
DATOS
80
110
Mean
StDev
N
AD
P-Value
99
Percent
95
90
80
70
60
50
40
30
20
10
5
1
0.1
30
60
DATOS
90
USO DE EXCEL
Pgina 18 de 20
120
50.05
22.50
130
0.380
0.399
ESTADSTICA DESCRIPTIVA
50.053769
2
1.9738137
49.345
50.1
22.504938
8
506.47227
-0.4466339
-0.0352296
94.37
2.41
96.78
6506.99
130
Pgina 19 de 20
ESTADSTICA DESCRIPTIVA
8. EJERCICIOS:
1. Las empresas de generacin de energa elctrica estn interesadas en los hbitos de
consumo de los clientes para obtener pronsticos exactos de las demandas de energa. Una
muestra de consumidores de 90 hogares con calefaccin de gas arroj lo siguiente
(FURNACE.MTW):
BTU.In_1
2.97
4.00
5.20
5.56
5.94
5.98
6.35
6.62
6.72
6.78
6.80
6.85
6.94
7.15
7.16
7.23
7.29
7.62
7.62
7.69
7.73
7.87
7.93
8.00
8.26
8.29
8.37
8.47
8.54
8.58
8.61
8.67
8.69
8.81
9.07
9.27
9.37
9.43
9.52
9.58
9.60
9.76
9.82
9.83
9.83
9.84
9.96
10.04
10.21
10.28
10.28
10.30
10.35
10.36
10.40
10.49
10.50
10.64
10.95
11.09
11.12
11.21
11.29
11.43
11.62
11.70
11.70
12.16
12.19
12.28
12.31
12.62
12.69
12.71
12.91
12.92
13.11
13.38
13.42
13.43
Pgina 20 de 20
13.47
13.60
13.96
14.24
14.35
15.12
15.24
16.06
16.90
18.26