Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los datos obtenidos en un estudio estadstico se pueden ordenar elaborando un diagrama de tallo y hojas o una distribucin de frecuencia agrupada (pag.30 Anderson) o no agrupada (pag.25 Anderson), segn sea el tipo de los datos. El diagrama de tallo y hojas (pag. 39 Anderson) y las distribuciones de frecuencia agrupada se utilizan para datos cuantitativos, mientras que las distribuciones de frecuencia no agrupadas se usan principalmente para datos cualitativos
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 2
Repaso
Las distribuciones de frecuencia agrupadas, deben tener las tres caractersticas siguientes: Uniformidad, Unicidad y Completez. La uniformidad se obtiene dividiendo el rango de los datos entre el nmero de clases escogido. La unicidad se obtiene utilizando smbolos de desigualdad en los lmites de clase y la completez escogiendo un intervalo de clase apropiado que garantice que se cubra el rango total de datos con las clases obtenidas.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 3
Repaso
Las distribuciones de frecuencia agrupadas, se elaboran siguiendo los pasos que se indican:
Seleccin del nmero de clases Determinacin del tamao de clase Identificacin de los lmites de clase Conteo de los datos por marcas Presentacin de la tabla de frecuencias.
Repaso
La frecuencia se puede presentar de diferentes maneras, a saber:
Frecuencia real o absoluta y acumulada Frecuencia relativa y relativa acumulada Porcentaje individual y acumulado Datos mayores o iguales que y menores que.
12 10 8 6 4 2 0
68,5 X<78,5 78,5 X<89 89,05 X<99,5 99,5 X<110,0 110 X<120,5 120,5 X<131 131 X<141,5
Polgono
Grfico de lneas cuyo eje horizontal indica los puntos medios de cada clase (marca de clase) y el vertical la frecuencia real, la relativa o el porcentaje
13 12 11 10 9 8 7 6 5 4 3 2 1 0
Polgono de frecuencias
Frecuencia
10
15
20
25
30
35
Marcas de clase
Ojiva
28 23 29 30
7,5
12,5
32,5
37,5
18%
22%
8900
8200
8900
6000
4000 2000 0 A
5400
Ciudades
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 8
1-1
Descripcin de datos:
OBJETIVOS
Cuando haya terminado esta sesin deber ser capaz de: UNO Calcular la media aritmtica, la mediana, la moda y la media ponderada. DOS Calcular e interpretar el rango, la desviacin absoluta media, la varianza y la desviacin estndar. TRES Determinar las medidas de posicin y elaborar diagramas de caja. CUATRO Estimar las medidas de resumen y de posicin a partir de datos agrupados
CINCO Calcular e interpretar el coeficiente de variabilidad y de asimetra y aplicar el teorema de Chebyshev y la regla emprica.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 9
Introduccin
A parte de ordenar los datos con las tcnicas vistas anteriormente, existen mtodos para resumir los datos con ciertas medidas, de manera que conociendo esas medidas, nos demos una idea de las caractersticas generales del conjunto de datos. A estas medidas se les conoce como MEDIDAS DE RESUMEN.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 10
Medidas de Resumen
Estas medidas se clasifican en dos:
Medidas de tendencia central(de localizacin) (pag.74)
Media Mediana Moda
11
Mediana (X):
Es el punto medio del conjunto de los datos ordenados por valor (de menor a mayor). Dicho de otra manera, es el valor que divide al conjunto de datos en dos grupos con el mismo nmero de datos, uno de ellos est por debajo de la mediana y el otro por encima de ella.
X = xi /n
Moda (Moda):
Es el valor o valores que se repiten mayor cantidad de veces, es decir, es el valor o valores con mayor frecuencia.
12
Ejemplo 3.1
Determine la media, la mediana y la moda del conjunto de datos siguiente:
4, 5, 7, 5, 6, 4, 4
Solucin:
La media se calcula
(4+5+7+5+6+4+4)/7 = 35/7= 5
Y como podemos observar, el 4 es el que aparece mayor nmero de veces, por lo tanto, la moda es 4
13
3-3
Media (aritmtica)
Si se trata de una poblacin completa la media se representa por y si se trata de una muestra se representa por X
= x / N
i
i 1
X=
x /n
i
i 1
Donde es la media poblacional y X la media muestral; xi es cualquier dato, N es el nmero total de datos de la poblacin y n es el nmero total de datos de la muestra .
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 14
3-7
15
3-8
Ejemplo 3.2 Considere el conjunto de valores : 3, 8 y 4. La media es 5. Ilustrando la cuarta propiedad, (3-5) + (8-5) + (4-5) = -2 +3 -1 = 0. En otras palabras, n
i 1
( Xi X ) 0
Departamento de Ingeniera Industrial
16
3-9
Media ponderada
La media ponderada de un conjunto de nmeros X1, X2, ..., Xn, con sus pesos correspondientes w1, w2, ...,wn, se calcula por medio de la siguiente frmula:
17
3-10
Ejemplo 3.2
En un sbado por la tarde, durante una hora, el barman de la taberna La cabaa de Chris sirvi cincuenta bebidas. Calcule la media ponderada del precio de las bebidas. (precio [$]; nmero de bebidas): (0.50;5), (0.75;15), (0.90;15), (1.10;15). La media ponderada es: $(,50x5 + ,75x15 + ,90x15 + 1,10x15)/(5 + 15 + 15 + 15) = $43,75/50 = $0,875
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 18
3-12
Ejemplo 3.3
Calcule la mediana de los siguientes datos.
En una muestra de cinco estudiantes las edades son: 21, 25, 19, 20 y 22.
Solucin:
Arreglando los datos de manera ascendente se obtiene: 19, 20, 21, 22, 25. Entonces la mediana es 21.
19
3-12
Ejemplo 3.4
Las alturas de cuatro jugadores de basquetbol, en pulgadas, son 76, 73, 80 y 75. Solucin:
Arreglando los datos de manera ascendente se obtiene : 73, 75, 76, 80. Entonces la mediana es 75.5.
20
3-13
Propiedades de la mediana
Solamente existe una mediana por cada conjunto de datos. A la mediana no la afectan valores extremadamente grandes o pequeos, en consecuencia es una medida de tendencia central valiosa cuando aparecen ese tipo de valores. Se puede calcular para cualquier conjunto de datos numricos.
21
3-14
Ejemplo 3.5
Las calificaciones de un examen para diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la calificacin 81 es la que ms veces aparece, la calificacin modal es 81.
22
2-9
Encuentre la media, la mediana y la moda de los datos del diagrama de tallo y hojas:
Ejercicio 3.1
Tallo
6 9
hojas
7
8
89
234568
126
23
2-9
Solucin:
Ejercicio 3.1
Sumando todos los datos obtenemos un total de 1013 y dividiendo entre 12 datos = 84,41667 La mediana es el valor intermedio entre 84 y 85, o sea, 84,5 El conjunto carece de moda ( es amodal)
Tallo 6 9 hojas
7
8 9
89
234568 126
Departamento de Ingeniera Industrial 24
Amplitud. Es el rango de los datos, es decir, la diferencia entre el valor mayor y el menor.
Desviacin Absoluta Media. Es el promedio de la distancia (desviacin) absoluta de los datos hacia la media.
25
En el diagrama se muestran los datos: 4, 5, 5, 6, 4, 7 y 4. Se muestra tambin la media con una horizontal.
Diagrama de dispersin
8 6
valor
4 2 0 0 1 2 3 4 5 6 7
26
La amplitud (A) del conjunto es 7 - 4 = 3 y se muestra con la flecha negra. Las desviaciones de los datos respecto a la media se muestran con flechas rojas y sus valores son: -1, 0, 0, +1,-1, +2 y -1
Diagrama de dispersin
8 6
valor
4 2 0 0 1 2 3 4 5 6 7
27
Como ya sabemos, la suma de las desviaciones de los datos respecto de la media es igual a cero (-1+0+0+1-1+2-1=0), sin embargo, si tomamos los valores absolutos (1+0+0+1+1+2+1) el resultado es 6 y el promedio de la desviacin ser entonces 6/7.Por lo tanto, la Desviacin Absoluta Media es de 6/7.
Diagrama de dispersin
8 6
valor
4 2 0 0 1 2 3 4 5 6 7
28
Otra manera de evitar que la suma de las desviaciones se vuelva cero es elevando al cuadrado cada valor de desviacin (-12+02+02+12-12+22-12=8), y el promedio de la desviacin cuadrtica ser entonces 8/7.Por lo tanto, la Desviacin Cuadrtica Media o Varianza es de 8/7.
Diagrama de dispersin
8 6
valor
4 2 0 0 1 2 3 4 5 6 7
29
Si la Varianza es de 8/7, entonces, la Desviacin Estndar es de 8/7 = 1,069. Aunque no es igual este valor al DAM ( 6/7 = 0,8571), su interpretacin es similar, es decir, es la estimacin de la desviacin de los datos respecto de la media.
Diagrama de dispersin
8 6
valor
4 2 0 0 1 2 3 4 5 6 7
30
Ecuaciones de clculo
Desviacin Absoluta Media Varianza poblacional ecuacin conceptual Varianza poblacional
(X X ) DAM
i
2
2
2 ( X i )
N
2 X i
ecuacin de clculo
Donde 2 es la varianza poblacional, Xi es cada uno de los datos, X es la media muestral, n el tamao de la muestra, es la media poblacional y N nmero de datos ( o tamao) de la poblacin
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 31
Ecuaciones de clculo
Varianza muestral ecuacin conceptual Varianza muestral
S2
2 ( X i X )
n 1
ecuacin de clculo
2 ( X i ) 2 Xi n S2 n 1
Donde S2 es la varianza muestral, Xi es cada uno de los datos, X es la media muestral y n el tamao de la muestra
32
Ecuaciones de clculo
Desviacin estndar poblacional
ecuacin conceptual Desviacin estndar poblacional ecuacin de clculo
( X )
i
N
2 X i
Donde es la desviacin estndar poblacional, Xi es cada uno de los datos, es la media poblacional y N nmero de datos ( o tamao) de la poblacin
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 33
Ecuaciones de clculo
Desviacin estndar muestral
ecuacin conceptual
Desviacin estndar muestral
2 ( X i X )
n 1
ecuacin de clculo
2 ( X i ) 2 Xi n S n 1
Donde S es la desviacin estndar muestral, Xi es cada uno de los datos, X es la media muestral y n el tamao de la muestra
34
Ejercicio 3.2
Determine el valor de las medidas de dispersin para los siguientes datos.. 12,11,17,10,15 Evale la varianza y la desviacin estndar como poblacin y como muestra
35
DAM
36
2 ( X i )
37
2 X i
38
S2
2 ( X i X )
n 1
39
2 ( X i ) 2 X i 2 n S n 1
40
41
Medidas de posicin Como ya se haba visto, la mediana es el valor que divide al grupo de datos ordenados en dos subconjuntos con el mismo nmero de datos en cada uno(la mitad en uno y la mitad en otro. Por ejemplo: si se tienen los valores siguientes 3, 4, 6, 7, 9, la mediana sera el 6, ya que debajo de este valor existen 2 datos y arriba del mismo otros dos datos.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 42
Medidas de posicin
Las dems medidas se basan en el mismo razonamiento, es decir, los cuartiles, que son 3, son los valores que dividen al conjunto de datos ordenado en cuatro subconjuntos de datos, todos ellos con igual cantidad de datos. Ejemplo: tomando los valores del ejemplo anterior (3, 4, 6, 7, 9) , el cuartil uno Q1 tiene un valor de 3.5, el cuartil dos Q2 es el mismo valor que la mediana, o sea, 6 y el cuartil tres Q3 es 8.
43
Medidas de posicin
Vemoslo con manzanas Los datos (o manzanas) son (3, 4, 6, 7, 9), entonces los valores que dividen al conjunto de cinco manzanas en cuatro grupos de 1 manzana cada uno son: Q1=3,5 (punto medio entre 3 y 4 ), debajo de 3,5 hay una manzana (3); Q2= 6 (valor central), entre el 3,5 y el 6 existe solo una manzana, el valor 4, y el Q3= 8, que es el valor central entre 7 y 9. Entre el 6 y el 8 hay una manzana y tambin despus del 8
3 Q1
6 Q2
8 Q3
10
44
Medidas de posicin
Los deciles son nueve valores o puntos (D1, D2, , D9) que dividen al conjunto de datos ordenado en 10 subconjuntos de datos en los cuales existe el 10% del total de datos.
Ejemplo: Tomando el conjunto de datos del diagrama adjunto, como son diez, los deciles sern los puntos medios entre cada uno de los datos, o sea, entre el 69 y el 78 se encuentra el 73,5 que es el decil uno. El decil dos queda entonces entre el 78 y el 79, es decir, 78,5 y as sucesivamente. El decil nueve ser 94
6
7
9
89
8
9
2458
126
65
70
D1
75
80
85
90
D7 D 8
95
D9
100
D2 D3 D4 D 5 D6
45
Medidas de posicin
De manera anloga, los percentiles son 99 valores o puntos (P1, P2, , P99) que dividen al conjunto de datos ordenado en 100 subconjuntos de datos en los cuales existe el 1% del total de datos.
Ejemplo: Tomando el conjunto de datos del diagrama adjunto, como son diez, los percentiles 10, 20, 30, 40, 50, 60, 70, 80, 90 sern los puntos medios entre cada uno de los datos, o sea, entre el 69 y el 78 se encuentra el 73,5 que es el percentil diez. El percentil veinte queda entonces entre el 78 y el 79, es decir, 78,5 y as sucesivamente. El percentil noventa ser 94
6
7
9
89
8
9
2458
126
65
70
P10
75
80
85
90
95
100
Medidas de posicin
Podemos concluir que la mediana es, a su vez, el cuartil dos (Q2), el decil cinco (D5) y el percentil 50 (P50), ya que todos ellos estn al centro de los datos y tienen el mismo valor = 84,5. Del mismo modo, el cuartil uno es el percentil veinticinco y el cuartil tres es el percentil setenta y cinco.
Q1=P25
Q3 = P75
65
70
75
80
85
90
95
100
Pj 100
xn
48
Como el resultado es entero, entonces el D6 est ubicado entre el noveno y el dcimo dato.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 49
Ejercicio 3.3
Encuentra las medidas de posicin que se indican, para el conjunto de datos anexo. a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d) percentil 35 y e) percentil 85.
6 7 8 8 2 0 9 3 1 3 1 5 2 6 3 6 4 5 6
2
0
2
2
2
4
4
6
5
6
5
6
6
7
7
8
10 0
11
3
6 4
5
7
5
8
12 4 13 2 14 1
50
9
2
7 8
2
3
3
4
3
5
5
6
6
7
6
8
1
10
1
11
2
12
3
13
4
14
5
15
6
16
9
10 11 12 13
1
0 2
37
2
0 3
2
2 5
2
4 5
4
6 8
5
6 9
5
6 9
43
6
7
7
25
8
26
8
27
17 28
18 29 38
19 30 39
20 31 40
21 32 41
22 33 42
23 34
24 35
8
36
Esto quiere decir que la mediana est entre el dato 25 y el 26 y su valor es igual a 97,5
4
44
6
45
7
46
8
47
2
48 50
4
49
14
51
9
2
7 8
2
3
3
4
3
5
5
6
6
7
6
8
0
9
1
10 18
1
11 19
2
12 20
3
13 21
4
14 22
5
15 23
6
16 24
9
10 11 12 13
1
0 2 4
17 28
2
0 3 6
2
2 5 7
2
4 5 8
4
6 8
5
6 9
5
6 9
6
7
25
7
8
26
27
29 38
30 39
31 40
32 41
33 42
34 43
35
36
Esto quiere decir que el cuartil uno est en el dato 13 y su valor es igual a 83
37
44 48 50
45
46
47
49
14
52
9
2
2
3
3
4
3
5
5
6
6
7
6
8
0
9
1
10 18
1
11 19
2
12 20
3
13 21
4
14 22
5
15 23
6
16 24
El cuartil dos es el percentil 50, o sea, igual a la mediana que ya habamos calculado, Q2 = 97,5
9
10 11 12 13
1
0 2 4
17 28
2
0 3 6
2
2 5 7
2
4 5 8
4
6 8
5
6 9
5
6 9
6
7
25
7
8
26
27
29 38
30 39
31 40
32 41
33 42
34 43
35
36
37
44 48 50
45
46
47
49
14
53
9
2
2
3
3
4
3
5
5
6
6
7
6
8
0
9
1
10 18
1
11 19
2
12 20
3
13 21
4
14 22
5
15 23
6
16 24
El cuartil tres es el percentil 75, o sea, i=75x50/100=37,5=38 o sea, el cuartil 3 es: Q3 = 113
9
10 11 12 13
1
0 2 4
17 28
2
0 3 6
2
2 5 7
2
4 5 8
4
6 8
5
6 9
5
6 9
6
7
25
7
8
26
27
29 38
30 39
31 40
32 41
33 42
34 43
35
36
37
44 48 50
45
46
47
49
14
54
9
2
2
3
3
4
3
5
5
6
6
7
6
8
0
9
1
10 18 29 38
1
11 19 30 39
2
12 20 31
3
13 21 32
4
14 22 33 42
5
15 23 34
6
16 24 35
9
10 11 12 13
1
2 4
17
2
0 3 6
2
2 5 7
2
4 5 8
4
6 8
5
6 9
5
6 9
6
7
25
7
8
26
27
0 28
37
36
40
41
43
44 48 50
45
46
47
49
14
55
9
2
2
3
3
4
3
5
5
6
6
7
6
8
0
9
1
10 18
1
11 19
2
12 20
3
13 21
4
14 22
5
15 23
6
16 24
9
10 11 12 13
1
0 2 4
17 28
2
0 3 6
2
2 5 7
2
4 5 8
4
6 8
5
6 9
5
6 9
6
7
25
7
8
26
27
29 38
30 39
31 40
32 41
33 42
34 43
35
36
37
44 48 50
45
46
47
49
14
56
9
2
2
3
3
4
3
5
5
6
6
7
6
8
0
9
1
10 18
1
11 19
2
12 20
3
13 21
4
14 22
5
15 23
6
16 24
El percentil 85 se calcula su ndice como: i=85x50/100=42,5=43 o sea, el percentil 85 es: P85 = 119
9
10 11 12 13
1
0 2 4
17 28
2
0 3 6
2
2 5 7
2
4 5 8
4
6 8
5
6 9
5
6 9
6
7
25
7
8
26
27
29 38
30 39
31 40
32 41
33 42
34 43
35
36
37
44 48 50
45
46
47
49
14
57
Presentacin grfica
Las medidas de posicin se pueden presentar grficamente a travs de la llamada diagrama de caja. Para su construccin se requiere de lo que se conoce como resumen de 5 nmeros, los cuales son: mediana, cuartil 1, cuartil 3, dato menor y dato mayor (pag. 94). Para explicar el procedimiento, tomemos el ejemplo usado en el ejercicio anterior.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 58
Presentacin grfica
6 7 8 2 0 9 3 1 3 1 5 2 6 3 6 4 5 6
El resumen de 5 nmeros para este conjunto es: Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141
2
0
2
2
2
4
4
6
5
6
5
6
6
7
7
8
10 0
11
3
6 4
5
7
5
8
12 4 13 2 14 1
59
Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141 Primero se traza una recta numrica con una escala apropiada que abarque toda la amplitud o rango de los datos. Para este caso la escala debe ser de 65 a 145, amplitud un poco mayor a la del conjunto de dato
65
70
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
60
Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141 En segundo lugar, se traza un rectngulo cuya longitud sea igual al rango intercuartil, (RIC), es decir, desde el Q1 hasta el Q3.
RIC = Q3 Q1
Q1 Q3
65
70
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
61
Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141
Luego se marca la posicin de la mediana con una recta vertical dentro del rectngulo o caja.
Q1
Q3
65
70
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
62
Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141
68 Q1
Por ltimo se trazan dos lneas punteadas llamadas bigotes que van desde los cuartiles primero y tercero hasta el dato menor y mayor, respectivamente. Nota.- La longitud mxima de los bigotes es: 1,5(RIC). Si existe un dato que se aleje de la caja ms que dicha distancia, el bigote se corta y el dato se marca con un asterisco.
X Q3 141
65
70
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
63
Presentacin grfica
El diagrama de caja est terminado
65
70
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
Con este diagrama tenemos una idea de la distribucin de los datos y de su simetra, ya que la caja indica la ubicacin del 50% de los datos alrededor de la mediana y se nota en que parte del rango hay ms datos.
64
Datos atpicos
Se llaman datos atpicos a aquellos datos que se alejan ms de 1,5(RIC), ya sea hacia debajo de Q1 o arriba de Q3. Veamos un ejemplo: considere el siguiente conjunto de datos : 70, 90, 93, 104, 132 .., podemos observar que son cinco y cada uno de ellos es parte del resumen de cinco nmeros, es decir, la mediana es 93, el primer cuartil es 90, el tercer cuartil es 104 y los otros son el menor y el mayor (70 y 132), Su diagrama de caja correspondiente ser:
65
70
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
65
Datos atpicos
.., la longitud mxima de los bigotes es: 1,5x(104-90) = 21, hacia abajo, la longitud hasta 70 es de 20 y entonces se traza el bigote en forma normal. Hacia arriba el bigote llega hasta 125 =(104+21), y el dato mayor (132) se indica con un asterisco y este dato se considera como atpico.
--longitud mxima --
*
65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140 145
66
Ejercicio 3.4
67
75
80
85
90
95
100
105
110
115 120
125
130
135
140
145
150
155
160
68
Repaso
Una de las tareas principales de la estadstica descriptiva es la de ordenar y presentar los datos o informacin. Existen varias formas de ordenar los datos:
Mediante un diagrama de tallo y hojas A travs de una distribucin de frecuencia Por sus medidas de resumen Determinando sus medidas de posicin.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 69
Repaso
Los grficos asociados con una distribucin de frecuencia son:
Histograma Polgono de frecuencias Ojiva Grfico circular o de sectores o de pastel
Las medidas de resumen se pueden presentar con un grfico de dispersin Para presentar las medidas de posicin existe el diagrana de Caja.
70
Ejercicio de repaso
Con los datos de la tabla elabora lo siguiente:
Un diagrama de tallo y hojas Una distribucin de frecuencia Un histograma Un polgono de frecuencia Una ojiva Un grfico circular Un diagrama de dispersin Un diagrama de caja
19 25 20 29 25 29 22 13 19 14 19 15 27 24 17 16 22 21 18 30 28 21 10 23 24
71
0 5
0 5 0
3 6
1 5
4 7
1 7
8
2 8
9
2 9
9
3 9
9
4 4
72
Intervalo 10X<14
14X<18 18X<22
M.C. 12
16 20
f 2
4 7
f acum 2
6 13
IV
V
22X<26
26X30
24
28
7
5
20
25
73
frecuencia real
74
frecuencia real
75
frecuencia acumulada
20 15 10 5 0 6 10 14 18 22 26 30 lm ite s de clas e
76
5; 20%
7; 28%
77
78
Q1
Q3
18
25
min
max
10
30
10
12
14
16
18
20
22
24
26
28
30
32
79
moda amplitud
DAM varianza
19 20
4,288 28,42
desv.est
5,331
80
Datos agrupados
En ocasiones tenemos informacin ya ordenada en una distribucin de frecuencia y carecemos de los datos originales, pero an as se pueden estimar, con bastante aproximacin, las medidas de resumen y de localizacin. Veremos los procedimientos para estimar la media, la mediana, la varianza y la desviacin estndar.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 81
Xf Xf X f n
Departamento de Ingeniera Industrial
82
Media = 20,71
83
Ejemplo
Estime la media de los datos siguientes:
Clase
I II III IV
Intervalo
10X<14 14X<18 18X<22 22X<26
M.C.
12 16 20 24
f
2 4 7 7
f acum
2 6 13 20
26X30
28
25
Xf Xf X f n
De acuerdo a la expresin anexa, el clculo se debe hacer as: X =(12x2 + 16x4 + 20x7 + 24x7 + 28x5)/25 = (24 + 64 + 140 + 168 + 140)/25 = (536)/25 = 21,44 La media calculada con los datos originales es 21.2
Departamento de Ingeniera Industrial 84
3-22
85
Ejemplo
Estime la mediana de los datos siguientes:
Clase
I II III IV
Intervalo
10X<14 14X<18 18X<22 22X<26
M.C.
12 16 20 24
f
2 4 7 7
f acum
2 6 13 20
26X30
28
25
Puesto que son 25 datos, la mediana es 13 valor y ste se encuentra en la clase III. Si se considera que los datos se reparten uniformemente en la clase, quedaran como se muestra a continuacin:
7 8 9 10 11 12 13
18
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial
22
86
Ejemplo
Clase
I II III IV
Intervalo
10X<14 14X<18 18X<22 22X<26
M.C.
12 16 20 24
f
2 4 7 7
f acum
2 6 13 20
26X30
28
25
El valor del 13 dato ser entonces:18 + seis espacios uniformes, en donde cada espacio mide = intervalo de clase / nm.de datos o frecuencia de la clase = 4/7 entonces: mediana = 18 + 6 x 4/7 = 21,428
7 8 9 10 11 12 13
18
21,428
22
87
3-41
Ejemplo
Estime la varianza de los datos siguientes:
Clase I Intervalo 10X<14 M.C. 12 f 2 f acum 2
II
III IV V
14X<18
18X<22 22X<26 26X30
16
20 24 28
4
7 7 5
6
13 20 25
(f i X i ) 2 f i X i n s2 n 1
2
S2 =[ [2x (12)2+ 4x (16)2+ 7x (20)2 +7x (24)2 +5x (28)2] (2x 12+ 4x 16+ 7x 20 +7x 24 +5x 28)2/25 ] / 24 S2 = 23,84 S = 4,88
89
Ejercicio 3.5
Estime la media, la mediana, la moda, la varianza y la desviacin estndar de los datos siguientes:
Clase
Intervalo
M.C.
f acum
I
II III IV V
1X<3
3X<5 5X<7 7X<9 9X11
2
4 6 8 10
3
5 6 5 4
3
8 14 19 23
90
II
III IV V
3X<5
5X<7 7X<9 9X11
4
6 8 10
5
6 5 4
8
14 19 23
91
Clase
I II III IV
Intervalo
1X<3 3X<5 5X<7 7X<9
M.C.
2 4 6 8
f
3 5 6 5
f acum
3 8 14 19
9X11
10
23
92
Clase
I II III IV
Intervalo
1X<3 3X<5 5X<7 7X<9
M.C.
2 4 6 8
f
3 5 6 5
f acum
3 8 14 19
9X11
10
23
93
Intervalo
1X<3 3X<5 5X<7 7X<9
M.C.
2 4 6 8
f
3 5 6 5
f acum
3 8 14 19
9X11
10
23
94
S = 2,565
Clase I
Intervalo 1X<3
M.C. 2
f 3
f acum 3
II
III IV V
3X<5
5X<7 7X<9 9X11
4
6 8 10
5
6 5 4
8
14 19 23
95
Coeficiente de variacin
El coeficiente de variacin se define como la razn de la desviacin estndar entre la media y se expresa generalmente en porcentaje, o sea: C.V. = (S / X) * 100 Para el ejemplo anterior sera: C.V. = (2,565/6,1739)*100 = 41,54 %
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 96
Coeficiente de variacin
El coeficiente de variacin sirve para tener una idea ms clara de la variacin de una variable. Por ejemplo, si dos conjuntos de datos tienen una desviacin estndar igual a 2,0 pero el primero tiene una media de 4 y el segundo, una media de 20, podemos decir que aunque el valor absoluto de la desviacin estndar es igual para los dos, la variabilidad es mucho mayor en el primero, que en el segundo. Calculando sus coeficientes, tenemos: C.V.1 = 2 / 4 * 100 = 50% y C.V.2 = 2 / 20 * 100 = 10%
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 97
Coeficiente de asimetra
El coeficiente de asimetra nos sirve para determinar si una distribucin es simtrica o no lo es, y se calcula como:
) 3( X X C. A. Sx
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 98
Coeficiente de asimetra
Como puede observarse, este coeficiente puede ser menor, igual o mayor que cero. Si ste es cero, quiere decir que la distribucin es simtrica, es decir, existen el mismo nmero de datos a cada lado de la media, pues sta sera igual a la mediana
) 3( X X C. A. Sx
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 99
Coeficiente de asimetra
Si ste es cero, quiere decir que la distribucin es simtrica, es decir, existen el mismo nmero de datos a cada lado de la media, pues sta sera igual a la mediana y a la moda, y por lo tanto, estaran ubicadas al centro de la distribucin.
10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9
100
Coeficiente de asimetra
Si el coeficiente es mayor que cero (+), la distribucin tiene sesgo a la derecha pues la media es mayor que la mediana y la moda es la menor de las tres, como se muestra en la figura adjunta:
Por: Jos Antonio Torres T.
12 10 8 6 4 2 0 1
101
Coeficiente de asimetra
Si el coeficiente es menor que cero (-), la distribucin tiene sesgo a la izquierda pues la media es menor que la mediana y la moda es la mayor de las tres, como se muestra en la figura adjunta:
Por: Jos Antonio Torres T.
14 12 10 8 6 4 2 0 1 2 3 4 5 6 7
102
Teorema de Chebyshev
El teorema de Chebyshev sirve para tener una idea del porcentaje de datos que se encuentran dentro de un rango alrededor de la media, medido en un nmero de desviaciones estndar antes y despus de la media. El teorema dice as: Para cualquier grupo de observaciones (muestra o poblacin), el porcentaje de valores que se encuentra dentro de k desviaciones estndar alrededor de la media es, al menos, (1 1/k2)*100, donde k es cualquier valor mayor que 1.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 103
Teorema de Chebyshev
Ejemplo:
Si se tiene un conjunto de datos cuya media es 5 y su desviacin estndar es de 0,8 y quisiera estimar el porcentaje de valores que se encuentran ubicados entre los lmites de 3,8 y 6,2 slo tengo que determinar cuntas veces cabe la desviacin estndar entre cada lmite y la media. Es decir, (5-3,8) / 0,8 = 1,2 / 0,8 = 1,5 y (6,2-5)/0,8 = 1,5, en otras palabras, el rango 3,8 6,2 se puede expresar tambin de la forma: 5 1,5(0,8), o sea, X k*Sx, en donde X = 5, k = 1,5 y Sx = 0,8 y como k es 1,5, entonces, el porcentaje de valores entre esos lmites es, al menos, (1 1/1,52) * 100 = 44.4%
104
Ejercicio 3.6
Calcule el porcentaje de valores que se encuentran entre 16 y 24, si la media del conjunto de datos es 20 y la desviacin estndar es de 2,0 utilizando para ello el teorema de Chebyshev.
105
Entre 16 y 20, la desviacin estndar cabe dos veces y tambin entre 24 y 20, es decir, el rango es 20 2*2 y sto quiere decir que el valor de k es 2, por lo tanto, el porcentaje de valores entre 16 y 24 es, por lo menos: % = (1 ) * 100 = 75%
106
Regla Emprica
La regla Emprica tambin sirve para estimar el porcentaje de valores que se encuentra dentro del rango X k*Sx, pero sta se aplica slo a distribuciones simtricas tipo campana invertida, como la que se muestra a un lado:
107
Regla Emprica
La regla Emprica dice que el porcentaje de valores en el rango X 1*Sx es 68% aproximadamente. Cuando k vale 2, el porcentaje es 95% y para el rango X 3*Sx es 99,3%
-3
-2
-1
108
Regla Emprica
Ejemplo: si la media del conjunto es 30 y la desviacin estndar es 4, el porcentaje de valores entre 26 y 34 es de 68%; el porcentaje entre 22 y 38 es, entonces, 95% y entre 18 y 42 se encuentra el 99,3% de los valores.
18
22
26
30
X X 1 Sx,, 68% X 2 Sx,, 95%
34
38
42
X 3 Sx,, 99%
109
Repaso
Las medidas de resumen se dividen en dos tipos: las de tendencia central( media, mediana y moda) y las de dispersin o variabilidad (amplitud, desviacin absoluta media, varianza y desviacin estndar). Medidas de tendencia central:
La media representa el punto de equilibrio del conjunto de datos y se calcula como un promedio aritmtico, es decir, se suman todos los valores y se divide entre el nmero de valores sumados.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 110
Repaso
La mediana es el punto medio del conjunto de datos ORDENADO. En otras palabras, es el valor que divide al conjunto de datos en dos subconjuntos de igual nmero de elementos. La moda es el valor (o valores) que se repite el mayor nmero de veces (de mayor frecuencia)
Medidas de dispersin:
Amplitud o Rango es la diferencia de los valores extremos, es decir, el dato mayor menos el dato menor.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 111
Repaso
La desviacin absoluta media, como su nombre lo indica, es la distancia promedio que existe entre los datos y la media, sin importar su signo o direccin. La varianza es la desviacin cuadrtica media, es decir, el promedio del cuadrado de las distancias de los puntos hacia la media. La desviacin estndar es la raz cuadrada positiva de la varianza, lo cual se traduce tambin, como una desviacin promedio de los valores hacia la media del conjunto, casi el mismo significado de la desviacin absoluta media, pero calculado de diferente manera.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 112
Repaso
Las medidas de posicin, son valores que dividen al conjunto de datos ORDENADO en un nmero de subconjuntos con el mismo nmero de datos cada uno. Las medidas de posicin son:
La mediana (considerada tambin como de tendencia central) Los cuartiles, ( 4 subconjuntos del 25% c/u) Los deciles (10 subconjuntos del 10% c/u)
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 113
Repaso
Los percentiles (100 subconjuntos del 1% c/u)
Con la mediana, los cuartiles y el rango se puede desarroliar el diagrama de caja, con el cual se ponen en evidencia los datos aberrantes o atpicos, que son aquellos demasiado pequeos o demasiado grandes, comparados con el conjunto de datos en general.
114
Repaso
Tanto las medidas de resumen, como las de posicin, se pueden estimar si tenemos los datos agrupados en una distribucin de frecuencias. Conociendo las medidas de resumen y/o las de posicin podemos intuir como es el conjunto de datos, independientemente del nmero de datos que existan en el conjunto.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 115
Repaso
Si conocemos la media y la desviacin estndar podemos juzgar cul de los conjuntos de datos ( o variables) tienen mas variacin, a travs del coeficiente de variabilidad. Conociendo las medidas de tendencia central y la desviacin estndar podemos interpretar si el conjunto de datos es simtrico o tiene sesgo, calculando el coeficiente de asimetra.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 116
Repaso
Para estimar el porcentaje de datos o valores ubicados en un rango alrededor de la media, existen dos criterios:
El teorema de Chebyshev y La regla emprica
El primero se usa para cualquier distribucin, es decir, sin importar si es simtrica o n, y el segundo se aplica slo a distribuciones simtricas tipo campana invertida.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 117
Repaso
60
120 100 80 60 40 20 0
Cul de los cuatro conjuntos de datos mostrados en las grficas de dispersin tiene la media mayor?
50 40 30 20 10 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
118
Repaso
60
20,2
120 100 80 60 40 20 0
media mayor?
50 40 30 20 10 0
53,8
El conjunto B
56 55 54 53 52 51 50 49 48 47
C
51,8
20 18 16 14 12 10 8 6 4 2 0
14,9
119
Repaso
60
120 100 80 60 40 20 0
50 40 30 20 10 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
120
Repaso
60
A 48
120 100 80 60 40 20 0
91
mayor amplitud?
50 40 30 20 10 0
El conjunto B
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
121
Repaso
60
120 100 80 60 40 20 0
50 40 30 20 10 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
122
Repaso
60
120 100 80 60 40 20
50 40 30 20 10 0
14,65
20,67
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
1,509
2,695
123
Repaso
60
50 40 30 20 10 0
120 100 80 60 40 20 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
124
Repaso
60
50 40 30 20 10 0
120 100 80 60 40 20 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
125
Repaso
60
120 100 80 60 40 20 0
50 40 30 20 10 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6 4 2 0
126
Repaso
60
120 100 80 60 40 20 0
50 40 30 20 10 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10
8 6 4 2 0
127
Repaso
60
50 40 30 20 10 0
120 100 80 60 40 20 0
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10
8 6 4 2 0
128
Repaso
60
C.A. = 0,65
120 100 80 60 40 20 0
50 40 30 20 10 0
C.A. = 0,406
56 55 54 53 52 51 50 49 48 47
20 18 16 14 12 10 8 6
C.A. = -0,113
C.A. = 0,596
4 2 0
129
Repaso
60 50 40 30 20 10 0
120 100 80 60 40 20 0
56 55 54 53 52 51 50 49 48 47
20
* 0 10
** 20 30 40 50 60 70 80
* * *** 90 100
18 16 14 12 10 8 6 4 2 0
130
Repaso
120 100 80 60 40 20 0
B
* 0 10
** 20 30 40 50 60 70 80
* * *** 90 100
131