Está en la página 1de 131

Repaso

Los datos obtenidos en un estudio estadstico se pueden ordenar elaborando un diagrama de tallo y hojas o una distribucin de frecuencia agrupada (pag.30 Anderson) o no agrupada (pag.25 Anderson), segn sea el tipo de los datos. El diagrama de tallo y hojas (pag. 39 Anderson) y las distribuciones de frecuencia agrupada se utilizan para datos cuantitativos, mientras que las distribuciones de frecuencia no agrupadas se usan principalmente para datos cualitativos
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 2

Repaso
Las distribuciones de frecuencia agrupadas, deben tener las tres caractersticas siguientes: Uniformidad, Unicidad y Completez. La uniformidad se obtiene dividiendo el rango de los datos entre el nmero de clases escogido. La unicidad se obtiene utilizando smbolos de desigualdad en los lmites de clase y la completez escogiendo un intervalo de clase apropiado que garantice que se cubra el rango total de datos con las clases obtenidas.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 3

Repaso
Las distribuciones de frecuencia agrupadas, se elaboran siguiendo los pasos que se indican:
Seleccin del nmero de clases Determinacin del tamao de clase Identificacin de los lmites de clase Conteo de los datos por marcas Presentacin de la tabla de frecuencias.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

Repaso
La frecuencia se puede presentar de diferentes maneras, a saber:
Frecuencia real o absoluta y acumulada Frecuencia relativa y relativa acumulada Porcentaje individual y acumulado Datos mayores o iguales que y menores que.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

Repaso: Presentaciones grficas


Histograma (pag.33)
Grfico de barras con eje horizontal indicando los lmites de clase ( o valores cualitativos) y el eje vertical indicando la frecuencia real, la relativa o el porcentaje
frecuencia

12 10 8 6 4 2 0
68,5 X<78,5 78,5 X<89 89,05 X<99,5 99,5 X<110,0 110 X<120,5 120,5 X<131 131 X<141,5

Polgono
Grfico de lneas cuyo eje horizontal indica los puntos medios de cada clase (marca de clase) y el vertical la frecuencia real, la relativa o el porcentaje
13 12 11 10 9 8 7 6 5 4 3 2 1 0

Polgono de frecuencias

Frecuencia

10

15

20

25

30

35

Marcas de clase

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

Repaso: Presentaciones grficas


Ojiva (pag.35)
Grfico de lneas con los lmites de clase en el eje horizontal y la frecuencia acumulada, la relativa acumulada o el porcentaje acumulado en el eje vertical.
frec.acumulada
35 30 25 20 15 10 5 0
0 1 13

Ojiva
28 23 29 30

7,5

12,5

Circular (de pastel) (pag.26)


Un crculo se divide de forma proporcional a la frecuencia real, la relativa o el porcentaje y las reas del crculo se asignan a los diferentes clases o a diferentes valores.
Por: Jos Antonio Torres T.
I-68,5 X<78,5 II-78,5 X<89 III-89,05 X<99,5 IV-99,5 X<110,0 V-110 X<120,5 VI-120,5 X<131 VII-131 X<141,5

17,5 22,5 27,5 lmites de clase

32,5

37,5

% de pruebas por clase


6% 8% 14% 16% 16%

18%

22%

Departamento de Ingeniera Industrial

Repaso: Presentaciones grficas


Diagrama de barras: Es el grfico correspondiente al histograma, pero aplicado a datos cualitativos o cuantitativos NO AGRUPADOS (pag.26)
# desempleados/100,000 10000 8000 7300 6700

8900

8200

8900

6000
4000 2000 0 A

5400

Atlanta Boston Chicago Los Angeles New York Washington


Ch LA NY W

Ciudades
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 8

1-1

Descripcin de datos:
OBJETIVOS

Medidas de resumen y de posicin

Cuando haya terminado esta sesin deber ser capaz de: UNO Calcular la media aritmtica, la mediana, la moda y la media ponderada. DOS Calcular e interpretar el rango, la desviacin absoluta media, la varianza y la desviacin estndar. TRES Determinar las medidas de posicin y elaborar diagramas de caja. CUATRO Estimar las medidas de resumen y de posicin a partir de datos agrupados

CINCO Calcular e interpretar el coeficiente de variabilidad y de asimetra y aplicar el teorema de Chebyshev y la regla emprica.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 9

Introduccin
A parte de ordenar los datos con las tcnicas vistas anteriormente, existen mtodos para resumir los datos con ciertas medidas, de manera que conociendo esas medidas, nos demos una idea de las caractersticas generales del conjunto de datos. A estas medidas se les conoce como MEDIDAS DE RESUMEN.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 10

Medidas de Resumen
Estas medidas se clasifican en dos:
Medidas de tendencia central(de localizacin) (pag.74)
Media Mediana Moda

Medidas de variabilidad (pag.83)


Amplitud Desviacin Absoluta Media Varianza Desviacin Estndar

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

11

Medidas de Tendencia Central


Media (X):
Representa el punto de equilibrio de los datos y se calcula como un promedio de los datos. Es decir, es igual a la suma de todos los datos dividida entre el total de datos.

Mediana (X):
Es el punto medio del conjunto de los datos ordenados por valor (de menor a mayor). Dicho de otra manera, es el valor que divide al conjunto de datos en dos grupos con el mismo nmero de datos, uno de ellos est por debajo de la mediana y el otro por encima de ella.

X = xi /n

Moda (Moda):
Es el valor o valores que se repiten mayor cantidad de veces, es decir, es el valor o valores con mayor frecuencia.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

12

Ejemplo 3.1
Determine la media, la mediana y la moda del conjunto de datos siguiente:
4, 5, 7, 5, 6, 4, 4

Solucin:
La media se calcula
(4+5+7+5+6+4+4)/7 = 35/7= 5

Para la mediana ordenamos los datos:


4,4,4,5,5,6,7 y el valor central es el 5

Y como podemos observar, el 4 es el que aparece mayor nmero de veces, por lo tanto, la moda es 4

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

13

3-3

Media (aritmtica)
Si se trata de una poblacin completa la media se representa por y si se trata de una muestra se representa por X

= x / N
i

i 1

X=

x /n
i

i 1

Donde es la media poblacional y X la media muestral; xi es cualquier dato, N es el nmero total de datos de la poblacin y n es el nmero total de datos de la muestra .
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 14

3-7

Propiedades de la media aritmtica


Cada conjunto de datos numricos tiene una media nica. En el clculo de la media se incluyen todos los valores. La media se altera al aparecer valores grandes o pequeos en los datos. La media aritmtica es la nica medida de tendencia central donde la suma de las desviaciones de cada valor con respecto a la media siempre es igual a cero.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

15

3-8

Ejemplo 3.2 Considere el conjunto de valores : 3, 8 y 4. La media es 5. Ilustrando la cuarta propiedad, (3-5) + (8-5) + (4-5) = -2 +3 -1 = 0. En otras palabras, n

i 1

( Xi X ) 0
Departamento de Ingeniera Industrial

Por: Jos Antonio Torres T.

16

3-9

Media ponderada
La media ponderada de un conjunto de nmeros X1, X2, ..., Xn, con sus pesos correspondientes w1, w2, ...,wn, se calcula por medio de la siguiente frmula:

Xw ( w1 X 1 w2 X 2 ... wnXn ) / ( w1 w2 ... wn ) Xw ( w * X ) / w

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

17

3-10

Ejemplo 3.2
En un sbado por la tarde, durante una hora, el barman de la taberna La cabaa de Chris sirvi cincuenta bebidas. Calcule la media ponderada del precio de las bebidas. (precio [$]; nmero de bebidas): (0.50;5), (0.75;15), (0.90;15), (1.10;15). La media ponderada es: $(,50x5 + ,75x15 + ,90x15 + 1,10x15)/(5 + 15 + 15 + 15) = $43,75/50 = $0,875
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 18

3-12

Ejemplo 3.3
Calcule la mediana de los siguientes datos.
En una muestra de cinco estudiantes las edades son: 21, 25, 19, 20 y 22.

Solucin:
Arreglando los datos de manera ascendente se obtiene: 19, 20, 21, 22, 25. Entonces la mediana es 21.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

19

3-12

Ejemplo 3.4
Las alturas de cuatro jugadores de basquetbol, en pulgadas, son 76, 73, 80 y 75. Solucin:
Arreglando los datos de manera ascendente se obtiene : 73, 75, 76, 80. Entonces la mediana es 75.5.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

20

3-13

Propiedades de la mediana
Solamente existe una mediana por cada conjunto de datos. A la mediana no la afectan valores extremadamente grandes o pequeos, en consecuencia es una medida de tendencia central valiosa cuando aparecen ese tipo de valores. Se puede calcular para cualquier conjunto de datos numricos.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

21

3-14

Ejemplo 3.5
Las calificaciones de un examen para diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la calificacin 81 es la que ms veces aparece, la calificacin modal es 81.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

22

2-9

Encuentre la media, la mediana y la moda de los datos del diagrama de tallo y hojas:

Ejercicio 3.1

Tallo
6 9

hojas

7
8

89
234568

126

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

23

2-9

Solucin:

Ejercicio 3.1

Sumando todos los datos obtenemos un total de 1013 y dividiendo entre 12 datos = 84,41667 La mediana es el valor intermedio entre 84 y 85, o sea, 84,5 El conjunto carece de moda ( es amodal)
Tallo 6 9 hojas

7
8 9

89
234568 126
Departamento de Ingeniera Industrial 24

Por: Jos Antonio Torres T.

Medidas de variabilidad o dispersin

Amplitud. Es el rango de los datos, es decir, la diferencia entre el valor mayor y el menor.

Desviacin Absoluta Media. Es el promedio de la distancia (desviacin) absoluta de los datos hacia la media.

Varianza. Es la desviacin cuadrtica media.

Desviacin Estndar. Es la raz cuadrada positiva de la varianza.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

25

En el diagrama se muestran los datos: 4, 5, 5, 6, 4, 7 y 4. Se muestra tambin la media con una horizontal.

Diagrama de dispersin
8 6

valor

4 2 0 0 1 2 3 4 5 6 7

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

26

La amplitud (A) del conjunto es 7 - 4 = 3 y se muestra con la flecha negra. Las desviaciones de los datos respecto a la media se muestran con flechas rojas y sus valores son: -1, 0, 0, +1,-1, +2 y -1

Diagrama de dispersin
8 6

valor

4 2 0 0 1 2 3 4 5 6 7

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

27

Como ya sabemos, la suma de las desviaciones de los datos respecto de la media es igual a cero (-1+0+0+1-1+2-1=0), sin embargo, si tomamos los valores absolutos (1+0+0+1+1+2+1) el resultado es 6 y el promedio de la desviacin ser entonces 6/7.Por lo tanto, la Desviacin Absoluta Media es de 6/7.

Diagrama de dispersin
8 6

valor

4 2 0 0 1 2 3 4 5 6 7

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

28

Otra manera de evitar que la suma de las desviaciones se vuelva cero es elevando al cuadrado cada valor de desviacin (-12+02+02+12-12+22-12=8), y el promedio de la desviacin cuadrtica ser entonces 8/7.Por lo tanto, la Desviacin Cuadrtica Media o Varianza es de 8/7.

Diagrama de dispersin
8 6

valor

4 2 0 0 1 2 3 4 5 6 7

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

29

Si la Varianza es de 8/7, entonces, la Desviacin Estndar es de 8/7 = 1,069. Aunque no es igual este valor al DAM ( 6/7 = 0,8571), su interpretacin es similar, es decir, es la estimacin de la desviacin de los datos respecto de la media.

Diagrama de dispersin
8 6

valor

4 2 0 0 1 2 3 4 5 6 7

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

30

Ecuaciones de clculo
Desviacin Absoluta Media Varianza poblacional ecuacin conceptual Varianza poblacional

(X X ) DAM
i

2
2

2 ( X i )

N
2 X i

ecuacin de clculo

Donde 2 es la varianza poblacional, Xi es cada uno de los datos, X es la media muestral, n el tamao de la muestra, es la media poblacional y N nmero de datos ( o tamao) de la poblacin
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 31

Ecuaciones de clculo
Varianza muestral ecuacin conceptual Varianza muestral

S2

2 ( X i X )

n 1

ecuacin de clculo

2 ( X i ) 2 Xi n S2 n 1

Donde S2 es la varianza muestral, Xi es cada uno de los datos, X es la media muestral y n el tamao de la muestra

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

32

Ecuaciones de clculo
Desviacin estndar poblacional
ecuacin conceptual Desviacin estndar poblacional ecuacin de clculo

( X )
i

N
2 X i

Donde es la desviacin estndar poblacional, Xi es cada uno de los datos, es la media poblacional y N nmero de datos ( o tamao) de la poblacin
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 33

Ecuaciones de clculo
Desviacin estndar muestral

ecuacin conceptual
Desviacin estndar muestral

2 ( X i X )

n 1

ecuacin de clculo

2 ( X i ) 2 Xi n S n 1

Donde S es la desviacin estndar muestral, Xi es cada uno de los datos, X es la media muestral y n el tamao de la muestra

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

34

Ejercicio 3.2
Determine el valor de las medidas de dispersin para los siguientes datos.. 12,11,17,10,15 Evale la varianza y la desviacin estndar como poblacin y como muestra

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

35

Ejercicio 3.2 (solucin)


12,11,17,10,15
Amplitud = 17-10 = 7 ( Xi X )

DAM

media:(10+11+12+15+17)/5 = 65/5=13 DAM= (3+2+1+2+4)/5 = 12/5 = 2.4

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

36

Ejercicio 3.2 (solucin)


12,11,17,10,15 media = 13 Varianza (poblacional)

2 ( X i )

2 =(10-13)2+(11-13)2+(12-13)2+(15-13)2+(17-13)2 5 = (9+4+1+4+16)/5 = 34/5 = 6,8

Desviacin estndar (poblacional)


= 6,8 = 2,607

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

37

Ejercicio 3.2 (solucin)


12,11,17,10,15 media = 13 Varianza (poblacional)

2 X i

2 =(10)2+(11)2+(12)2+(15)2+(17)2 _ (13)2 5 = (100+121+144+225+289)/5 169 =175,8 169 = 6,8

Desviacin estndar (poblacional)


= 6,8 = 2,607

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

38

Ejercicio 3.2 (solucin)


12,11,17,10,15 media = 13 Varianza (muestral)

S2

2 ( X i X )

n 1

S2 =(10-13)2+(11-13)2+(12-13)2+(15-13)2+(17-13)2 4 = (9+4+1+4+16)/4 = 34/4 = 8,5

Desviacin estndar (muestral)


S = 8,5 = 2,915

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

39

Ejercicio 3.2 (solucin)


12,11,17,10,15 media = 13 Varianza (muestral)

2 ( X i ) 2 X i 2 n S n 1

S2 =(10)2+(11)2+(12)2+(15)2+(17)2 _ (65)2/5 4 = ((100+121+144+225+289) 845)/4= (879 845)/4 = 8,5

Desviacin estndar (muestral)


S = 8,5 = 2,915

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

40

Medidas de posicin (pag.77)


Las medidas de posicin o de localizacin son:
Mediana Cuartiles Deciles y Percentiles

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

41

Medidas de posicin Como ya se haba visto, la mediana es el valor que divide al grupo de datos ordenados en dos subconjuntos con el mismo nmero de datos en cada uno(la mitad en uno y la mitad en otro. Por ejemplo: si se tienen los valores siguientes 3, 4, 6, 7, 9, la mediana sera el 6, ya que debajo de este valor existen 2 datos y arriba del mismo otros dos datos.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 42

Medidas de posicin
Las dems medidas se basan en el mismo razonamiento, es decir, los cuartiles, que son 3, son los valores que dividen al conjunto de datos ordenado en cuatro subconjuntos de datos, todos ellos con igual cantidad de datos. Ejemplo: tomando los valores del ejemplo anterior (3, 4, 6, 7, 9) , el cuartil uno Q1 tiene un valor de 3.5, el cuartil dos Q2 es el mismo valor que la mediana, o sea, 6 y el cuartil tres Q3 es 8.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

43

Medidas de posicin
Vemoslo con manzanas Los datos (o manzanas) son (3, 4, 6, 7, 9), entonces los valores que dividen al conjunto de cinco manzanas en cuatro grupos de 1 manzana cada uno son: Q1=3,5 (punto medio entre 3 y 4 ), debajo de 3,5 hay una manzana (3); Q2= 6 (valor central), entre el 3,5 y el 6 existe solo una manzana, el valor 4, y el Q3= 8, que es el valor central entre 7 y 9. Entre el 6 y el 8 hay una manzana y tambin despus del 8

3 Q1

6 Q2

8 Q3

10

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

44

Medidas de posicin
Los deciles son nueve valores o puntos (D1, D2, , D9) que dividen al conjunto de datos ordenado en 10 subconjuntos de datos en los cuales existe el 10% del total de datos.
Ejemplo: Tomando el conjunto de datos del diagrama adjunto, como son diez, los deciles sern los puntos medios entre cada uno de los datos, o sea, entre el 69 y el 78 se encuentra el 73,5 que es el decil uno. El decil dos queda entonces entre el 78 y el 79, es decir, 78,5 y as sucesivamente. El decil nueve ser 94

6
7

9
89

8
9

2458
126

65

70
D1

75

80

85

90
D7 D 8

95
D9

100

D2 D3 D4 D 5 D6

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

45

Medidas de posicin
De manera anloga, los percentiles son 99 valores o puntos (P1, P2, , P99) que dividen al conjunto de datos ordenado en 100 subconjuntos de datos en los cuales existe el 1% del total de datos.
Ejemplo: Tomando el conjunto de datos del diagrama adjunto, como son diez, los percentiles 10, 20, 30, 40, 50, 60, 70, 80, 90 sern los puntos medios entre cada uno de los datos, o sea, entre el 69 y el 78 se encuentra el 73,5 que es el percentil diez. El percentil veinte queda entonces entre el 78 y el 79, es decir, 78,5 y as sucesivamente. El percentil noventa ser 94

6
7

9
89

8
9

2458
126

65

70
P10

75

80

85

90

95

100

P20 P30P40 P50P60 P70 P80 P90


46

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

Medidas de posicin
Podemos concluir que la mediana es, a su vez, el cuartil dos (Q2), el decil cinco (D5) y el percentil 50 (P50), ya que todos ellos estn al centro de los datos y tienen el mismo valor = 84,5. Del mismo modo, el cuartil uno es el percentil veinticinco y el cuartil tres es el percentil setenta y cinco.

Q1=P25

Q3 = P75

65

70

75

80

85

90

95

100

Mediana = Q2=D5= P50


Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 47

Clculo de medidas de posicin


Lo que debemos calcular para cada una de estas medidas, es el lugar que debe tener la medida en el conjunto de datos ordenado. La mediana est localizada al centro de los datos. Las dems medidas las ubicaremos de acuerdo al percentil que representan. Es decir, si quiero el D3, debo ubicar el P30 que es equivalente. En general, el ndice del lugar de ubicacin (no el valor) se calcula as:

Pj 100

xn

Donde i es el ndice de ubicacin, Pj el percentil equivalente y n es el nmero de datos.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

48

Clculo de medidas de posicin Pj i xn 100


Si el resultado de la operacin de clculo de ndice tiene fracciones, se toma siempre el nmero entero inmediato superior, y si el resultado es un nmero entero, el ndice ser el punto medio entre ese punto y el siguiente. Ejemplo: supongamos que se desea saber cual es la ubicacin del decil 6 (percentil 60) de un conjunto de 15 datos. Entonces:

Como el resultado es entero, entonces el D6 est ubicado entre el noveno y el dcimo dato.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 49

60 i x15 9,0 100

Ejercicio 3.3
Encuentra las medidas de posicin que se indican, para el conjunto de datos anexo. a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d) percentil 35 y e) percentil 85.
6 7 8 8 2 0 9 3 1 3 1 5 2 6 3 6 4 5 6

2
0

2
2

2
4

4
6

5
6

5
6

6
7

7
8

10 0

11

3
6 4

5
7

5
8

12 4 13 2 14 1

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

50

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 8
1

9
2

La mediana es el percentil 50, entonces: i= 50x50/100 = 25

7 8

2
3

3
4

3
5

5
6

6
7

6
8

1
10

1
11

2
12

3
13

4
14

5
15

6
16

9
10 11 12 13

1
0 2
37

2
0 3

2
2 5

2
4 5

4
6 8

5
6 9

5
6 9
43

6
7

7
25

8
26

8
27

17 28

18 29 38

19 30 39

20 31 40

21 32 41

22 33 42

23 34

24 35

8
36

Esto quiere decir que la mediana est entre el dato 25 y el 26 y su valor es igual a 97,5

4
44

6
45

7
46

8
47

2
48 50

4
49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

51

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 8
1

9
2

El cuartil uno es el percentil 25, entonces: i= 25x50/100=12,5=13

7 8

2
3

3
4

3
5

5
6

6
7

6
8

0
9

1
10 18

1
11 19

2
12 20

3
13 21

4
14 22

5
15 23

6
16 24

9
10 11 12 13

1
0 2 4

17 28

2
0 3 6

2
2 5 7

2
4 5 8

4
6 8

5
6 9

5
6 9

6
7

25

7
8

26

27

29 38

30 39

31 40

32 41

33 42

34 43

35

36

Esto quiere decir que el cuartil uno est en el dato 13 y su valor es igual a 83

37

44 48 50

45

46

47

49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

52

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 7 8 8
1

9
2

2
3

3
4

3
5

5
6

6
7

6
8

0
9

1
10 18

1
11 19

2
12 20

3
13 21

4
14 22

5
15 23

6
16 24

El cuartil dos es el percentil 50, o sea, igual a la mediana que ya habamos calculado, Q2 = 97,5

9
10 11 12 13

1
0 2 4

17 28

2
0 3 6

2
2 5 7

2
4 5 8

4
6 8

5
6 9

5
6 9

6
7

25

7
8

26

27

29 38

30 39

31 40

32 41

33 42

34 43

35

36

37

44 48 50

45

46

47

49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

53

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 7 8 8
1

9
2

2
3

3
4

3
5

5
6

6
7

6
8

0
9

1
10 18

1
11 19

2
12 20

3
13 21

4
14 22

5
15 23

6
16 24

El cuartil tres es el percentil 75, o sea, i=75x50/100=37,5=38 o sea, el cuartil 3 es: Q3 = 113

9
10 11 12 13

1
0 2 4

17 28

2
0 3 6

2
2 5 7

2
4 5 8

4
6 8

5
6 9

5
6 9

6
7

25

7
8

26

27

29 38

30 39

31 40

32 41

33 42

34 43

35

36

37

44 48 50

45

46

47

49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

54

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 7 8 8
1

9
2

2
3

3
4

3
5

5
6

6
7

6
8

0
9

1
10 18 29 38

1
11 19 30 39

2
12 20 31

3
13 21 32

4
14 22 33 42

5
15 23 34

6
16 24 35

El decil 7 es el percentil 70, o sea, i=70x50/100=35=35,5 o sea, el decil 7 es: D7 = 107,5

9
10 11 12 13

1
2 4

17

2
0 3 6

2
2 5 7

2
4 5 8

4
6 8

5
6 9

5
6 9

6
7

25

7
8

26

27

0 28
37

36

40

41

43

44 48 50

45

46

47

49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

55

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 7 8 8
1

9
2

2
3

3
4

3
5

5
6

6
7

6
8

0
9

1
10 18

1
11 19

2
12 20

3
13 21

4
14 22

5
15 23

6
16 24

El percentil 35 se calcula su ndice como: i=35x50/100=17,5=18 o sea, el percentil 35 es: P35 = 92

9
10 11 12 13

1
0 2 4

17 28

2
0 3 6

2
2 5 7

2
4 5 8

4
6 8

5
6 9

5
6 9

6
7

25

7
8

26

27

29 38

30 39

31 40

32 41

33 42

34 43

35

36

37

44 48 50

45

46

47

49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

56

Ejercicio 3.3 (solucin)


a) Mediana, b) Cuartiles 1, 2 y 3, c) decil 7, d)percentil 35 y e) percentil 85.
6 7 8 8
1

9
2

2
3

3
4

3
5

5
6

6
7

6
8

0
9

1
10 18

1
11 19

2
12 20

3
13 21

4
14 22

5
15 23

6
16 24

El percentil 85 se calcula su ndice como: i=85x50/100=42,5=43 o sea, el percentil 85 es: P85 = 119

9
10 11 12 13

1
0 2 4

17 28

2
0 3 6

2
2 5 7

2
4 5 8

4
6 8

5
6 9

5
6 9

6
7

25

7
8

26

27

29 38

30 39

31 40

32 41

33 42

34 43

35

36

37

44 48 50

45

46

47

49

14

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

57

Presentacin grfica
Las medidas de posicin se pueden presentar grficamente a travs de la llamada diagrama de caja. Para su construccin se requiere de lo que se conoce como resumen de 5 nmeros, los cuales son: mediana, cuartil 1, cuartil 3, dato menor y dato mayor (pag. 94). Para explicar el procedimiento, tomemos el ejemplo usado en el ejercicio anterior.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 58

Presentacin grfica
6 7 8 2 0 9 3 1 3 1 5 2 6 3 6 4 5 6

El resumen de 5 nmeros para este conjunto es: Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141

2
0

2
2

2
4

4
6

5
6

5
6

6
7

7
8

10 0

11

3
6 4

5
7

5
8

12 4 13 2 14 1

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

59

Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141 Primero se traza una recta numrica con una escala apropiada que abarque toda la amplitud o rango de los datos. Para este caso la escala debe ser de 65 a 145, amplitud un poco mayor a la del conjunto de dato

65

70

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

60

Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141 En segundo lugar, se traza un rectngulo cuya longitud sea igual al rango intercuartil, (RIC), es decir, desde el Q1 hasta el Q3.

RIC = Q3 Q1
Q1 Q3

65

70

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

61

Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141

Luego se marca la posicin de la mediana con una recta vertical dentro del rectngulo o caja.

Q1

Q3

65

70

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

62

Presentacin grfica
Mediana = 97,5 Primer cuartil = 83 Tercer cuartil = 113 Dato menor = 68 Dato mayor = 141
68 Q1

Por ltimo se trazan dos lneas punteadas llamadas bigotes que van desde los cuartiles primero y tercero hasta el dato menor y mayor, respectivamente. Nota.- La longitud mxima de los bigotes es: 1,5(RIC). Si existe un dato que se aleje de la caja ms que dicha distancia, el bigote se corta y el dato se marca con un asterisco.
X Q3 141

65

70

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

63

Presentacin grfica
El diagrama de caja est terminado

65

70

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

Con este diagrama tenemos una idea de la distribucin de los datos y de su simetra, ya que la caja indica la ubicacin del 50% de los datos alrededor de la mediana y se nota en que parte del rango hay ms datos.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

64

Datos atpicos
Se llaman datos atpicos a aquellos datos que se alejan ms de 1,5(RIC), ya sea hacia debajo de Q1 o arriba de Q3. Veamos un ejemplo: considere el siguiente conjunto de datos : 70, 90, 93, 104, 132 .., podemos observar que son cinco y cada uno de ellos es parte del resumen de cinco nmeros, es decir, la mediana es 93, el primer cuartil es 90, el tercer cuartil es 104 y los otros son el menor y el mayor (70 y 132), Su diagrama de caja correspondiente ser:

65

70

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

65

Datos atpicos

.., la longitud mxima de los bigotes es: 1,5x(104-90) = 21, hacia abajo, la longitud hasta 70 es de 20 y entonces se traza el bigote en forma normal. Hacia arriba el bigote llega hasta 125 =(104+21), y el dato mayor (132) se indica con un asterisco y este dato se considera como atpico.

--longitud mxima --

*
65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140 145

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

66

Ejercicio 3.4

Elabora un diagrama de caja que represente al conjunto de datos siguiente:


120, 125, 159, 75, 122, 145, 105, 110, 97, 85 Indica tambin si existen datos atpicos.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

67

Ejercicio 3.4 (solucin)


120, 125, 159, 75, 122, 145, 105, 110, 97, 85 Lo primero es ordenar los datos de menor a mayor: 75, 85, 97, 105, 110, 120, 122, 125,145, 159 Como son diez datos, la mediana est entre el 110 y el 120, o sea, es igual a 115, el primer cuartil es el tercer dato (97) y el tercer cuartil es 125. El dato menor es 75 y el mayor 159. El rango intercuartil es 125-97 = 28 La distancia mxima de los bigotes es 1,5 x 28 = 42 y no se rebasa sta, por lo tanto, no existen datos atpicos.

75

80

85

90

95

100

105

110

115 120

125

130

135

140

145

150

155

160

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

68

Repaso
Una de las tareas principales de la estadstica descriptiva es la de ordenar y presentar los datos o informacin. Existen varias formas de ordenar los datos:
Mediante un diagrama de tallo y hojas A travs de una distribucin de frecuencia Por sus medidas de resumen Determinando sus medidas de posicin.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 69

Repaso
Los grficos asociados con una distribucin de frecuencia son:
Histograma Polgono de frecuencias Ojiva Grfico circular o de sectores o de pastel

Las medidas de resumen se pueden presentar con un grfico de dispersin Para presentar las medidas de posicin existe el diagrana de Caja.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

70

Ejercicio de repaso
Con los datos de la tabla elabora lo siguiente:
Un diagrama de tallo y hojas Una distribucin de frecuencia Un histograma Un polgono de frecuencia Una ojiva Un grfico circular Un diagrama de dispersin Un diagrama de caja

19 25 20 29 25 29 22 13 19 14 19 15 27 24 17 16 22 21 18 30 28 21 10 23 24
71

Calcula tambin todas las medidas de resumen


Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

Ejercicio de repaso (solucin)


1a 1b
2a 2b 3a

0 5
0 5 0

3 6
1 5

4 7
1 7

8
2 8

9
2 9

9
3 9

9
4 4

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

72

Ejercicio de repaso (solucin) Clase I


II III

Intervalo 10X<14
14X<18 18X<22

M.C. 12
16 20

f 2
4 7

f acum 2
6 13

IV
V

22X<26
26X30

24
28

7
5

20
25

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

73

Ejercicio de repaso (solucin)


Histograma
8 7

frecuencia real

6 5 4 3 2 1 0 10X<14 14X<18 18X<22 clases 22X<26 26X30

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

74

Ejercicio de repaso (solucin)


polgono de frecuencias
8 7 6 5 4 3 2 1 0 8 12 16 20 24 28 32 m arcas de clase

Por: Jos Antonio Torres T.

frecuencia real

Departamento de Ingeniera Industrial

75

Ejercicio de repaso (solucin)


Ojiva 25

frecuencia acumulada

20 15 10 5 0 6 10 14 18 22 26 30 lm ite s de clas e

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

76

Ejercicio de repaso (solucin)


Diagrama circular

5; 20%

2; 8% 4; 16% 10X<14 14X<18 18X<22 22X<26 26X30 7; 28%

7; 28%

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

77

Ejercicio de repaso (solucin)


Diagrama de dispersin
35 30 25 20 15 10 5 0 0 5 datos media - desv.est 10 15 media media+desv.est 20 25

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

78

Ejercicio de repaso (solucin)


mediana 21

Q1
Q3

18
25

min
max

10
30

10

12

14

16

18

20

22

24

26

28

30

32

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

79

Ejercicio de repaso (solucin)


media mediana 21,2 21

moda amplitud
DAM varianza

19 20
4,288 28,42

desv.est

5,331

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

80

Datos agrupados
En ocasiones tenemos informacin ya ordenada en una distribucin de frecuencia y carecemos de los datos originales, pero an as se pueden estimar, con bastante aproximacin, las medidas de resumen y de localizacin. Veremos los procedimientos para estimar la media, la mediana, la varianza y la desviacin estndar.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 81

La media de datos agrupados


La media de una muestra de datos organizados en una distribucin de frecuencias se calcula de la siguiente manera: se multiplica cada marca de clase por las frecuencia correspondiente y se divide entre la suma de todas las frecuencias, o sea, el total de datos. La expresin matemtica de sto es:

Xf Xf X f n
Departamento de Ingeniera Industrial

Por: Jos Antonio Torres T.

82

La media de datos agrupados


Fsicamente, la media representa el punto de equilibrio de los datos ordenados.
F R E C U E N C I A
12 11 10 9 8 7 6 5 4 3 2 1 0 7,5 12,5 17,5 22,5 27,5 32,5 37,5

Media = 20,71

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

83

Ejemplo
Estime la media de los datos siguientes:
Clase
I II III IV

Intervalo
10X<14 14X<18 18X<22 22X<26

M.C.
12 16 20 24

f
2 4 7 7

f acum
2 6 13 20

26X30

28

25

Xf Xf X f n

De acuerdo a la expresin anexa, el clculo se debe hacer as: X =(12x2 + 16x4 + 20x7 + 24x7 + 28x5)/25 = (24 + 64 + 140 + 168 + 140)/25 = (536)/25 = 21,44 La media calculada con los datos originales es 21.2
Departamento de Ingeniera Industrial 84

Por: Jos Antonio Torres T.

3-22

La mediana de datos agrupados


La mediana de una muestra de datos organizados en una distribucin de frecuencias, se calcula de la manera siguiente:
Primero se debe determinar la clase en la que se encuentra la mediana, de acuerdo a la frecuencia acumulada. Para conocer el valor de la mediana se va a suponer que los datos se encuentran acomodados uniformemente dentro de la clase y que el primer dato de la clase se localiza en el lmite inferior de la misma.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

85

Ejemplo
Estime la mediana de los datos siguientes:
Clase
I II III IV

Intervalo
10X<14 14X<18 18X<22 22X<26

M.C.
12 16 20 24

f
2 4 7 7

f acum
2 6 13 20

26X30

28

25

Puesto que son 25 datos, la mediana es 13 valor y ste se encuentra en la clase III. Si se considera que los datos se reparten uniformemente en la clase, quedaran como se muestra a continuacin:
7 8 9 10 11 12 13

18
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial

22
86

Ejemplo
Clase
I II III IV

Intervalo
10X<14 14X<18 18X<22 22X<26

M.C.
12 16 20 24

f
2 4 7 7

f acum
2 6 13 20

26X30

28

25

El valor del 13 dato ser entonces:18 + seis espacios uniformes, en donde cada espacio mide = intervalo de clase / nm.de datos o frecuencia de la clase = 4/7 entonces: mediana = 18 + 6 x 4/7 = 21,428
7 8 9 10 11 12 13

18

18,571 19,142 19,712 20,285 20,857


Departamento de Ingeniera Industrial

21,428

22
87

Por: Jos Antonio Torres T.

3-41

Varianza muestral para datos agrupados


La expresin matemtica de la varianza muestral para datos agrupados se usa como una estimacin de la varianza poblacional: 2 ( f X ) 2 i i f i X i n s2 n 1 donde fi es la frecuencia de clase i y Xi es el punto medio de la clase i.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 88

Ejemplo
Estime la varianza de los datos siguientes:
Clase I Intervalo 10X<14 M.C. 12 f 2 f acum 2

II
III IV V

14X<18
18X<22 22X<26 26X30

16
20 24 28

4
7 7 5

6
13 20 25

(f i X i ) 2 f i X i n s2 n 1
2

S2 =[ [2x (12)2+ 4x (16)2+ 7x (20)2 +7x (24)2 +5x (28)2] (2x 12+ 4x 16+ 7x 20 +7x 24 +5x 28)2/25 ] / 24 S2 = 23,84 S = 4,88

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

89

Ejercicio 3.5
Estime la media, la mediana, la moda, la varianza y la desviacin estndar de los datos siguientes:

Clase

Intervalo

M.C.

f acum

I
II III IV V

1X<3
3X<5 5X<7 7X<9 9X11

2
4 6 8 10

3
5 6 5 4

3
8 14 19 23

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

90

Ejercicio 3.5 (solucin)


La media se estima as: X = (2x3 + 4x5 + 6x6 + 8x5 + 10x4)/23 X = (6 + 20 + 36 + 40 + 40 )/23 X = 142/23 = 6,1739
Clase I Intervalo 1X<3 M.C. 2 f 3 f acum 3

II
III IV V

3X<5
5X<7 7X<9 9X11

4
6 8 10

5
6 5 4

8
14 19 23

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

91

Ejercicio 3.5 (solucin)


La mediana (dato 12) estara ubicada en la clase III y se calcula como: 5 +3(2/6) = 5 + 1 = 6

Clase
I II III IV

Intervalo
1X<3 3X<5 5X<7 7X<9

M.C.
2 4 6 8

f
3 5 6 5

f acum
3 8 14 19

9X11

10

23

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

92

Ejercicio 3.5 (solucin)


La moda, por definicin, es la marca de clase con mayor frecuencia, es decir, 6

Clase
I II III IV

Intervalo
1X<3 3X<5 5X<7 7X<9

M.C.
2 4 6 8

f
3 5 6 5

f acum
3 8 14 19

9X11

10

23

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

93

Ejercicio 3.5 (solucin)


La varianza y la desviacin estndar se calculan as: S2 =[ [3x (2)2+ 5x (4)2+ 6x (6)2 +5x (8)2 +4x (10)2] (3x 2+ 5x4 + 6x6
+5x8 +4x10)2/23 ] / 22 S2 = [(12 + 80 + 216 + 320 + 400) (6 + 20 + 36 + 40 + 40)2 / 23] / 22 S2 = [(1028) (142)2 / 23] / 22 = ( 1028- 876,695 )/ 23 = 151,305 / 23 S2 = 6,57 S = 2,565
Clase
I II III IV

Intervalo
1X<3 3X<5 5X<7 7X<9

M.C.
2 4 6 8

f
3 5 6 5

f acum
3 8 14 19

9X11

10

23

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

94

Ejercicio 3.5 (solucin)


Resumiendo los resultados:
X = 6,1739, X = 6, moda = 6, S2 = 6,57

S = 2,565

Clase I

Intervalo 1X<3

M.C. 2

f 3

f acum 3

II
III IV V

3X<5
5X<7 7X<9 9X11

4
6 8 10

5
6 5 4

8
14 19 23

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

95

Coeficiente de variacin
El coeficiente de variacin se define como la razn de la desviacin estndar entre la media y se expresa generalmente en porcentaje, o sea: C.V. = (S / X) * 100 Para el ejemplo anterior sera: C.V. = (2,565/6,1739)*100 = 41,54 %
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 96

Coeficiente de variacin
El coeficiente de variacin sirve para tener una idea ms clara de la variacin de una variable. Por ejemplo, si dos conjuntos de datos tienen una desviacin estndar igual a 2,0 pero el primero tiene una media de 4 y el segundo, una media de 20, podemos decir que aunque el valor absoluto de la desviacin estndar es igual para los dos, la variabilidad es mucho mayor en el primero, que en el segundo. Calculando sus coeficientes, tenemos: C.V.1 = 2 / 4 * 100 = 50% y C.V.2 = 2 / 20 * 100 = 10%
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 97

Coeficiente de asimetra
El coeficiente de asimetra nos sirve para determinar si una distribucin es simtrica o no lo es, y se calcula como:

) 3( X X C. A. Sx
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 98

Coeficiente de asimetra
Como puede observarse, este coeficiente puede ser menor, igual o mayor que cero. Si ste es cero, quiere decir que la distribucin es simtrica, es decir, existen el mismo nmero de datos a cada lado de la media, pues sta sera igual a la mediana

) 3( X X C. A. Sx
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 99

Coeficiente de asimetra
Si ste es cero, quiere decir que la distribucin es simtrica, es decir, existen el mismo nmero de datos a cada lado de la media, pues sta sera igual a la mediana y a la moda, y por lo tanto, estaran ubicadas al centro de la distribucin.

10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9

Media = 5 Mediana = 5 Moda = 5

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

100

Coeficiente de asimetra
Si el coeficiente es mayor que cero (+), la distribucin tiene sesgo a la derecha pues la media es mayor que la mediana y la moda es la menor de las tres, como se muestra en la figura adjunta:
Por: Jos Antonio Torres T.

12 10 8 6 4 2 0 1

Media = 3,18 Mediana = 2,85 Moda = 2,0

Departamento de Ingeniera Industrial

101

Coeficiente de asimetra
Si el coeficiente es menor que cero (-), la distribucin tiene sesgo a la izquierda pues la media es menor que la mediana y la moda es la mayor de las tres, como se muestra en la figura adjunta:
Por: Jos Antonio Torres T.
14 12 10 8 6 4 2 0 1 2 3 4 5 6 7

Media = 4,97 Mediana = 5,33 Moda = 6

Departamento de Ingeniera Industrial

102

Teorema de Chebyshev
El teorema de Chebyshev sirve para tener una idea del porcentaje de datos que se encuentran dentro de un rango alrededor de la media, medido en un nmero de desviaciones estndar antes y despus de la media. El teorema dice as: Para cualquier grupo de observaciones (muestra o poblacin), el porcentaje de valores que se encuentra dentro de k desviaciones estndar alrededor de la media es, al menos, (1 1/k2)*100, donde k es cualquier valor mayor que 1.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 103

Teorema de Chebyshev
Ejemplo:
Si se tiene un conjunto de datos cuya media es 5 y su desviacin estndar es de 0,8 y quisiera estimar el porcentaje de valores que se encuentran ubicados entre los lmites de 3,8 y 6,2 slo tengo que determinar cuntas veces cabe la desviacin estndar entre cada lmite y la media. Es decir, (5-3,8) / 0,8 = 1,2 / 0,8 = 1,5 y (6,2-5)/0,8 = 1,5, en otras palabras, el rango 3,8 6,2 se puede expresar tambin de la forma: 5 1,5(0,8), o sea, X k*Sx, en donde X = 5, k = 1,5 y Sx = 0,8 y como k es 1,5, entonces, el porcentaje de valores entre esos lmites es, al menos, (1 1/1,52) * 100 = 44.4%

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

104

Ejercicio 3.6

Calcule el porcentaje de valores que se encuentran entre 16 y 24, si la media del conjunto de datos es 20 y la desviacin estndar es de 2,0 utilizando para ello el teorema de Chebyshev.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

105

Ejercicio 3.6 (solucin)

Entre 16 y 20, la desviacin estndar cabe dos veces y tambin entre 24 y 20, es decir, el rango es 20 2*2 y sto quiere decir que el valor de k es 2, por lo tanto, el porcentaje de valores entre 16 y 24 es, por lo menos: % = (1 ) * 100 = 75%

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

106

Regla Emprica
La regla Emprica tambin sirve para estimar el porcentaje de valores que se encuentra dentro del rango X k*Sx, pero sta se aplica slo a distribuciones simtricas tipo campana invertida, como la que se muestra a un lado:

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

107

Regla Emprica
La regla Emprica dice que el porcentaje de valores en el rango X 1*Sx es 68% aproximadamente. Cuando k vale 2, el porcentaje es 95% y para el rango X 3*Sx es 99,3%

-3

-2

-1

X X 1 Sx,, 68% X 2 Sx,, 95% X 3 Sx,, 99%

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

108

Regla Emprica
Ejemplo: si la media del conjunto es 30 y la desviacin estndar es 4, el porcentaje de valores entre 26 y 34 es de 68%; el porcentaje entre 22 y 38 es, entonces, 95% y entre 18 y 42 se encuentra el 99,3% de los valores.

18

22

26

30
X X 1 Sx,, 68% X 2 Sx,, 95%

34

38

42

X 3 Sx,, 99%

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

109

Repaso
Las medidas de resumen se dividen en dos tipos: las de tendencia central( media, mediana y moda) y las de dispersin o variabilidad (amplitud, desviacin absoluta media, varianza y desviacin estndar). Medidas de tendencia central:
La media representa el punto de equilibrio del conjunto de datos y se calcula como un promedio aritmtico, es decir, se suman todos los valores y se divide entre el nmero de valores sumados.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 110

Repaso
La mediana es el punto medio del conjunto de datos ORDENADO. En otras palabras, es el valor que divide al conjunto de datos en dos subconjuntos de igual nmero de elementos. La moda es el valor (o valores) que se repite el mayor nmero de veces (de mayor frecuencia)

Medidas de dispersin:
Amplitud o Rango es la diferencia de los valores extremos, es decir, el dato mayor menos el dato menor.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 111

Repaso
La desviacin absoluta media, como su nombre lo indica, es la distancia promedio que existe entre los datos y la media, sin importar su signo o direccin. La varianza es la desviacin cuadrtica media, es decir, el promedio del cuadrado de las distancias de los puntos hacia la media. La desviacin estndar es la raz cuadrada positiva de la varianza, lo cual se traduce tambin, como una desviacin promedio de los valores hacia la media del conjunto, casi el mismo significado de la desviacin absoluta media, pero calculado de diferente manera.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 112

Repaso
Las medidas de posicin, son valores que dividen al conjunto de datos ORDENADO en un nmero de subconjuntos con el mismo nmero de datos cada uno. Las medidas de posicin son:
La mediana (considerada tambin como de tendencia central) Los cuartiles, ( 4 subconjuntos del 25% c/u) Los deciles (10 subconjuntos del 10% c/u)
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 113

Repaso
Los percentiles (100 subconjuntos del 1% c/u)

Con la mediana, los cuartiles y el rango se puede desarroliar el diagrama de caja, con el cual se ponen en evidencia los datos aberrantes o atpicos, que son aquellos demasiado pequeos o demasiado grandes, comparados con el conjunto de datos en general.

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

114

Repaso
Tanto las medidas de resumen, como las de posicin, se pueden estimar si tenemos los datos agrupados en una distribucin de frecuencias. Conociendo las medidas de resumen y/o las de posicin podemos intuir como es el conjunto de datos, independientemente del nmero de datos que existan en el conjunto.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 115

Repaso
Si conocemos la media y la desviacin estndar podemos juzgar cul de los conjuntos de datos ( o variables) tienen mas variacin, a travs del coeficiente de variabilidad. Conociendo las medidas de tendencia central y la desviacin estndar podemos interpretar si el conjunto de datos es simtrico o tiene sesgo, calculando el coeficiente de asimetra.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 116

Repaso
Para estimar el porcentaje de datos o valores ubicados en un rango alrededor de la media, existen dos criterios:
El teorema de Chebyshev y La regla emprica

El primero se usa para cualquier distribucin, es decir, sin importar si es simtrica o n, y el segundo se aplica slo a distribuciones simtricas tipo campana invertida.
Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial 117

Repaso
60

120 100 80 60 40 20 0

Cul de los cuatro conjuntos de datos mostrados en las grficas de dispersin tiene la media mayor?

50 40 30 20 10 0

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

118

Repaso
60

20,2

120 100 80 60 40 20 0

media mayor?

50 40 30 20 10 0

53,8

El conjunto B

56 55 54 53 52 51 50 49 48 47

C
51,8

20 18 16 14 12 10 8 6 4 2 0

14,9

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

119

Repaso
60

120 100 80 60 40 20 0

Cul de los cuatro conjuntos de datos tiene mayor amplitud?

50 40 30 20 10 0

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

120

Repaso
60

A 48

120 100 80 60 40 20 0

91

mayor amplitud?

50 40 30 20 10 0

El conjunto B

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

121

Repaso
60

120 100 80 60 40 20 0

Cul de los cuatro conjuntos de datos tiene la desviacin estndar menor?

50 40 30 20 10 0

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

122

Repaso
60

120 100 80 60 40 20

desviacin estndar menor? El conjunto C

50 40 30 20 10 0

14,65

20,67

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

1,509

2,695

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

123

Repaso
60

Cul es el ms variable entre el A y el B?

50 40 30 20 10 0

Sx =14,65 media = 20,2

120 100 80 60 40 20 0

Sx =20,67 Media = 53,8

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

124

Repaso
60

Cul es el ms variable entre el A y el B? Por supuesto que el A.

50 40 30 20 10 0

Sx =14,65 media = 20,2 C.V.= 75,2%

120 100 80 60 40 20 0

Sx =20,67 Media = 53,8 C.V. = 38,4%

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

125

Repaso
60

120 100 80 60 40 20 0

Cul es el ms variable entre el C y el D?

50 40 30 20 10 0

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6 4 2 0

Sx = 1,509 Media = 51,8

Sx = 2,695 Media = 14,9

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

126

Repaso
60

120 100 80 60 40 20 0

Cul es el ms variable entre el C y el D? El mas variable es D

50 40 30 20 10 0

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10

Sx = 1,509 Media = 51,8 C.V. = 2,91%

8 6 4 2 0

Sx = 2,695 Media = 14,9 C.V. = 18,08%

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

127

Repaso
60

Cul es el ms simtrico de los cuatro?

50 40 30 20 10 0

Sx =14,65 media = 20,2 Mediana = 17

120 100 80 60 40 20 0

Sx =20,67 Media = 53,8 Mediana 51

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10

Sx = 1,509 Media = 51,8 Mediana = 51,5

8 6 4 2 0

Sx = 2,695 Media = 14,9 Mediana = 15

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

128

Repaso
60

C.A. = 0,65

120 100 80 60 40 20 0

El ms simtrico?...... de acuerdo al coeficiente de asimetra, es el D, pues es ms cercano a cero.

50 40 30 20 10 0

C.A. = 0,406

56 55 54 53 52 51 50 49 48 47

20 18 16 14 12 10 8 6

C.A. = -0,113

C.A. = 0,596

4 2 0

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

129

Repaso
60 50 40 30 20 10 0

120 100 80 60 40 20 0

56 55 54 53 52 51 50 49 48 47

20

* 0 10

** 20 30 40 50 60 70 80

* * *** 90 100

18 16 14 12 10 8 6 4 2 0

A cul de los conjuntos corresponde el diagrama de caja mostrado?


Por: Jos Antonio Torres T. Departamento de Ingeniera Industrial

130

Repaso
120 100 80 60 40 20 0
B

* 0 10

** 20 30 40 50 60 70 80

* * *** 90 100

Por: Jos Antonio Torres T.

Departamento de Ingeniera Industrial

131

También podría gustarte