Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Descriptiva 2013 (Industrial)
Estadística Descriptiva 2013 (Industrial)
1. ESTADSTICA DESCRIPTIVA
1.1 Introduccin.
La palabra Statistik proviene de la palabra italiana statista que significa estadista.
Los primeros que introdujeron el trmino de estadstica a Inglaterra fue el Dr. E.A.W.
Zimmerman. Su uso fue popularizado por Sir John Sinclair en su obra Statistical
Account of Scotland 1791-1799 (Informe estadstico sobre Escocia 1791-1799).
Estadstica la podemos definir como la ciencia que se encarga de recolectar,
organizar, analizar e interpretar datos numricos con el propsito de auxiliar en una
toma de decisiones ms efectiva.
La estadstica se divide en dos ramas descriptiva e inferencial; la estadstica
descriptiva se encarga de recolectar, organizar, analizar, resumir y presentar datos de
manera conveniente, til y comprensible. La estadstica inferencial realiza inferencias
a partir de los estimadores de la muestra sobre los parmetros de la poblacin.
La definicin anterior nos presenta nuevos conceptos tales como: poblacin,
muestra, estimador y parmetro, para entenderla mejor definamos cada uno de
stos. Poblacin es un conjunto de elementos con una caracterstica comn
observable, muestra subconjunto de la poblacin, donde cada uno de los elementos
que la componen tuvo la misma probabilidad de salir elegido, parmetro es una
caracterstica numrica que identifica a una poblacin dada y estimador o
estadstico es un valor obtenido de la muestra que permite hacer predicciones sobre
los parmetros de una poblacin,
En dnde se aplica la estadstica? Sera prolijo describir todas las actividades
donde entra en juego la estadstica como herramienta de investigacin, creo que
sera ms fcil encontrar donde no es aplicable. En la medida que se logra un
incremento en el conocimiento cientfico se van encontrando nuevas aplicaciones de
le ciencia estadstica. Sin embargo, y a manera de ilustracin mencionaremos
algunos de los usos de la estadstica en alguno de sus campos.
Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si stos son ordenados de
menor a mayor.
1.2.1 Media aritmtica.
Si las observaciones de una muestra aleatoria de tamao n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n
x x ... xn
x 1 2
n
_
x
i 1
Donde:
= letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = nmero de observaciones.
Ejemplo.
Sea una muestra de seis estudiantes donde la variable en estudio son
los aos de edad de cada uno de ellos.
x1
x2
x3
x4
x5
x6
19
23
21
24
20
18
19 23 21 24 20 18 125
20.83
6
6
x2
11
x3
20
x4
19
x5
150
2
209
41.8
5
Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si el valor atpico que aparece en los datos es
correcto (150), una observacin atpica es un valor que es inusual en relacin con el
resto de los datos. Si el valor es correcto, la medida de tendencia central
recomendada para analizar la informacin es la mediana.
La media aritmtica se puede comparar con el punto de apoyo en el juego de sube
baja, por ejemplo, sea una muestra de seis nios donde la variable aleatoria son los
aos de edad de cada uno de ellos. Puede observarse que seis es el valor que
equilibra a los datos.
2
2
1
x1
x2
x3
x4
x5
x6
15
4
3
0
15
7
5
7
0
8
0
10
11
0
12
0
13
0
14
0
15
0
X
i 1
Donde:
= letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la poblacin.
Puede observarse que para definir los parmetros de la poblacin se utilizan letras
maysculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minsculas o nmeros.
1.2.2 Mediana ( M ).
Es la medida de tendencia central que divide la muestra en dos mitades iguales, o
sea, es el estadstico que se ubica exactamente a la mitad de los datos, el 50% de la
informacin se encuentra a la izquierda y el otro 50% a la derecha.
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y xn el valor ms grande. Entonces la mediana
queda definida por:
a. Si el nmero de observaciones es impar, la mediana es el valor de en medio.
b. Si el nmero de observaciones es par, la mediana es el promedio de las dos
observaciones de en medio.
Ejemplo. Sea la variable en estudio el nmero de hijos en siete familias.
9
n es impar
x2
x3
x4
x5
x6
x7
17
36
01
49
33
2520
33
36
49
2520
17
23
Ordenado:
x1
x2
x3
x4
x5
x6
9
4
45
4 .5
2
1.2.3 Moda ( Mo ).
De todas las medidas de tendencia central, la moda es la ms fcil de determinar ya
que se obtiene por inspeccin visual y no por cmputo, o sea es la observacin que
ocurre con mayor frecuencia.
Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
91
87
99
86
91
79
93
82
91
86
Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificacin 91 puntos.
Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribucin bimodal, ejemplo:
1
Aqu la moda puede ser 3 y 6. Cuando se tenga ms de una moda se dice que se
trata de una distribucin multimodal.
1.2.4 Media ponderada.
La frmula matemtica que simboliza a esta medida de tendencia central es:
n
xw
w x
i 1
n
w
i 1
Donde:
xi = valor de la variable aleatoria.
wi = nmero de observaciones de la variable aleatoria.
Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 9.70, 9.90,
10.15 y 9.80 pesos por litro, si carg 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. Cul es el costo promedio por litro?
xi
Wi
= precio de la gasolina.
= nmero de litros en cada gasolinera.
xw
9.896
60
60
Lo que significa que el costo promedio por litro de gasolina es de $ 9.90 pesos.
1.2.5 Comparacin de la media, mediana y moda.
Considrese la negociacin de un contrato colectivo de trabajo en el que el punto
ms importante a discutir es el incremento salarial, en donde participa el lder
sindical, la parte patronal y la Junta de Conciliacin y Arbitraje, para la negociacin
de dicho punto se obtuvo una muestra con los siguientes sueldos:
2,700
5,400
5,400
8,700
11,400
18,600
52200
8700
6
El lder sindical argumenta que esto es falso ya que la muestra es muy pequea y
adems estn mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 8,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que ms
se repite, o sea la moda, la cual es Mo = 5,400.
Un honesto tribunal recomendara como medida de discusin para el incremento
salarial a la mediana, que es la medida de tendencia central ms acertada para este
tipo de casos.
M
5400 8700
7050
2
Como puede apreciarse, las medidas de tendencia central son utilizadas en funcin
del comportamiento de los datos, en este ejemplo se observa un valor atpico
(18,600) por lo que la medida de tendencia central ms recomendable para el
anlisis es la mediana.
1.3 Medidas de dispersin en datos no agrupados.
Es por todo conocido que un nmero por s mismo carece de significado, solo lo
adquiere cuando se compara con otros nmeros o estadsticos.
Si conocemos la media de una distribucin de una variable dada, podemos
determinar cuando una calificacin es mayor menor que dicha media pero cunto
es mayor o cunto es menor?
Para describir una distribucin en forma ms completa es necesario una informacin
adicional que acompae a la media, la mediana o la moda.
6
230
190
250
228
245
305
258
240
265
265
240
260
La media de ambas muestras es igual a 248 psi, sin embargo la dispersin de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente grfico.
x
180
x
*
200
x
x x
* * ** *
240 260
220
280
300
320
Muestra 1 = *
Muestra 2 = x
x = 248
En base a la dispersin de los datos de cada lote de la grfica anterior, queda
demostrado que las medidas de tendencia central no proporcionan suficiente
informacin para describir adecuadamente la distribucin de una poblacin, para que
esto suceda deben ser acompaadas de una medida de dispersin, siendo por lo
general la varianza.
1.3.1 Rango.
Es una medida de variabilidad que indica la distancia en la escala de calificaciones.
Es la ms sencilla y directa en las medidas de dispersin, se obtiene restando al dato
mayor el dato menor y sumndole uno.
El rango es poco usado por su notoria inestabilidad, si existe en la distribucin alguna
calificacin extrema, la dispersin de las calificaciones parecera ms grande. Si
hiciramos caso omiso de esa distribucin extrema, podramos encontrar que la
distribucin es por el contrario ms compacta Ejemplo:
4
11
13
29
Rango = (29 - 1) + 1 = 29
Si quitamos el 29 el nuevo rango ser: (13 - 1) + 1 = 13 lo que nos indica que los
datos estn ms compactos.
7
La media aritmtica es
xi x
5
x
i 1
= 2
x1
x2
x3
x4
x5
10
30
6
5
-1
-2
-3
x 12
12
2.4
5
x x
n
S2
i 1
n 1
Dicha frmula aplicando las leyes del lgebra podemos redefinirla como:
n
S
2
x
i 1
2
i
n 1
x
i 1
n n 1
Para ver como la varianza de la muestra mide la dispersin de los datos, tomemos
los valores de la muestra dos, de la resistencia al rompimiento en libras por pulgadas
de las botellas.
x
180
200
x
220
240
x x
260
280
300
320
x = 248
La grfica muestra las desviaciones de xi x , si sumamos estas desviaciones dar
como resultado cero, para evitar esto cambiamos las desviaciones negativas a no
negativas elevndolas al cuadrado, en consecuencia si las desviaciones son
pequeas, hay una relativamente pequea variabilidad en los datos, pero si las
desviaciones son grandes, la variabilidad es relativamente grande, por lo que la
varianza penalizar mucho las desviaciones grandes.
La varianza nos sirve para medir la variabilidad de los datos en una poblacin, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se estn
estudiando.
Ejemplo, obtengamos la varianza para la muestra uno y dos del rompimiento en
libras por pulgada cuadrada de los dos lotes de botellas.
Muestra 1
n1 = 6
x1 = 1,488
2
1
=
369,814
x1 = 248
Muestra 2
n2 = 6
x2 = 1,488
2
2
=
376,534
x2 = 248
9
S1
369,814 1488 2
2
158 psi
6 1
6 6 1
S2
376,534 1488 2
2
1,502 psi
6 1
6 6 1
Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos estn ms apiladitos alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son ms
homogneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.
Debido a que S2 se expresa en el cuadrado de las unidades originales, no es fcil
interpretarlas, para resolver este problema de dimensionalidad, trabajamos con la
raz cuadrada (positiva) de la varianza la cual llamaremos desviacin estndar; esto
brinda una medida de dispersin expresada en las mismas unidades de la variable
con la que estamos trabajando.
Las desviaciones estndar de las muestras uno y dos de la resistencia al
rompimiento de las botellas son:
2
1.3.4
X
i 1
X
i 1
2
i
X
i 1
Coeficiente de variacin.
S
(100)
x
12.57
(100) 5.1%
248
CV2
38.75
(100) 15.6%
248
Desviacin
5 mm.
3 mm.
7 mm.
Desviacin
11 Km.
23 Km.
17 Km.
2 = 17 Km.
22 = 24 Km2.
2 = 4.9 Km.
Hasta aqu podramos suponer que la poblacin uno parece tener menor variabilidad
en sus datos que la poblacin dos.
Obtengamos ahora los coeficientes de variacin.
CV1
1.63
100 32.6%
5
CV2
4.9
100 28.8%
17
11
1.3.5 Percentiles
Un percentil es un valor x, donde por lo menos p por ciento de las observaciones
tienen un valor menor o igual a este valor x, y donde (100 p) por ciento de las
observaciones tienen un valor mayor o igual a x.
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y x n el valor ms grande. Entonces un percentil
puede calcularse de la siguiente manera:
i n( p ) Donde p es el percentil buscado.
x2
x3
x4
x5
x6
El decil 25 o primer cuartil ser i 6(0.25) 1.5 que redondeado es 2. Por lo tanto
el percentil 25 es uno.
El percentil 50, segundo cuartil o mediana es i 6(0.50) 3 . Como i es entero el
percentil 50 es el promedio de los valores que estn en las posiciones 3 y 4 o sea
(2+5)/2 = 3.5.
El percentil 75 o tercer cuartil es i 6(0.75) 4.5 . Como i no es entero se redondea
a cinco, por lo que el tercer cuartil es el penltimo nmero o sea cinco.
197
286
274
243
231
267
281
265
343
317
242
258
276
300
208
187
280
242
260
321
228
250
299
258
265
254
281
294
223
260
308
235
200
235
246
328
296
276
264
269
221
176
248
263
231
334
280
265
265
262
271
245
301
280
274
253
261
248
260
274
337
250
278
254
Como es obvio estas cantidades no tienen ni pies ni cabeza a menos que las
organicemos de un modo sistemtico. Las razones para ordenarlos en una tabla de
frecuencias son:
a)
b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.
Como factor negativo tenemos, al agrupar los puntajes se pierde inevitablemente
parte de la informacin. Esto se puede medio resolver, agrupando los datos en la
forma ms correcta de acuerdo a la experiencia que se tenga con la informacin. De
aqu la pregunta obligada cuntos intervalos se deben de utilizar en una tabla de
frecuencias? La respuesta es difcil...
Algunos autores que estudian el comportamiento indican que pueden ser de 10 a
20 intervalos de clase. Otros dedicados a trabajos agrcolas citan de 5 a 25
intervalos. Autores que escriben sobre ingeniera indican de 5 a 20 intervalos de
clase y los que investigan sobre administracin recomiendan de 5 a 15.
Como puede observarse no existe una regla definida para determinar el nmero de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.
La primera es la regla de Sturgess, la cual obtiene el nmero de intervalos de la
siguiente manera k = 1 + 3.3 (Log. n), donde n es el total de observaciones. La
segunda es la obtenida en la prctica que a menudo funciona bien, y es tomar como
nmero de intervalos (k) la raz cuadrada del nmero de observaciones,
ajustando este valor entre 5 y 15, cinco o seis intervalos bastan para resumirlos.
Estas dos alternativas ms la experiencia del investigador en el manejo de la variable
a estudiar, lo llevar a determinar el nmero adecuado de intervalos de clase.
13
El empleo de estas dos formas para la obtencin del nmero de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los clculos
desde el principio.
Para iniciar con nuestro ejemplo, tenemos el caso prctico donde n = 72, por lo tanto
el nmero de intervalos a tomar ser k = 72 = 8.48
8.
Los pasos a seguir para la elaboracin de la tabla de frecuencia son:
1. Obtencin del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.
Rango = (343 - 176) + 1 = 168
Nota. Cuando los valores de la variable que se est analizando sean menores que
uno, o sean muy parecidos entre s, se recomienda no sumarle uno al rango.
2. Obtencin del tamao del intervalo de clase. Para esto se divide el rango entre el
nmero de intervalos, si el resultado es fraccionario redondee al nmero entero
ms cercano.
168 8 = 21
3. Clculo de los intervalos de clase:
1er intervalo.
Lmite inferior
196
217
238
259
260
281
302
323
280
301
322
343
176
197
218
239
260
281
302
323
196
217
238
259
280
301
322
343
!!
!!!!
!!!!!
!!!!!
!!!!!
!!!!!
!!!!
!!!!
!!!!
!!!!! !!!!
!!!!! !!!!! !!!!! !!!!! !!
!!!
Frecuencia
acumulada
2
6
15
29
Frecuencia
relativa
acumulada
0.03
0.09
0.21
0.40
15
259.5 - 280.5
280.5 - 301.5
301.5 - 322.5
322.5 - 343.5
27
8
4
4
Total
72
270
291
312
333
0.37
0.11
0.06
0.06
56
64
68
72
0.77
0.88
0.94
1.00
1.00
Con los valores de esta tabla ya podemos obtener informacin que anteriormente no
podamos, tales como:
Cuntas botellas tienen una resistencia menor a 217.5 psi?
R= 4 + 2 = 6
R = 14 botellas.
x f
i i
i 1
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = nmero de observaciones.
i = 1,2..., k intervalos.
En el ejemplo que nos ocupa la media aritmtica es:
x
263.00
72
72
Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.
Moda. El algoritmo matemtico que la define es:
16
d1
w Donde:
d1 d 2
L
Mo L
13
21 268.03
13 19
Mo 259.5
Significa que la mayor parte de las botellas tiene una resistencia de 268.03 psi.
Tambin podramos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.
Mediana. Su clculo lo obtenemos por:
n 1
2
M L
w
f
29
2
M 259.5
21 265.33
27
Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia de 265.33 o ms.
17
x
i 1
x fi
2
n 1
fi
i 1
n 1
xi f i
i 1
n n 1
72 1
72(72 1)
S2
5055138 18936 2
1055.92
71
5112
S 2 1055.92 32.49
S 100 32.49100
12.35%
263
x
Di L
Donde:
L = lmite inferior del intervalo donde se encuentra el percentil buscado.
18
D10 217.5
Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
o igual a 221.47 psi.
Ejemplo. Qu valor representa el primer cuartil?
Su rango es 0.25 72 0.5 18.5 la estimacin del primer cuartil es:
D25 238.5
3.5
(21) 243.75
14
7.5
(21) 265.33
27
Cuyo valor debe ser idntico al obtenido en la mediana, lo cual sirve para verificar si
su clculo fue bien realizado.
Ejemplo. Cul ser el valor en resistencia que representa el percentil 75?
19
D75 259.5
25.5
(21) 279.33
27
Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor o igual a 279.33 psi.
1.5 Representaciones grficas.
1.5.1 Histograma.
La informacin de la tabla de frecuencias puede ser trasladada a un grfico, como un
histograma, un polgono de frecuencias o un polgono de frecuencias acumuladas los
cuales permiten lograr una apreciacin ms fcil de la informacin.
Qu es un histograma? Es una grfica de barras adyacentes, que muestra en el
eje horizontal las marcas de clase y en el eje vertical las frecuencias de clase, donde
la altura de cada rectngulo es proporcional a la frecuencia de clase que representa.
Por qu son utilizados los histogramas?
a) Para resumir datos y describir la historia respecto a un proceso.
b) Es mejor que tratar de obtener informacin de una lista de nmeros.
c) A menudo la forma del histograma puede proveer pistas acerca de un proceso,
para saber si est bajo control o fuera de control.
d) Nos indica grficamente si los datos se distribuyen de manera normal (tienen
forma de campana).
A continuacin se presenta el histograma, donde la base de cada rectngulo
representa el punto medio o marca de clase, y la altura est dada por la frecuencia
de la clase o nmero de observaciones que cae dentro de cada intervalo.
Con el fin de evitar que un grfico sea mal interpretado, se recomienda la realizacin
de grficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centmetros de longitud, el eje y debe
medir 15 cm.
La grfica siguiente presenta el histograma de nuestros datos, en l podemos
apreciar que a la mitad de la grfica se encuentra ms o menos el 263, que es la
resistencia promedio de las botellas (media aritmtica). As mismo podemos apreciar
que la mayor parte de la resistencia de las botellas est en 270 (moda), y de igual
manera la mediana tiene un valor un poco menor a 270.
Si unimos los centros de la parte superior de cada rectngulo obtenemos una nueva
grfica que se llama polgono de frecuencias, podemos ver que la figura que tiene
20
El histograma visto como histograma no nos dice mucho, para ver su aplicacin
tomemos como ejemplo una mquina despachadora de refrescos en vaso, donde
sirve un promedio de = 355 ml. y sus lmites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, ste puede
presentar las siguientes figuras:
EN CONTROL Y ES CAPAZ
21
EN CONTROL NO CAPAZ
22
F
r
e
c
u
e
n
c
i
a
F
r
e
c
u
e
n
c
i
a
175.5 196.5 217.5 238.5 259.5 280.5 301.5 322.5 343.5
La interpretacin para este grfico es: en la parte izquierda se leen los datos de la
muestra, as para cualquier punto considerado en el eje y (ordenada) nos
proporciona un nmero de elementos que son menores o iguales al eje de la x
(abscisa); as podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.
Si vemos el eje derecho del grfico encontramos la frecuencia relativa acumulada, y
obtiene la misma interpretacin pero ahora de manera generalizada para toda la
poblacin. Ah podemos ver que el 77% de las botellas tienen una resistencia menor
o igual 280.5 psi. O lo que es lo mismo el 23% de las botellas tienen una resistencia
mayor a 280.5 psi.
Con las frecuencias relativas acumuladas de este polgono como variable
dependiente y los lmites de clase como variable independiente, se puede calcular
una ecuacin que se ajuste a los puntos del modelo, la cual nos sirve para hacer
predicciones. La grfica sugiere que se puede ajustar una ecuacin de primer grado
de la forma y = a + bx a los valores observados.
As la ecuacin que mejor describe la relacin entre los lmites de clase y la
frecuencia relativa acumulada es: y 1.354 7.607 x , con la cual ya podemos
hacer predicciones para la frecuencia relativa acumulada en funcin de los valores
de x, dentro del rango 175.5 a 343.5.
1.5.3 Grfica de caja.
Una grfica de caja es una representacin grfica, que por lo general nos describe
de manera simultnea varias caractersticas de la muestra con la que estamos
trabajando, tales como: centro de los datos, la dispersin, la desviacin de la simetra
y valores que caen inusualmente lejos del grueso de los datos.
Es utilizada para describir visualmente la distribucin de los datos, permitiendo
detectar rpidamente cualquier sesgo de ellos. As mismo nos sirve para ver si hay
algunos valores atpicos en el conjunto de valores.
Un valor atpico puede surgir por: trasponerse dgitos cuando se registra una
medicin, realizar una mala lectura en un instrumento, mal funcionamiento de una
23
pieza de equipo o por otras causas. Estos valores atpicos pueden traer como
consecuencia la obtencin de estimadores con cierto sesgo.
Pasos para la elaboracin de una grfica de caja:
1. Obtenga la mediana, primer cuartil ( D25 ) y tercer cuartil ( D75 ).
2. Obtenga el rango intercuartlico RIC D75 D25
3. Obtencin de los lmites inferior y superior:
Lmite inferior = D25 - 1.5 (RIC)
Lmite superior = D75 + 1.5 (RIC)
4. Trace una lnea horizontal representando la escala de medicin.
5. Forme una caja arriba de la recta horizontal con los extremos derecho e izquierdo
en D25 y D75 .
6. Trace una recta vertical a travs de la caja en la ubicacin de la mediana.
La grfica de caja proporciona el rango del conjunto de los datos empleando
bigotes (lneas que se extienden desde cada extremo de la caja), para indicar el
valor ms pequeo y el ms grande (excluyendo los valores atpicos) en la caja.
Los datos que queden fuera de los lmites inferior y superior se consideran valores
atpicos y se marcan en la grfica con un asterisco y los valores atpicos extremos se
marcan con un crculo.
Si la mediana est cerca de la mitad de la caja, la distribucin es regularmente
simtrica (tiene forma de campana), o sea que los datos se distribuyen normalmente.
Si la mediana est a la izquierda del centro, la distribucin est sesgada a la
derecha.
Si la mediana est a la derecha del centro, la distribucin est sesgada a la
izquierda.
Para mostrar como se realiza una grfica de caja, tomemos el ejemplo la resistencia
al rompimiento en libras por pulgada cuadrada (psi) de las 72 botellas de vidrio visto
con anterioridad.
Mediana = D50 265.33
Primer cuartil = D25 243.75
Tercer cuartil = D75 279.33
Rango intercuartlico RIC = 279.33 243.75 = 35.58
Lmite inferior = 243.75 - 1.5 (35.58) = 190.13
24
Grfica de caja de C2
360
320
C2
280
240
200
1
2
C1
8
4
25
3
4
5
6
7
8
9
10
11
12
13
12
2
14
10
6
16
18
10
14
8
16
1
2
3
C1
265
205
263
26
4
5
6
7
8
9
.
.
.
71
72
307
220
268
260
234
197
.
.
.
278
254
A
Resistencia
2
3
4
5
6
7
8
9
10
.
.
.
72
265
205
263
307
220
268
260
234
197
.
.
.
278
C
Resistencia
176-196
197-217
218-238
239-259
260-280
281-301
302-322
323-343
D
Limite
Superior
196
217
238
259
280
301
322
343
E
Frecuencia
28
73
254
E2:E9 de la
Elaboracin de un histograma.
Para ilustrar el empleo de Excel como herramienta en la elaboracin de un
histograma, tomemos el ejemplo de la resistencia al rompimiento de las botellas de
vidrio (pgina 15); siga los siguientes pasos:
1. Concentre las frecuencias de clase y los puntos medios como aparece indicado en
la hoja de clculo.
1
2
3
4
5
6
7
8
A
2
4
9
14
27
8
4
4
B
186
207
228
249
270
291
312
333
30