Est Ad Is 02

2. Estadstica descriptiva.
2.1 Introduccin
Los procesos tienen variables de salida o de respuesta que deben cumplir por lo general con
ciertas especificaciones para as considerar que el proceso funciona de manera satisfactoria. Evaluar
la capacidad o habilidad de un proceso es analizar qu tan bien sus variables de salida cumplen con
las especificaciones. La estadstica descriptiva nos permite analizar los datos, tanto en el contexto de
un estudio de la capacidad de proceso como el desarrollo de mejora de un proceso.
El objetivo de la estadstica descriptiva es describir un conjunto de datos numricos, que
han sido el resultado de mediciones. Por regla general, los datos en bruto no son de por s
particularmente informativos; sin embargo, se puede extraer una gran cantidad de informacin til
de un conjunto de datos. Los mtodos pueden clasificarse en: mtodos grficos y mtodos
numricos.
Suponga que posee un dato, y que desea interpretar este valor con respecto a los dems, por
lo general debemos preguntarnos tres cosas: cul es el dato promedio? La informacin que aqu se
busca es la localizacin del punto central del conjunto de todos los datos. Para describir tal concepto
se utilizan las medidas de tendencias centrales. Ahora nos interesara tener una idea acerca de la
dispersin de los datos, y por ltimo cmo estn distribuidos los datos?, l concepto de distribucin
describe los datos informando si los valores estn distribuidos uniformemente, o si se agrupan (o
aglomeran) alrededor de cierto valor.
Los cuatro conceptos indispensables en la descripcin de conjuntos de datos univariados son:
(1) medidas de tendencia central, (2) medidas de dispersin o variabilidad, (3) medidas de posicin,
y (4) tipos de distribucin.
Eje. En un proceso de inyeccin de plstico una caracterstica de calidad del producto (disco)
es su grosor, que debe ser de 1.20 mm con una tolerancia de t 0.10 mm. As, el grosor del disco
debe estar dentro de la especificacin inferior, EI = 1.10, y la superior, ES = 1.30, para considerar
que el proceso de inyeccin fue satisfactorio. En un estudio de capacidad para este proceso es
necesario contestar las siguientes interrogantes: qu tipo de discos en cuanto a grosor se estn
produciendo? El grosor medio es adecuado? La variabilidad del grosor es mucha o poca?
En general, para evaluar qu tan bien cumple el proceso con especificaciones es necesario
tomar muestras del producto y hacer las mediciones correspondientes. El anlisis de los datos
resultantes es hacer un estudio de capacidad.
2.2 Datos sobre mediciones y errores.
Errores en la medicin.
Exactitud y precisin de las mediciones.
Los diversos instrumentos y calibradores de medicin (como las bsculas y los voltmetros)
tienen distintas caractersticas. Por ejemplo, se dice que un instrumento es exacto si las mediciones
12
repetitivas del mismo objeto producen un promedio igual a su valor real. Un instrumento es
inexacto si produce valores cuyo promedio es distinto al valor real. Por otro lado, la precisin se
relaciona con la dispersin de las mediciones con base en su promedio. En particular, una dispersin
pequea refleja una gran precisin, y una dispersin grande, baja precisin. Es posible que un
instrumento sea inexacto, pero preciso, o exacto, pero impreciso. Por lo que hay que observar que
hay que calibrar peridicamente los instrumentos contra un patrn externo.
La precisin de un determinado valor medido siempre estar limitada por la precisin del
instrumento de medicin empleado. Esta limitacin debe ser considerada cuando se registran o se
reportan datos que son el resultado de mediciones. El nmero de cifras significativas en un valor
medido deber normalmente ser escogido de tal forma que la imprecisin se d slo en la ltima
cifra.
Aun cuando se use en forma correcta, un instrumento de medicin puede no dar una lectura
verdadera de la caracterstica. La diferencia entre el valor verdadero y el valor medido se puede
deber a problemas de:
Precisin. La precisin de un instrumento es el grado en que el instrumento repite sus
resultados cuando se hacen mediciones repetidas sobre la misma unidad o producto. La
dispersin de estas medidas se puede denotar por
E
. Que es la desviacin estndar del
error de medicin. (La dispersin, por lo general, se debe al error aleatorio). Mientras
menor sea el valor mnimo de
E
el instrumento es ms preciso (figura 2.1).
Sesgo. El sesgo de un instrumento es el grado en el que el promedio de una serie larga de
mediciones repetidas hechas por un instrumento sobre una sola unidad de producto
difiere del valor verdadero. Esta diferencia casi siempre se debe a un error sistemtico en
el proceso de medicin. En este caso se dice que el instrumento se encuentra fuera de
calibracin.
13
Fig. 2.1 Distincin entre sesgo y precisin.
Existe una gran confusin en cuanto a la terminologa. Esta confusin se extiende a los catlogos
de instrumentos.
La American Society for Testing and Materials (ASTM) ha estudiado desde hace mucho los
aspectos de precisin y sesgo, en trminos generales y para las aplicaciones a materiales especficos.
Se tomarn como gua sus ltimas definiciones de los trminos importantes y sus recomendaciones
sobre cmo expresar la precisin y el sesgo:
ASTM (1986) utiliza las siguientes definiciones:
Exactitud. Es un concepto genrico de exactitud relacionado con la cercana entre el
promedio de uno o ms resultados de pruebas y un valor de referencia aceptado. La
exactitud depende de la imprecisin y el sesgo del mtodo de prueba.
Precisin. Es un concepto genrico relacionado con la cercana entre los propios
resultados de las pruebas, obtenido bajo condiciones prescritas a partir del proceso que se
est evaluando.
Sesgo. Es un concepto genrico relacionado con una diferencia, consistente o sistemtica,
entre un conjunto de resultados de prueba de un proceso y un valor de referencia aceptado para la
caracterstica que se est midiendo.
Errores.
14
Los datos de mediciones incluyen algn elemento de error. A veces la fuente predominante
de error es un instrumento insuficientemente ajustado, o bien, el uso de una frmula o un
procedimiento inadecuado. Se denomina a tales errores como consistentes.
Los datos cuidadosamente obtenidos no incluyen generalmente errores consistentes. Sin
embargo, hay otro tipo de error que est presente en todos los datos de mediciones. Este es el error
aleatorio, que suele provenir de fluctuaciones en el instrumento de medicin, o de variaciones en la
percepcin del observador.
Los errores nunca pueden ser eliminados completamente, su impacto puede ser reducido a un
nivel aceptable por medio de una cuidadosa tcnica experimental.
Eje. La resistencia de un resistor calibrado a 10 ha sido medida cuidadosamente seis veces,
resultados 9.83, 10.05, 10.27, 9.91, 10.03, 9.86 . Si calculamos el promedio de seis datos,
obtenemos:
R
prom
= 1/6(9.83 + 10.08 + 10.27 + 9.91 + 10.03 + 9.86) = 10.00
En los errores aleatorios, es ms probable que ocurran errores pequeos que grandes errores;
que los errores grandes son muy improbables; y que los errores positivos y negativos son
igualmente probables y por consiguiente tienden a eliminarse mutuamente.
Una vez que se ha establecido un valor promedio para una serie de mediciones, es til
calcular las desviaciones de los valores individuales respecto del promedio. Cada desviacin es
aproximadamente igual al error aleatorio asociado con esa medida.
d
i
= x
i
- x
prom
En donde d
i
= desviacin de la medicin i respecto del promedio.
x
i
= valor de la medicin i
x
prom
= valor promedio
Si se dispone de un valor aceptado como verdadero, o si no se conoce, entonces el promedio
de los valores medidos se usa en su lugar, el error absoluto en un valor medido se define como
e
i
= x
i
/ x
En donde e
i
= error absoluto en la medicin de i
x
i
= valor de la medicin i
x = valor aceptado como verdadero
El error relativo se define como la razn del error absoluto respecto del valor aceptado como
verdadero.
r
i
= e
i
/ x = (x
i
/ x) /x
multiplicado por 100, el valor relativo se convierte en el error porcentual.
15
2.3 Diagrama de Pareto y diagrama de puntos.
Para dar la informacin vital necesaria para resolver problemas de ingeniera, se necesita
reunir datos. Una vez reunidos, esos datos se deben describir y analizar para producir informacin
resumida. Con frecuencia, las representaciones grficas pueden ser el medio ms eficaz de
comunicar esa informacin.
Cuntas veces, al analizar algn problema especfico, nos vemos abrumados por una gran
cantidad de informacin respecto a las posibles causas que pudieron darle origen, sin poder
identificar aquellas que tienen mayor relevancia? Es decir, no podemos distinguir lo bsico o vital
de lo trivial.
El diagrama de Pareto es una grfica en donde se organizan diversas clasificaciones de
datos por orden descendente, de izquierda a derecha por medio de barras sencillas despus de haber
reunido los datos para calificar las causas. De modo que se pueda asignar un orden de prioridades.
Adicionalmente, permite observar en forma acumulada la incidencia total de las fallas o factores en
estudio.
El anlisis de Pareto se basa en determinar el pequeo nmero de causas
que da lugar a un gran nmero de fallos. Para ello se representan en abscisas las
causas y en ordenada el porcentaje de fallos. Este diagrama recibe el nombre de
diagrama de Pareto. .- El diagrama de Anlisis de Pareto se basa en el principio de
que toda situacin problemtica o resultado adverso, es consecuencia directa de
muchas causas, la finalidad es determinar qu tipos de problemas son prioritarios
a resolver y cual debera de ser su orden. Para dar solucin a estos problemas es
necesario determinar cual o cuales de estos tienen mayor contribucin en el
resultado final.
Esta herramienta de anlisis es valiosa porque su anlisis da prioridades a ciertas actividades principales,
evitando perder esfuerzos, recursos y tiempo, atacando causas que en muy poco contribuyen a mejorar un problema.
El anlisis de Pareto permite identificar cual o cuales causas tienen mayor contribucin importante en el problema y
actuar de manera acertada y con efectividad en su solucin
Mediante el diagrama de Pareto se pueden detectar los problemas que tienen ms relevancia
mediante la aplicacin del principio de Pareto (pocos vitales, muchos triviales) que dice que hay
muchos problemas sin importancia frente a solo unos graves. La ley emprica de Pareto dice que
cualquier conjunto de eventos consiste de unos pocos elementos principales y muchos secundarios.
Casi siempre, dos o tres elementos explicarn ms de la mitad de la frecuencia total. En el contexto
del mejoramiento de la calidad, deseamos seleccionar las pocas oportunidades principales de
mejoramiento apartndolas de las correspondientes oportunidades triviales o de menor importancia.
Ya que por lo general, el 80% de los resultados totales se originan en el 20% de los
elementos o pocos vitales, muchos triviales, el cual reconoce que unos pocos elementos (20%)
generan la mayor parte del efecto (80%) y el resto de los elementos generan muy poco del efecto
total.
16
La minora vital aparece a la izquierda de la grfica y la mayora til a la derecha. Hay veces
que es necesario combinar elementos de la mayora til en una sola clasificacin denominada otros,
la cual siempre deber ser colocada en el extremo derecho. La escala vertical es para el costo en
unidades monetarias, frecuencia o porcentaje.
La grfica es muy til al permitir identificar visualmente en una sola revisin tales minoras
de caractersticas vitales a las que es importante prestar atencin y de esta manera utilizar todos los
recursos necesarios para llevar a cabo una accin correctiva sin malgastar esfuerzos.
Eje. Para un torno controlado por computadora cuyo desempeo estaba por debajo del
promedio, los operarios registraron las siguientes causas y sus frecuencias:
Fluctuaciones de corriente 6
Controlador inestable 22
Error del operador 13
Herramienta gastada no cambiada 2
Otros 5
Esos datos se presentan en la Fig. 2.2 en un Diagrama de Pareto. Este diagrama
Controlador inestable 22 0.45833333
Error del operador 13 0.27083333
Fluctuaciones de
corriente 6 0.125
Herramientas
gastadas 2 0.04166667
otros 5 0.10416667
48
17
Fig. 2.2 Diagrama de Pareto
Este diagrama enfatiza visualmente la importancia de reducir la frecuencia del
comportamiento anmalo del controlador. Una meta inicial puede ser la de reducir a la mitad esa
frecuencia.
Como segundo paso hacia el mejoramiento del proceso, se recabaron datos sobre las
desviaciones de la velocidad de corte con respecto al valor deseado y ajustado por el controlador.
Los siete valores observados de (velocidad de corte) (velocidad deseada) fueron
3, 6, -2, 4, 7, 4, 3
y se presentan como un diagrama de puntos en la Fig. 2.3. El diagrama de puntos resume
visualmente la informacin de que el torno, por lo general, trabaja ms rpido.

-2 0 2 4 6 8
Fig. 2.2 Diagrama de puntos
Fig. 2.3 Diagrama de puntos
Cuando es pequeo el nmero de observaciones, resulta difcil identificar cualquier
tendencia de variacin. Sin embargo, es buena idea graficar los datos y buscar caractersticas
anormales.
Para el caso de que un conjunto de datos conste de un gran nmero de observaciones. Las
observaciones se resumen en una tabla.
Algunos ejemplos de tales minoras vitales seran:
La minora de clientes que representen la mayora de las ventas.
18
La minora de productos, procesos, o caractersticas de la calidad causantes
del grueso de desperdicio o de los costos de reelaboracin.
La minora de rechazos que representa la mayora de quejas de la clientela.
La minora de vendedores que esta vinculada a la mayora de partes
rechazadas.
La minora de problemas causantes del grueso del retraso de un proceso.
La minora de productos que representan la mayora de las ganancias
obtenidas.
La minora de elementos que representan al grueso del costo de un inventario.
Principales aplicaciones:
- Separar problemas importantes de los menos importantes (C, F).
- Indica por cual problema empezar (C).
- Confirmar resultados de mejoras realizadas.
Eje. De la tabla siguiente:
Porcentaje
Costo unitario de
produccin, $
Parcial, % Acumulado
, %
Energa 500 50 50
Mat. Prima A 300 30 80
Mat. Prima B 150 15 95
Mano de obra 50 5 100
Total: 1000 100
De la tabla anterior permite observar que el problema vital est localizado en el uso de
energa, en tanto que la mano de obra tiene una importancia trivial, lo cual puede servir de base
para establecer una estrategia orientada a reducir costos. Consideremos que realizamos una
mejora y abatimos el consumo de energa en un 50%, y que logramos finalmente una reduccin
en nuestro costo de produccin del 25 por ciento. La comparacin entre ambos casos se puede
apreciar en los diagramas de Pareto que se muestran abajo y donde se seala con claridad el
efecto de la mejora.
19
Representaciones tallo-hoja.
La tcnica para compendiar datos numricos conocida como representacin tallo-hoja son
idneas para aplicarse en el uso de la computadora. Dicha tcnica es una combinacin de dos
procedimientos: uno grfico y otro de ordenacin. (Ordenar datos es formar una lista de ellos en un
caso de acuerdo con su valor numrico.) Los valores de los datos se utilizan para efectuar tal
ordenacin. El tallo se forma con el (los) primeros dgito(s) del dato, mientras que la hoja se forma
con los dems dgitos siguientes.
Por ejemplo, el valor numrico 458 se dividir en 45-8 como se muestra a continuacin
Dgi tos ini cial es Dgit os sucesivos
45 8
Ut ili zados en la ordena cin Mostrado en la r epreta -
cin
Eje. Construir una representacin tallo-hoja para el siguiente conjunto de 20 calificaciones.
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
En una inspeccin rpida se ve que hay valores en los grupos del 50, 60, 70, 80, y 90. El
primer dgito de cada valor debe utilizarse como tallo, y el segundo como hoja. Casi siempre la
representacin se construye en disposicin vertical. Trcese una recta vertical y colquense los
tallos a su izquierda, en columna
9
8
7
20
En seguida colquese cada hoja junto a su tallo. Esto se hace escribiendo el dgito sucesivo
correspondiente a la derecha de la recta vertical. El valor del primer dato es 82; 8 es el tallo y 2 es la
hoja. Por lo tanto se ubica el 2 frente al 8.
8|2
El valor del dato siguiente es 74, de manera que se escribe la hoja 4 frente al tallo7, y as
sucesivamente. La figura 2.4 muestra la representacin tallo-hoja que resulta.
2 6
2 6 4 8 2
8 6 6 2 6 8 4 4
8 2 6
2 8
9
8
7
6
5
Fig. 2.4 Diagrama tallo-hoja.
En la Fig. 2.4 se han puesto en la misma lnea de hojas o ramas todas la calificaciones
puntajes que tienen las mismas decenas. Suponga que se reconstruye la representacin y ahora en
vez de agrupar cinco valores posibles para cada tallo, se agrupan los valores de manera que slo
puedan estar diez para cada tallo. Se nota alguna diferencia en el aspecto de la figura 2.5? Es muy
semejante la forma general, aproximadamente simtrica respecto al 70. Es tpico que muchas
variables muestren una distribucin que se concentra (formando un montculo) alrededor de un
valor central y se extiende luego a un lado y otro.
(50-54) 5 2
(55-59) 5 8
(60-64) 6 2
(65-69) 6 6 8
(70-74) 7 4 4 4
(75-79) 7 8 6 6 6 8
(80-84) 8 2 4 2
(85-89) 8 8 6
(90-94) 9 2
(95-99) 9 6

Fig. 2.5
Fig. 2.5
Una representacin grfica revela frecuentemente algo que el analista pudo o no haber
previsto.
Eje. Se seleccion una muestra al azar de 50 estudiantes de una universidad. De sus registros
mdicos se obtuvieron sus pesos (en libras). Los datos obtenidos se presentan en la siguiente tabla.
Estudiante 1 2 3 4 5 6 7 8 9 10
21
Hombre/mujer M H M H H M M H H M
Peso 98 150 108 158 162 112 118 167 170 120
Estudiante 11 12 13 14 15 16 17 18 19 20
Hombre/mujer H H H M M H M H H M
Peso 177 186 191 128 135 195 137 205 190 120
Estudiante 21 22 23 24 25 26 27 28 29 30
Hombre/mujer H H M H M M H H H H
Peso 188 176 118 168 115 115 162 157 154 148
Estudiante 31 32 33 34 35 36 37 38 39 40
Hombre/mujer M H H M H M H M H H
Peso 101 143 145 108 155 110 154 116 161 165
Estudiante 41 42 43 44 45 46 47 48 49 50
Hombre/mujer M H M H H M M H H H
Peso 142 184 120 170 195 132 129 215 176 183
Se debe advertir que los pesos varan entre 98 y 215 libras. Los valores de peso se agrupan
para tallos de 10 unidades utilizando los dgitos de las centenas y decenas como tallos, y los de las
unidades como hojas.
0 9 8
1 0 8 1 8
1 1 2 8 8 5 5 0 6
1 2 0 8 0 0 9
1 3 5 7 2
1 4 8 3 5 2
1 5 0 8 7 4 5 4
1 6 2 7 8 2 1 5
1 7 0 7 6 0 6
1 8 6 8 4 3
1 9 1 5 0 5
2 0 5
2 1 5

Fig. 2.6
Fig. 2.6
Una inspeccin ms detallada de la figura 2.6 indica que puede haber dos distribuciones
traslapadas. Eso es exactamente lo que se tiene. Una distribucin para los pesos de las alumnas y
otra para los pesos de los alumnos. La figura 2.7, la cual muestra una representacin tallo-hoja de
tipo adosado para ese conjunto de datos, evidencia que en realidad se tienen dos distribuciones
distintas.
22
Mujer Hombre
8 09
8 1 8 10
6 0 5 5 8 8 2 11
9 0 0 8 0 12
2 7 5 13
2 14
15 8 3 5
16 0 8 7 4 5 4
17 0 7 6 0 6
18 6 8 4 3
19 1 5 0 5
20 5
21 5
Fig. 2.7
Fig. 2.7
2.4 Distribuciones de frecuencias.
Con frecuencia es deseable presentar un conjunto de datos en trminos de los nmeros de
eventos que ocurren en varios intervalos adyacentes. Estos nmeros especifican la distribucin de
los datos. As consideramos a la poblacin como una distribucin de mediciones de valores
especficos de las variables independientes. De manera que nuestro objetivo, consiste en establecer
la relacin entre la variable dependiente, y un conjunto de variables independientes, se traduce en
determinar cul es el efecto de las variables independientes en la distribucin terica de las medidas
de la poblacin.
Una poblacin individual (o cualquier conjunto de medidas) puede describirse mediante una
distribucin de frecuencias relativas, tambin llamada histograma de frecuencias relativas.
Construccin del histograma de frecuencias relativas.
De un conjunto de datos:
20.5 19.5 15.6 24.1 9.9
15.4 12.7 5.4 17.0 28.6
16.9 7.8 23.3 11.8 18.4
13.4 14.3 19.2 9.2 16.8
8.8 22.1 20.8 12.6 15.9
En primer lugar se deben ordenar los datos ascendentemente:
5.4 11.8 15.4 17 20.8
7.8 12.6 15.6 18.4 22.1
8.8 12.7 15.9 19.2 23.3
23
9.2 13.4 16.8 19.5 24.1
9.9 14.3 16.9 20.5 28.6
Se observa que el nmero mayor es 28.6 y el menor es 5.4. Surge la pregunta de cmo se
distribuyen en este intervalo los otros 23 valores intermedios. Para responder a esta pregunta,
dividimos el intervalo en cuestin en subintervalos de igual longitud. La eleccin del nmero de
subintervalos debe basarse en la cantidad de datos que se consideran. Es comn usar entre 5 y 20
subintervalos. Para determinar la longitud de cada intervalo de clase se divide la diferencia entre el
nmero mayor y el menor entre el nmero de subintervalos. Para los datos de nuestro ejemplo se
pueden usar los subintervalos de 5.00 a 8.99, de 9.00 a 12.99, de 13.00 a 16.99, ....... Ntese que los
puntos que definen los subintervalos fueron escogidos de forma tal que ninguno de los datos quede
en el punto divisorio, para eliminar la ambigedad al asignar las observaciones. En el lenguaje
estadstico a estos subintervalos se les da el nombre de intervalos de clase o simplemente clases. A
diferencia de la frecuencia de datos no agrupados los valores de x no se combinan para formar
grupos, sino que cada x es un grupo en si. En este caso la frecuencia f es el nmero de veces que
ocurre el valor x en la muestra (no muy grande (15 o 20).)
Tabla 2.1 Frecuencia relativa para los 25 valores.
Clase Fronteras
de clase
Marca de
clase
Frecuencia
de clase, f
i
Frec.
Relativa
de clase,
fr
i
Frec.
acumulada
1 5.00-8.99 6.995 3 0.12 0.12
2 9.00-12.99 10.995 5 0.20 0.32
3 13.00-
16.99
14.995 7 0.28 0.60
4 17.00-
20.99
18.995 6 0.24 0.84
5 21.00-
24.99
22.995 3 0.12 0.96
6 25.00-
28.99
26.995 1 0.04 1.00
Totales 25 1
La marca de clase es el punto medio de cada clase (x
1
= (5.0 +8.99)/2 =6.995)
El nmero de observaciones que caen en una clase dada, por ejemplo la clase x, es llamada
la frecuencia de clase (f
i
) o frecuencia absoluta. Y a la fraccin total de observaciones que caen
en la clase es la frecuencia relativa (medida proporcional de la frecuencia de un suceso).
frecuencia relativa = f
i
/ N
Es fcil ver f
i
0, y que f
i
= 1. De este modo, las frecuencias relativas pueden ser
interpretadas como factores de ponderacin (para los intervalos, no para los datos individuales).
24
La tabulacin final puede representarse grficamente mediante un histograma de
frecuencias tambin conocido a menudo como distribucin de frecuencias, puesto que muestran
como los datos que toma la variable con sus respectivas frecuencias se distribuyen en el eje
horizontal de la grfica. As la distribucin de frecuencias es una tabulacin de datos arreglada
segn su tamao.
0
0.2
0.4
1 2 3 4 5 6
Serie1
Fig. 2.8 Histograma de frecuencias
Al inspeccionar el histograma podemos interpretar varias caractersticas como: Qu
fraccin de valores son 17.0 o mayores? Observando el histograma es claro que esta fraccin
comprende las clases a la derecha de 17.0. De la tabla 2.1 se tiene que 10 valores tienen tasas
mayores o iguales a 17.0, esto es, la fraccin de 10/25, o 40%, este es tambin el porcentaje del rea
total del histograma que esta a la derecha de 17.0.
Suponga que cada uno de los 25 datos se anota en un pedazo de papel y se colocan en un
sombrero. Se saca al azar un papel del sombrero. Cul es la probabilidad de que el papel tenga
escrito un valor mayor o igual a 17.0? Puesto que 10 de las 25 papeletas tienen valores mayores o
iguales a 17.0, se tienen 10 de 25 posibilidades. Se dice que la probabilidad en cuestin es de 10/25.
Si se toma al azar una observacin de los datos, la frecuencia relativa de una clase en
particular representa la probabilidad de que la observacin caiga en esa clase. La caracterstica ms
importante del histograma de frecuencias muestral es que proporciona informacin acerca del
histograma de frecuencias de toda la poblacin, la simetra, la localizacin de las modas y el grado
de dispersin. En la figura 2.8, es claro que la distribucin es unimodal y asimtrica respecto de la
moda, favoreciendo valores altos (asimetra positiva). La moda esta ubicada entre 13 y 16.99. Los
datos se dispersan en una amplitud de 24 que va de 5 a 29.
El polgono de frecuencias, es la poligonal que une los puntos medios de las bases superiores
de los rectngulos.
25
Fig. 2.9 Polgono de frecuencias
El polgono de frecuencias acumulada, se utiliza para representar distribuciones de
frecuencias acumuladas agrupadas en intervalos.
En el eje de abscisas se representan los distintos intervalos de clase. Sobre el extremo
superior de cada intervalo de clase se levanta una lnea perpendicular de altura proporcional a la
frecuencia absoluta acumulada del intervalo. Partiendo del extremo inferior del primer intervalo y
uniendo los extremos de las lneas anteriores, se obtiene el polgono de frecuencias acumuladas.
26
Fig. 2.10 Polgono de frecuencias acumuladas
Entre menos clases se elijan, ms sencilla se vuelve la distribucin de la muestra agrupada
pero se pierde ms informacin debido a que ya no aparecen explcitamente los valores originales
de la muestra. Debe llevarse a cabo la agrupacin de modo que nicamente se eliminen los detalles
no esenciales. Las complicaciones innecesarias en la aplicacin final de una muestra agrupada se
evitan obedeciendo las reglas siguientes:
1. Todos los intervalos de clase deben tener la misma longitud.
2. Los intervalos de clase deben elegirse de manera que las marcas de clase correspondan a
nmeros sencillos (nmeros con pocos dgitos diferentes de cero)
3. Si un valor de x
i
de la muestra coincide con el punto extremo comn a dos intervalos de
clase, se toma en ese intervalo de clase que se extiende de x
i
a la derecha.
Los histogramas.
Brevemente al describir histogramas se utilizan los trminos siguientes:
Normal (simtrico): Los lados de esta distribucin son idnticos, respecto de
una lnea eje.
Uniforme: Cada valor aparece con la misma frecuencia.
Sesgado (asimtrico): Una extremidad o cola esta ms extendida que la otra.
El sesgo corresponde a la mayor extensin de la
extremidad.
En forma de J: No existe extremidad o cola en el lado de la clase con
frecuencia mayor.
Bimodal: Las dos clases con mayor frecuencia estn separadas
por una o ms clases. A menudo esta situacin implica
que han sido muestreados dos poblaciones.
27
Normal: Distribucin simtrica cuyas clase ms frecuente se
localizan a uno y otro lado de la media, mientras que los
menos frecuentes se encuentran en los extremos.
Otros tipos de grficas son las grficas de lneas, los diagramas de barras y los diagramas
circulares.
Los diagramas de barras sirven principalmente para representar el total de una cierta
cantidad para cada ao o para cada categora presentada. En contraste, los diagramas circulares se
usan para mostrar como una cantidad total se reparte en un grupo de categoras.
28
2.5 La funcin de probabilidad.
Una distribucin de frecuencias representar con frecuencia algn tipo de proceso,
compuesto por un nmero de eventos que ocurren al azar. Si el conjunto de datos es lo
suficientemente grande para ser verdaderamente representativo, del proceso, entonces cada una de
las frecuencias puede ser interpretada como la probabilidad de que un evento casual ocurra dentro
del intervalo correspondiente. Y as, las poblaciones estudiables estadsticamente, son aquellas en
las que podemos agrupar a los individuos de la poblacin en una serie de clases en las que la
caracterstica estudiada tienen el mismo valor para todos ellos.
29
Una vez establecida las clases, si hacemos el censo de la poblacin respecto a nuestra
caracterstica, tendramos una tabla del tipo:
Clase No. de individuos Frec. relativa
A N
1
N
1
/ N

B N
2
N
2
/ N
C N
3
N
3
/ N
D N
4
N
4
/ N
N
En la cual sealamos con N
1
el nmero de individuos que pertenecen a la clase A, etc.
Si imaginamos un experimento en el que tomamos al azar, con reemplazamiento, un
individuo de la poblacin y examinamos solamente si pertenece o no a la clase A, y repetimos N
veces la experiencia, est claro que la frecuencia relativa de que pertenezca a la clase A ser
variable en cada nuevo experimento, pero al final ser indudablemente N
1
/N, puesto que en nuestra
poblacin haba N
1
individuos que pertenecan a la clase A. Tendramos aqu un experimento
aleatorio, regido por la ley del azar, o sea de tal tipo que las frecuencias relativas tendan a
estabilizarse. La probabilidad es el valor de estabilizacin, por ello a la probabilidad del suceso A en
esa poblacin le asignaramos el valor N
1
/N. Si hacemos el mismo razonamiento para B, C y D,
tendramos:
P(B) = N
2
/N, P(C) = N
3
/N P(D) = N
4
/N
Se ve fcilmente que
P(A) + P(B) + P(C) + P(D) = 1
Si en nuestra poblacin slo existen las clases A, B, C y D y habamos dicho que todos los
individuos pertenecan a una clase y slo a una, si por P(A + B + C + D) designamos la probabilidad
de que pertenezcan o bien a la clase A, o a la B, o a la C, o a la D, esto es un hecho cierto y su
probabilidad debe ser uno. Por ser mutuamente excluyentes los sucesos, podemos poner, a partir del
segundo axioma,
P(A + B + C + D) = P(A) + P(B) + P(C) + P(D) = 1
Vemos, pues, que asignando a cada suceso la probabilidad tal como la hemos definido, como
el cociente entre la frecuencia de individuos en la poblacin y el nmero total de stos, estas
probabilidades cumplen con los axiomas establecidos.
A estos valores P(A), ......., P(D), ... se les llaman valores de la funcin de probabilidad de la
poblacin. Cada suceso A tendr un valor P(A) que ser una funcin del suceso A, f(x) llamada
funcin de frecuencia de la muestra: Indica como estn distribuidos los valores de la muestra. Por
tanto, se dice que determina la distribucin de frecuencia de la muestra..
30
2.6 La funcin de distribucin.
Consideremos como antes, una poblacin de N individuos dividida en cuatro clases, de
frecuencias N
1
, N
2
, N
3
y N
4
. Y vayamos acumulando las frecuencias de la forma indicada en el
cuadro.
Clase Frec. Frec. acum. Funcin de distribucin
A N
1
N
1
N
1
/ N = P(A) = F(A)
B N
2
N
1
+ N
2
(N
1
+ N
2
)/N = P(A) + P(B) = F(B)
C N
3
N
1
+ N
2
+ N
3
(N
1
+ N
2
+ N
3
)/N = P(A) + P(B) + P(C) = F(C)
D N
4
N
1
+ N
2
+N
3
+N
4
(N
1
+N
2
+N
3
+N
4
)/N=P(A)+P(B)+P(C)+P(D)=F(D)
Al dividir por el nmero N, obtendremos sumas de los valores de la funcin de probabilidad.
Por ser las clases mutuamente excluyentes P(A) + P(B) ser la probabilidad de que un individuo
pertenezca a la clase A o a la clase B, etc.
Queda, pues, para cada clase x, definida una funcin F(x) que se denomina funcin de
distribucin (o funcin de frecuencia acumulada) y que nos indica la probabilidad de que un
individuo pertenezca a la clase x o a alguna de las anteriores. Si en una poblacin tenemos definida
la funcin de probabilidad correspondiente a unas clases, vemos que tambin quedar definida la
funcin de distribucin de esas mismas clases y viceversa. Pues si conocemos F(A), F(B), F(C),
F(D) obtendramos fcilmente f(x) sin ms que hacer
P(A) = F(A), P(B) = F(B) - F(A), P(C) = F(C) - F(B), etc.
Ya que, por la definicin de probabilidad, todos los P(x) 0, deducimos que la funcin de
distribucin ser no decreciente, valiendo 0 para toda clase inferior a A y valiendo 1 para la clase D
y todas las siguientes.
31
Fig. 2.11 Funcin de distribucin de una variable discreta
2.7 Funcin de densidad.
Supongamos Fig. 2.12 el intervalo continuo de variacin dividido en un nmero suficiente
de clases iguales, para cada una de las cuales tengamos una probabilidad finita, o sea, segn dijimos
antes, conocemos la funcin de probabilidad de esa descomposicin en clases.
32
Fig. 2.12 Funcin de densidad de una variable discreta
Tracemos sobre cada clase, cuya longitud llamaremos dx, un rectngulo de altura P(I)/dx
siendo P(I) la probabilidad correspondiente a la clase I. El rea de cada rectngulo ser ahora
) (
) (
I P dx
dx
I P
La suma de las reas de todos los rectngulos valdr evidentemente 1. En lo que sigue se
considera, para facilitar la explicacin, que x slo toma valores mayores que A.
Segn habamos definido anteriormente, la funcin de distribucin se verificar que F(j), por
ejemplo, ser la suma de las reas de todos los rectngulos anteriores al J, ms el rectngulo J.
Si las dimensiones dx de las clases van hacindose cada vez ms pequeas y en el supuesto
de que conozcamos la probabilidad de las nuevas descomposiciones, la lnea poligonal superior de
los rectngulos ir cada vez ms parecindose ms a una lnea continua.
33
Fig. 2.13 Funcin de densidad de una variable contina
El valor de cada altura seguir siendo P(x)/dx, en la que tanto P(x) como dx tienden a cero,
lo que no impide que su cociente pueda tener un valor finito. La funcin de distribucin para A
2
,
por ejemplo, seguir siendo, como antes, el rea comprendida entre A y A
2
. Si llamamos f(x) a la
funcin analtica que delimita las reas, se sabe que el rea anterior F(A
2
) viene definida por la
integral de la funcin f(x) entre A y A
2
. La funcin representada por la curva f(x) se ha dicho que
era
f(x) = P(x) / dx, de donde P(x) = f(x). dx
Como sabemos que:
P(A < x A
2
) = P(A < x< A
1
) + P(A
1
< x A
2
)
Vemos, pues, que podemos determinar el valor de la funcin de probabilidad y la de distribucin de
nuestra poblacin en cualquier intervalo cuando conozcamos f(x).
La nica condicin que habr de cumplir la funcin f(x) tendr que ser por el axioma
segundo que:
1 ) (
B
A
dx x f
Si esta condicin se cumple, f(x) definir una funcin de distribucin y, por tanto, una funcin de
probabilidad en el intervalo A-B. A esta funcin f(x) se la denomina funcin de densidad por
consideraciones mecnicas de asimilacin de los problemas de probabilidad a los de distribucin de
una masa unidad sobre un eje; pero la imagen intuitiva que tal asimilacin proporciona puede
conducir, quiz, ms a error que a comprender su significado.
Si una variable tiene una funcin de densidad continua f(x) hemos visto que esto no significa
que la probabilidad para un valor de la variable x
i
sea f(x
i
), sino que f(x
i
) es el
34
dx
x P
m i l x f
i
dx i
) (
) (
0
Como hemos visto, esta probabilidad P(x

i
) tiende a cero a medida que disminuye dx y, por tanto,
nunca estaremos interesados en ella. Nuestro inters ser siempre determinar la probabilidad de que
x pertenezca a un intervalo, por ejemplo, b a y esta probabilidad hemos visto que puede obtenerse
mediante la funcin de distribucin:
< < < <

b
a
dx x f a F b F b x a P b x a P b x a P b x a P ) ( ) ( ) ( ) ( ) ( ) ( ) (
Se comprueba que la probabilidad de un punto es
0 ) ( ) (
a
a
dx x f a X P
No debe preocupar el hecho de que se deba asignar probabilidad cero a cualquier valor
especfico, ya que hay un nmero infinito de valores posibles que puede asumir X. Por ejemplo, de
todos los valores posibles que puede tener la vida til de un transistor, cul es la probabilidad de
que el transistor que usted est usando dure exactamente 497.392 horas? La asignacin de
probabilidad cero a este evento no elimina a 497.392 horas como vida posible, sino slo dice que la
probabilidad de observar esta vida determinada es extremadamente pequea.
Si la funcin f(x) tuviera una funcin integral explcita sera muy sencillo hallar los valores
para cualquier intervalo, de la funcin de distribucin.
2.8 Medidas descriptivas numricas.
Las limitaciones de las grficas, en la descripcin y anlisis de conjunto de datos, as como
en la realizacin de la inferencia estadstica (similitud entre la muestra y la poblacin), si no
coinciden es necesario medir hasta que grado difieren, o bien del grado de similitud.
Las limitaciones de los mtodos grficos pueden salvarse con el uso de medidas descriptivas
numricas. Con base en los datos mustrales es posible calcular un conjunto de nmeros que
35
proporciones al estadstico una buena imagen mental de la distribucin de frecuencias de la
poblacin y que resulte til para hacer inferencias acerca de las caractersticas de la poblacin.
Las medidas descriptivas numricas calculadas a partir del total de observaciones de la
poblacin se denominan parmetros; aquellos calculados de las observaciones de una muestra se
denominan estadsticos.
2.9 Medidas de tendencia central.
Las medidas de tendencia central son parmetros estadsticos que tienden a localizar, en
algn sentido la parte central de un conjunto de datos.
Los parmetros ms frecuentemente utilizados se clasifican en dos grandes grupos: los
parmetros de posicin representativos alrededor de los cuales tienden a agruparse los datos y los de
dispersin (o de determinacin) de los datos. Las medidas de posicin sirven para describir la
localizacin de un dato especfico en relacin con el resto de la muestra. Mientras las medidas de
dispersin describen el grado de dispersin o variabilidad de los datos.
Entre los primeros tenemos la media, la moda, la mediana y cuartiles principalmente, y
entre los segundos se utiliza en estadstica con carcter casi exclusivo el rango, la varianza y la
desviacin estndar.
Media.
Si tenemos la medida de una caracterstica en todos los individuos de la poblacin, el valor
medio o media de esta caracterstica se obtiene dividiendo la suma de las medidas por el nmero
total de ellas (promedio aritmtico simple.)
La media aritmtica de un conjunto de N observaciones x
1
, x
2
, ...., x
n
es igual a la suma de
las observaciones divididas entre N
N
x
N
i
i
Cuando, y es el caso ms frecuente, hemos establecido una clasificacin previa tendremos

agrupadas las medidas en clase con la frecuencia correspondiente (promedio ponderado.)

k
i
i i
k
i
i
k
i
i i
k
i
i i
fr x
f
f x
N
f x
X
1
1
1 1
(x
i
en este caso se refiere a la marca de clase.)
Para nuestro ejemplo la media es:
36
16
25
400
25
6 . 28 1 . 24 ... 8 . 8 8 . 7 4 . 5

+ + + + +
x
o en forma frecuencial:
6.995 0.12
0.8394
10.995 0.20
2.199
14.995 0.28
4.1986
18.995 0.24
4.5588
22.995 0.12
2.7594
26.995 0.04
1.0798
x
15.635
Una propiedad aritmtica de la media es que la suma de las desviaciones, con su signo, de
las medidas de cada individuo respecto a la media vale cero.
( ) 0
1

n
i
i
x x
La media como medida descriptiva tiene la desventaja de verse seriamente afectada por
valores extremos. Por ejemplo, considere los siguientes datos que se refieren a la edad al momento
de la muerte de cinco personas:
34, 64, 68, 70 y 74
La media es de 62 aos. Note que cuatro de las cinco personas tenan una edad mayor a la
edad promedio al momento de la muerte.
La media, en este caso se vio seriamente afectada por la persona que muri a los 34 aos
(este sera un valor extremo).
Si los valores de la variable estadstica son grandes, se simplifican los clculos haciendo
A x d d A x
i i i i
+
siendo A una constante que se puede elegir arbitrariamente
k
k k
n n n
d n d n d n
A x
+ + +
+ + +
+
...
...
2 1
2 2 1 1
Para datos agrupados en que todos los intervalos de clase tienen igual amplitud a, se
simplifican los clculos haciendo:
37
a
A x
u
i
i

siendo A una constante que se puede elegir arbitrariamente:

k
k k
n n n
u n u n u n
A x
+ + +
+ + +
+
...
...
2 1
2 2 1 1
Media aritmtica ponderada.
Si x
1
, x
2
, ..., x
N
estn afectados de los coeficientes o pesos p
1
, p
2
, ..., p
N
, que indican la
distinta importancia de x
1
, x
2
, ..., x
N
:
N
N N
p p p
x p x p x p
x
+ + +
+ + +
....
...
2 1
2 2 1 1
Eje. Al principio de curso, un profesor dice a sus alumnos: Haremos tres exmenes
parciales y un final. El segundo examen parcial tendr una importancia doble que el primero, el
tercero doble que el tercero. Un alumno obtiene en el primer parcial un 10, en el segundo un 7, en
el tercero un 5 y en el final un 4.25. Cul ser su nota de final de curso?
Si p es el coeficiente o importancia que se le aplica a la nota del primer examen, el del
segundo ser 2p, el del tercero 2(2p) = 4p, y el del examen final ser 3(4p) = 12p.
5
19
95
12 4 2
) 25 . 4 ( 12 ) 5 ( 4 ) 7 ( 2 ) 10 (

+ + +
+ + +
p
p
p p p p
p p p
final Nota
Promedios Especializados: La Media Geomtrica y la Media Armnica
La Media Geomtrica: La media geomtrica (G) de n valores no negativos es la ensima
raz del producto de los n valores.
Si algunos valores son muy grandes en magnitud y otros muy pequeos, la media geomtrica
proporciona una mejor representacin de los datos que un simple promedio. En una serie
geomtrica, el average mas significativo es la media geomtrica (G). La media aritmtica es muy
favorecida por valores grandes de la serie.
n
n G
x x x x ...
2 1
Una aplicacin: Suponga que las ventas de un determinado producto incrementan en 110%
en el primer ao y en 150% en el segundo. Por simplicidad, asuma que usted inicialmente vendi
100 unidades. Entonces el nmero de unidades vendidas en el primer ao fueron 110 y en el
segundo fueron 150% x110= 165. Usando la media aritmtica de 110% y 150% que es 130%,
38
estimaramos incorrectamente las unidades vendidas en el primer ao de 130 y las del segundo ao
de 169. Mediante la media geomtrica de 110% y 150% obtendramos G = (1,65)
1/2
la cual es la
estimacin correcta, por lo cual venderamos 100 (G)
2
= 165 unidades en el segundo ao.
La Media Armnica: La media armnica otro average especializado, el cual es til para
calcular promedios de variables expresadas en proporciones de unidades por tiempo, tales como
kilmetros por hora, nmero de unidades de produccin por da. La media armnica (G) de n
valores no cero x(i) es:
n
i
i
x
n
H
1
1
.
Una aplicacin: Suponga que cuatro maquinas en un taller son usadas para producir la
misma pieza. Pero, cada una de las maquinas se toma 2.5, 2, 1.5 y 6 minutos para realizar dicha
pieza. Cul es la velocidad promedio de produccin?
La media armnica es: H = 4/[(1/2.5) + (1/2.0) + (1/1.5) + (1/6.0)] = 2,31 minutos.
Si todas las maquinas trabajaran por una hora, cuntas unidades serian producidas? Porque
cuatro maquinas trabajando por una hora representan 240 minutos de operacin, se obtiene que: 240
/ 2,31 = 104 piezas sern producidas.
Mediana
La mediana es otro de los parmetros de posicin, es aquel valor de la variable para el cual
la mitad de los individuos de la poblacin tienen un valor de la variable menor que l, y la otra
mitad mayor que l. Cuando n (el nmero total de observaciones) es un nmero impar, la mediana
es el valor central. Sin embargo, si n es un nmero par, la mediana ser el promedio de los dos
valores centrales. En variables continuas la mediana tiene un valor preciso y determinado, aquel
punto del eje x cuya ordenada divide al rea en dos partes iguales. En variables discretas la mediana
puede ser cualquier valor de un intervalo.
Para nuestro ejemplo, la mediana se encontrara en la posicin nmero 13, que equivale a
Me = 15.9.
Al contrario a lo que ocurre con la media aritmtica, la mediana no se ve afectada por
valores extremos. Tomemos nuevamente el ejemplo de las edades de las cinco personas al momento
de la muerte: 34, 64, 68, 70 y 74. La media aritmtica fue de 62 aos y la mediana, o sea el valor de
la observacin central es de 68 aos. El valor de la mediana no se ve afectado por la edad extrema
de 34 aos. Suponiendo que en lugar de 34 la edad de esa persona al morir fuera de 26 aos, la
mediana continuara siendo 68 aos.
Para decidir cual de estas dos medidas (la media o la mediana) es ms adecuada en un caso
particular, habr que tomar en cuenta la naturaleza de la variable y los requisitos de la medida.
Si se trata de una distribucin razonablemente simtrica (concepto que explicaremos ms
adelante), se prefiere usar la media en lugar de la mediana, ya que la primera utiliza toda la
informacin y est algebraicamente definida, lo que permite que pueda ser sujeta a operaciones
matemticas.
39
En distribuciones con cierto grado de asimetra, O sea distribuciones con tendencia hacia los
valores extremos, la mediana es la mejor medida descriptiva. Tiene la ventaja de no verse afectada
por observaciones extremas.
Para datos agrupados la mediana se calcula por:
m
m
m
m
a
N
N
N
e Me
1
2

+
siendo:
e
m
= extremo inferior del intervalo mediano o clase mediana (intervalo donde se encuentra el
valor del dato de orden N/2)
N
m-1
= suma de las frecuencias absolutas anteriores a la clase mediana
N
m
= frecuencia de la clase mediana
a
m
= amplitud de la clase mediana
Para aplicar la frmula anterior se empieza por hallar el intervalo en que se encuentra la
mediana, que es aqul a cuyo extremo inferior corresponde una frecuencia acumulada inferior a la
mitad de los datos y a cuyo extremo superior corresponde una frecuencia acumulada superior a la
mitad de los datos.
Para nuestro ejemplo la mediana es:
5 . 12
2
25
2

N
El dato en la posicin 12.5 se encuentra en la tercera clase, cuyo intervalo de clase es 13-
16.9, y
57 . 15 ) 4 (
7
8 5 . 12
13
2
1
+

m
m
m
m
a
N
N
N
e Me
Eje. Calcular la mediana de la siguiente distribucin:
Intervalo
s e
i
e
i+1
Frecuencias
n
i
N
i
50 56 8 8
56 64 15 23
40
64 89 22 45
89 93 16 61
93 99 5 66
N/2 = 66/2 = 33. De la ltima columna se deduce que el dato de orden igual a 33 est en el tercer
intervalo, o sea que el intervalo mediano es el 64 89:
27 . 66 5
22
23 33
64
+ Me
La mediana suele usarse como medida central de las distribuciones simtricas. En stas es
ms representativa que la media.
La existencia de valores exageradamente grandes o pequeos en los extremos de la
distribucin no afecta a la mediana, pues el mismo nmero de observaciones hay por debajo que por
encima de la mediana.
Moda.
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia.
Si tenemos clasificada nuestra poblacin y sabemos las frecuencias de cada clase, se llama
moda al valor de la clase que tenga la frecuencia ms alta. En este caso, como en la mediana, la
moda puede ser cualquier valor de intervalo de esa clase.
Algunos conjuntos de datos tendrn ms de una moda (multimodal.)
Todos estos parmetros de posicin que hemos definidos son funciones de los valores de la
variable y vienen expresados en la misma unidad que sta, aunque, en casi todos, intervienen las
frecuencias para su determinacin, el valor del parmetro no es una frecuencia, sino un valor de la
variable y expresado en las mismas unidades que sta.
Para datos agrupados en intervalos de igual amplitud, la moda es un valor situado en le
intervalo al que corresponde la mayor frecuencia, este intervalo se llama intervalo modal o clase
modal.
Si los intervalos tienen distinta amplitud, el intervalo modal es el que tiene mayor altura,
i
i
i
a
n
h
, en el histograma.
En ambos casos la moda se calcula por:
m
m m
m
m
a
n n
n
e Mo
1 1
1
+
+
+
+
41
siendo:
e
m
= extremo inferior del intervalo modal
n
m+1
= frecuencia del intervalo posterior al modal
n
m-1
= frecuencia del intervalo anterior al modal
a
m
= amplitud del intervalo modal
Para nuestro ejemplo, la moda es:
El intervalo modal es la clase 3;
182 . 15 ) 4 (
6 5
6
13
1 1
1
+
+
+
+
+
+
m
m m
m
m
a
n n
n
e Mo
Eje. Calcular la moda de las distribuciones:
Intervalo
s
n
i
40 50 7
50 60 12
60 70 15
70 80 13
80 - 90 8
Los intervalos tienen todos la misma amplitud. El intervalo modal es el tercero, que es el que
tiene mayor frecuencia
2 . 65 10
13 12
13
60
+
+
o
M
Eje. Calcular la moda de la distribucin siguiente:
Intervalo
s
n
i
a
i
h
i
= n
i
/a
i
20 25 2 5 0.4
25 35 7 10 0.7
35 42 6 7 0.86
42 50 10 8 1.25
50 54 8 4 2
54 - 60 3 6 0.5
Por tener los intervalos distinta amplitud, se calculan las alturas del histograma. De la ltima
columna se deduce que el intervalo modal es el penltimo: 50 54,
2 . 59 4
3 10
3
50
+
+ Mo
42
Cuartiles
Cuartil de es un valor tal que una proporcin de la poblacin son menores que l, y
una proporcin 1 -
son mayores.
Primer cuartil Q
1
es aquel valor de la variable para el cual el 25% de los individuos de la
poblacin tienen un valor menor que l y el 75% un valor superior a l. Tercer cuartil Q
3
es aquel
valor que deja un 75% de individuos menor que l y un 25% mayor que l. La mediana puede
considerarse como el segundo cuartil.
Los deciles d
1
, ...., d
9
, que son cuartiles de rdenes 1/10, ...., 9/10, respectivamente, y los
percentiles, P
1
, ......., P
99
, que son cuartiles de rdenes 1/100, ....., 99/100. Su clculo es anlogo al
de la mediana.
En datos sin agrupar se hallan los nmeros naturales iguales o inmediatamente superiores a
N/4, 2N/4, 3N/4. Los valores de las observaciones correspondientes a estos nmeros naturales son
los cuartiles.
Eje. Sea la distribucin que nos da el nmero de veces que aparece cada cara de un dado al
lanzarlo 42 veces:
x
i
n
i
N
i
1 4 4
43
2 11 15
3 7 22
4 5 27
5 8 35
6 7 42
5 32 5 . 31
4
3
3 21
4
2
2 11 5 . 10
4
42
4
3
2
1

Q
N
Q
N
Q
N
Para datos agrupados los cuartiles se calculan por:
3 , 2 , 1
4
1
+

r
a
n
N r
N
e Q
i
i
i
i r
siendo:
e
i
= extremo inferior del intervalo que contiene el cuartil.
N = n
1
+ n
2
+....+ n
k
N
i-1
= suma de las frecuencias anteriores al intervalo que contiene el cuartil
n
i
= frecuencia del intervalo que contiene el cuartil
a
i
= amplitud del intervalo que contiene el cuartil.
Para nuestro ejemplo:
Eje. Sea la distribucin adjunta que nos da las notas de un tribunal de selectividad. Se desea
hallar la nota mxima del 25% de los que han obtenido la peor puntuacin, y la nota mnima del
25% de los que han obtenido la mejor calificacin.
Notas n
i
N
i
0 1 2 2
1 2 5 7
2 3 7 14
3 4 10 24
4 5 18 42
5 6 22 64
6 7 16 80
7 8 8 88
8 9 3 91
9 - 10 11 92
Tenemos que hallar el primer y tercer cuartil.
44
23
4
92
Q
1
es la nota del lugar 23, que observando la columna tercera, est en el cuarto intervalo 3 4:
9 . 3 ) 1 (
10
14 ) 1 ( 23
3
1

+ Q
69 3
4
92
Q
3
est en el sptimo intervalo, 6 - 7:
31 . 6 ) 1 (
16
64 ) 3 ( 23
6
3

+ Q
El tribunal de selectividad decide aprobar al 60% de los estudiantes que se han presentado.
Cul ser la nota mnima con la que se aprobar?
Hay que hallar el decir d
4
:
8 . 36 4
10
92
d
4
es la nota del lugar 36.8 37, que observando la columna N
i
est en el intervalo 4- 5.
Para datos agrupados los deciles se calculan por:
9 ,..., 3 , 2 , 1
10
1
+

r
a
n
N r
N
e Q
i
i
i
i r
siendo:
e
i
= extremo inferior del intervalo que contiene el decil.
N = n
1
+ n
2
+....+ n
k
N
i-1
= suma de las frecuencias anteriores al intervalo que contiene el decil
n
i
= frecuencia del intervalo que contiene el decil
a
i
= amplitud del intervalo que contiene el decil.
Para datos agrupados los percentiles se calculan por:
45
99 ,... 2 , 1
100
1
+

r
a
n
N r
N
e Q
i
i
i
i r
siendo:
e
i
= extremo inferior del intervalo que contiene el percentil.
N = n
1
+ n
2
+....+ n
k
N
i-1
= suma de las frecuencias anteriores al intervalo que contiene el percentil
n
i
= frecuencia del intervalo que contiene el percentil
a
i
= amplitud del intervalo que contiene el percentil.
Eje. Obtngase el primer cuartil, el sptimo decil y el percentil 53 de la siguiente
distribucin:
e
i
e
i+1
n
i
N
i
2 6 17 17
6 10 12 29
10 15 11 40
15 25 8 48
25 32 5 53
32 40 16 69
40 - 45 29 98
98/4 = 24.5, el primer cuartil est en el segundo intervalo, (6 10):
5 . 8 ) 6 10 (
12
17 ) 1 (
4
98
6
1

+ Q
6 . 68 ) 7 (
10
98
, el sptimo decil est en el sexto intervalo, (32 40):
8 . 39 ) 32 40 (
16
53 ) 7 (
10
98
32
7

+ d
94 . 51 ) 53 (
100
98
, el percentil 53 est en el quinto intervalo, (25 32):
516 . 30 ) 25 32 (
5
48 ) 53 (
100
98
25
53

+ p
46
Si el tribunal decide suspender al 23% de los presentados, cul es la nota mnima para
aprobar?
Hay que hallar el percentil p
23
:
16 . 21 ) 23 (
100
92
p
23
est en el intervalo 3 4:
72 . 3 ) 3 4 (
10
14 ) 23 (
100
98
3
23

+ p
Representaciones de caja y bigotes
La representacin de caja y brazos es la forma grfica del resumen con 5 nmeros
correspondientes a un conjunto de datos. En una escala que puede ser horizontal o vertical se
localizan cinco valores numricos: el ms pequeo, el gozne inferior, la mediana, el gozne superior,
el ms grande. La caja se utiliza para representar la mitad central de los datos, que est limitada por
los dos goznes. Los brazos son segmentos de recta que sirven para representar la otra mitad de los
datos; un segmento representa la cuarta parte de los datos con valor menor que el del gozne inferior;
el otro segmento representa a la cuarta parte de los datos cuyo valor es superior al del gozne
superior. Los goznes y la mediana dividen al conjunto de los datos ordenados en cuatro
subconjuntos, de manera semejante a la divisin en dos subconjuntos determinada por la mediana.
Por lo general, los valores utilizados como goznes coinciden con los valores de los cuartiles primero
Q
1
y tercero Q
3
; no obstante, pueden ser ligeramente distintos de acuerdo con el nmero de datos.
Cuando se presenta esta diferencia, resultan algo diferentes los procedimientos utilizados para
calcular los goznes y los cuartiles.
Sin embargo, el siguiente mtodo para evaluar los goznes es similar al utilizado para
encontrar los centiles.
1. Se ordenan los datos
2. La posicin del gozne se calcula sumando 1 a la parte entera de la posicin de la
mediana, y dividiendo entre 2
Se trazan dos bigotes o rabos desde los bordes de la caja. El bigote inferior se prolonga hacia
el valor mnimo, x
(1)
, pero no llega ms bajo que 1 del recorrido intercuartil; esto es,
El bigote inferior comienza en mx[x
(1)
, Q
1
-1.5(Q
3
Q
1
)] o primera barrera inferior
El bigote superior termina en mn[x
(n)
, Q
3
+ 1.5(Q
3
Q
1
)] o primera barrera superior
47
1 3
Q Q
es el rango intercuartil, es igual a la distancia entre el cuartil inferior y el superior,
y sirve para ubicar el rango en el que se ubica el 50% de los datos que estn en el centro de la
distribucin.
La barrera exterior izquierda est definida por
c
R Q 3
1

, y la barrera exterior derecha es
c
R Q 3
3
+
. Si an hay datos por fuera de las barreras exteriores, stos se representarn con un
asterisco. Los datos que estn fuera de estas barreras exteriores pueden considerarse definitivamente
como datos muy alejados, raros o aberrantes.
Pasos para Construir un Boxplot:
1. Lneas horizontales son obtenidas de las observaciones mas pequeas (A), en
el cuartl mas bajo, y otro para el cuartl mas alto (D), de observaciones mas largas
(E). Las lneas verticales que producen la caja, se unen con las lneas horizontales en
los puntos B y D.
2. La lnea vertical es dibujada en el punto medio (C), como es mostrado en la
figura anterior.
Eje. Considrese el siguiente conjunto de 19 calificaciones correspondientes a un examen:
52, 62, 66, 68, 72, 74, 74, 76, 76, 76, 78, 78, 82, 82, 84, 86, 88, 92, 96.
La posicin de la mediana es igual a (n+1)/2 = (19+1)/2 = 10
La posicin de la bisagra es igual a (10 + 1)/2 = 5.5
El gozne inferior, es el valor en la posicin 5.5 determinada contando a partir del valor ms
pequeo. As al sumar los valores quinto y sexto, y luego dividir entre 2, se obtiene el gozne inferior
= 73. Anlogamente, el gozne superior, es el valor en la posicin 5.5 determinada contando a partir
del valor ms grande. As gozne superior = 83, valor que resulta de sumar los valores quinto y
sexto, y dividir luego entre 2.
El resumen con 5 nmeros es entonces ms pequeo = 52, gozne inferior = 73, mediana =
76, gozne superior = 83 y ms grande = 96. As el conjunto de datos ordenados queda dividido en
cuatro subconjuntos:
52 62 66 68 72 73 74 74 76 76 76 78 78 82 82 83 84 86 88 92
96
A continuacin se muestra la representacin de caja y brazos para este conjunto de datos.
48
52 73 76 83 96
Interpretacin del diagrama de caja.
De acuerdo con la manera en que se ha construido este diagrama, en su interpretacin se
debe hacer nfasis en:
1. El largo del diagrama (que incluye el rectngulo ms ambos brazos o bigotes), ya que esto
indica una medida de la variacin de los datos y resulta de mucha utilidad sobre todo para comparar
la variacin entre procesos, tratamientos, lotes o turnos de produccin. En general, entre ms largo
sea un diagrama indicar una mayor variacin de los datos correspondiente.
2. La parte central del diagrama indica la tendencia central de los datos, pero lo que tambin
ayudar a comparar dos o ms procesos, mquinas, lotes o turnos de produccin en cuanto a su
tendencia central.
3. Comparar visualmente la longitud de ambos brazos. Si uno es ms grande que el otro,
entonces la distribucin de los datos es probablemente sesgada en la direccin del brazo ms grande.
Tambin observar la ubicacin de la lnea mediana que parte la caja, ya que si est ms cerca de uno
de los extremos, tambin ser seal de probable sesgo en los datos.
4. En caso de que el diagrama est basado en una cantidad suficiente de datos (10 por
ejemplo), ver si hay datos fuera de las barreras interiores, marcados con un punto, ya que entre ms
alejado est un dato del final del brazo, ser seal de que tal dato probablemente ser un dato raro.
Si los datos caen ms all de las barreras exteriores, entonces prcticamente es un hecho que tales
datos son raros o aberrantes.

2.10 Medidas de dispersin.
Los parmetros de posicin nos indican puntos de la variable en los que ocurren
determinadas cosas, pero no indican nada sobre el resto de la distribucin. Con objeto de mejorar
algo esta descripcin que suministran los parmetros de posicin se utilizan unos parmetros
llamados de dispersin, que intentan explicar el grado mayor o menor de concentracin de la
poblacin alrededor del parmetro de posicin. Estos parmetros son la varianza, la desviacin
estndar y el rango.
Rango.
Se llama rango, unas veces a los valores extremos que puede tomar una variable y otras al
intervalo entres esos valores extremos.
El rango es una medida que esta influenciada por el nmero de observaciones, el rango
tiende por lo general a aumentar a medida que el nmero de observaciones aumenta y nunca
disminuye. Basta una sola observacin cuyo valor se aleje de la mayora (dato aberrante, dato
extremo, outlier) para que el rango aumente su magnitud. Otra desventaja es que se requiere de
49
procedimientos matemticos muy complejos cuando se utiliza el rango en inferencia estadstica. Sin
embargo, en algunas ocasiones, cuando se usa a la mediana como medida de tendencia central, se
usa el rango como medida de variacin.
Este valor estadstico es una medida simple de dispersin. Sin embargo, debido a que
depende nicamente de dos valores, la amplitud de variacin (o rango) es una medida burda de
dispersin y constituye un eficiente valor estadstico cuando se consideran muestras pequeas.
Es importante destacar que cuanto mayor sea el nmero de observaciones en una muestra,
ms probable ser que encontremos valores que se aparten mucho de la media. Por lo tanto, la
amplitud aumenta con el tamao de la muestra. Si este hecho no se tuviera en cuenta y las
amplitudes de variacin de muestras de diferente tamao se comparan indiscriminadamente, se
obtendran resultados engaosos.
La amplitud de variacin y la desviacin estndar estn relacionados entre s, de modo que
para cualquier nmero dado de n observaciones, se puede obtener un valor estimado de la
desviacin estndar s de la poblacin considerada a partir del valor medio de la amplitud de la
muestra R :
d R s
Esta expresin es vlida cuando la variable tiene una distribucin normal y la estimacin de
s pierde exactitud a medida que la distribucin se aparte ms de la normalidad.
La estimacin de la desviacin estndar dada por d R s no es ms que una aproximacin,
y slo debe ser utilizada cuando la amplitud promedio R se obtenga a partir de un nmero
suficientemente grande de muestras (digamos no menor que 10), todas del mismo tamao. Para el
mismo nmero total de observaciones, la estimacin es mucho ms exacta cuando las muestras son
abundantes y pequeas, que cuando son escasas y grandes.
Si se han realizado muchas observaciones sin haberlas separado en muestras, su subdivisin
en subgrupos iguales se logra mediante un muestreo al azar. Luego se calcula la amplitud R de
cada subgrupo y de ah, el valor medio de la amplitud de variacin R . La estimacin de la
desviacin estndar puede calcularse multiplicando R por el coeficiente d, que corresponde al
nmero de observaciones en un subgrupo.
La varianza.
La variacin de un conjunto de datos indica la cantidad de dispersin de los datos
individuales respecto de la media.
En unas evaluaciones de la calidad de imagen de una fotocopiadora se utiliz un escala de
puntuacin del 0 al 10. Supongamos que se realizaron cinco fotocopias del mismo original, y un
usuario las calific con los valores 2, 4, 5, 6 y 7, cmo podemos indicar dicha calificacin con un
solo valor? Pues con el valor que los represente a todos; de hecho, elegimos un solo representante si
calculamos la media aritmtica, que valdr:
50
5
5
7 6 5 4 3
+ + + +
media
Si esta fotocopiadora la identificamos con una A, diremos que ha obtenido una media de 5.
Ahora la valoracin de otra fotocopiadora de otra marca que identificamos como B; el usuario y el
original son los mismos y los valores son 1, 3, 5, 7 y 9; si calculamos la media, valdr:
5
5
9 7 5 3 1
+ + + +
media
Vemos que la fotocopiadora B ha sido calificada con la misma media, exactamente como la
A. Si representamos los valores individuales en la figura siguiente, podemos ver que las
distribuciones de valores son muy distintas, aunque la media vale lo mismo. Desde el punto de vista
de la calidad podemos decir que la A es de ms calidad, pues es ms consistente en su
reproducciones, ya que da sus valores ms agrupados, aunque la B es capaz de obtener fotocopias
mejores; una de ellas ha obtenido un 9, pero en cambio tambin las puede obtener peores considere
el 1 que es ilegible- por lo que nos conviene ms la A, que nos dar ms regularidad en las
fotocopias.
La media nos ha evaluado a ambas con el mismo valor, por lo cual constatamos que no es
una medida suficiente para definir la variacin. Necesitamos un indicador de la variacin ya que, si
comparamos las dos distribuciones queda muy claro que la fotocopiadora B presenta una dispersin
o un grado mayor de variacin que la A en cuanto a su calidad de imagen.
Si recurrimos a la diferencia entre valores extremos, ya tendremos un indicador muy simple
de la dispersin, que en estadstica se le llama recorrido, y es la diferencia entre el valor mayor y el
menor.
menor el mayor el recorrido
Para ambos casos valdr:
8 1 9 :
4 3 7 :

recorrido B ora fotocopiad
recorrido A ora fotocopiad
51
Esta ya es una medida de variacin til, pues nos indica que la dispersin B es el doble que
la de A, pero fijmonos que slo recoge informacin de los valores extremos, con lo cual, si
tuviramos una fotocopiadora C, cuyos valores obtenidos son 1, 2, 5, 8, 9: el recorrido sera el
mismo de B:
8 1 9 : recorrido C ora fotocopiad
Pero el grado de dispersin sera an ms fuerte, pues se puede ver una mayor densidad de
agrupacin cerca de los extremos y el recorrido no lo est indicando, pues no es capaz de distinguir
la B de la C. Necesitamos pues, una medida de dispersin que tome en consideracin a todos y cada
uno de los elementos del grupo, con lo cual ya aparecer esa indicacin de la densidad de la
distribucin, por lo que podramos calcular las diferencias de cada uno respecto a su representante,
que es la media y encontrar finalmente la diferencia media; si probamos con B, cuy media es 5:
0
4 5 9
2 5 7
0 5 . 5
2 5 3
4 5 1
Vemos que dichas diferencias se anulan al sumarlas, lo cual es un inconveniente, que se

podra salvar tomando el valor absoluto antes de sumarlas, pero de hecho se prefiere elevarlas al
cuadrado, con lo que todos los valores tambin se convierten en positivos, y esta operacin se ha
considerado tradicionalmente de comprensin y aplicacin ms simple. Sin embargo, imaginemos,
por ejemplo, que esas desviaciones se midieran en kilogramos; resultara que al elevarlas al
cuadrado se convierten en Kg
2
lo que pierde su sentido fsico y prctico, con lo cual es conveniente
calcular la raz cuadrada con lo que recuperar su unidad original. Esa definicin constituye la
medida de dispersin ms extendida, y se llama desviacin tipo, desviacin normal o desviacin
estndar, que se define como o s
La varianza es la suma de los cuadrados de las desviaciones del valor de la variable, en cada
individuo, respecto al valor de la media, dividido por el nmero de individuos. Si los individuos
estn agrupados en clases, la varianza se obtiene sumando los productos de la frecuencia de cada
clase por los cuadrados de las diferencias entre la media y el valor central de la clase y dividiendo
esa suma por el nmero total de individuos.
( )
2
1 1
2
2
1
2
1
2 2
1
2 2
1 1 1
,
_
1
]
1
1
]
1

N
x
N
x
x
N
N x
N
x
N
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i

52
2
1 1
2
2
1
1
2 2
1

,
_
,
_
1
]
1
k
i
k
i
i r i r i
k
i
i i k
i
i i
f x f x
N
f x
f x
N
i
es la varianza de una poblacin de N observaciones x

1
, x
2
, ......, x
N
.
Esto se obtiene de la suma de cuadrados de las desviaciones:
( ) ( ) ( ) ( )
( )
2
1 1
2
2
1 1
2
1
2 2
1
2 2 2
1 1
2
1
2
1 1 1
2 2 2
1
2
1
2 2
2 2
,
_
,
_

+ +
+ +

n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
n
i
n
i
n
i
i i i i
n
i
i
x
n
x
n
x
n x n x
n n x n x x
x x x x x

Para nuestro ejemplo:
i xi (xi - )
2
2
i
x
1 5.4 112.36 29.16
2 7.8 67.24 60.84
3 8.8 51.84 77.44
4 9.2 46.24 84.64
5 9.9 37.21 98.01
6 11.8 17.64 139.24
7 12.6 11.56 158.76
8 12.7 10.89 161.29
9 13.4 6.76 179.56
10 14.3 2.89 204.49
53
11 15.4 0.36 237.16
12 15.6 0.16 243.36
13 15.9 0.01 252.81
14 16.8 0.64 282.24
15 16.9 0.81 285.61
16 17 1 289
17 18.4 5.76 338.56
18 19.2 10.24 368.64
19 19.5 12.25 380.25
20 20.5 20.25 420.25
21 20.8 23.04 432.64
22 22.1 37.21 488.41
23 23.3 53.29 542.89
24 24.1 65.61 580.81
25 28.6 158.76 817.96
Total 400 754.02 7154.02
( ) 1608 . 30
25
02 . 754 1
1
2 2

N
i
i
x
N

1608 . 30
25
400
25
02 . 7154
1608 . 30 256 1608 . 286 ) 16 ( ) 02 . 7154 (
25
1 1
2
2
1 1
2
2
2 2
1
2 2

,
_
,
_

1
]
1
N
x
N
x
x
N
N
i
i
N
i
i
N
i
i

Utilizando la tabla de frecuencias:
xi fi xifi

2
i
x
i i
f x
2
6.995 0.12
0.8394 48.930025 5.871603
10.995 0.20
2.199 120.890025 24.178005
14.995 0.28
4.1986 224.850025 62.958007
18.995 0.24
4.5588 360.810025 86.594406
22.995 0.12
2.7594 528.770025 63.452403
26.995 0.04
1.0798 728.730025 29.149201
15.635 272.203625
75 . 27 453 . 244 2036 . 272 ) 635 . 15 ( 2036 . 272
2 )
2
1 1
2 2

,
_

k
i
k
i
i r i r i
f x f x
i
La varianza de una muestra de n observaciones x

1
, x
2
, ..., x
n
, se define como la suma de los
cuadrados de las desviaciones de las observaciones respecto de su media x , dividida entre (n-1).
54
( )
n
i
i
x x
n
s
1
2 2
1
1
( )
( )
2
1
2
2
1
2
2
2
2
1 1
2 2
1 1
1
) 1 (
1
) 1 (
1
1
1
x
n
n
x
n
x n x
n n n
x x n
x
n
x
n
s
n
i
i
n
i
i
i i
n
i
i
n
i
i
1
]
1
,
_
,
_

En trminos de la frecuencia relativa:
1
]
1
1
1
]
1
,
_

2
1
2
1
2
1 1
2 2
1
1
1
1
1
x f x
n n
n
f x
n
f x
n
s
k
i
r
k
i
ri i ri
k
i
i
iu
La desviacin estndar.
La desviacin estndar de una poblacin es:
( )

N
i
i
x
N
1
2
1

La desviacin estndar muestral.
La desviacin estndar muestral de un conjunto de n observaciones x
1
, x
2
, ...., x
n,
es igual a
la raz cuadrada positiva de la varianza.
,
_
n
i
i
x x
n
s
1
2
1
1
La desviacin estndar nos aporta mayor informacin que el rango como medida de
dispersin, porque utiliza todas las observaciones: no tiende a aumentar a medida que el nmero de
observaciones aumenta; y es muy adecuada para manipulaciones matemticas. En consecuencia, la
desviacin estndar es la medida de variacin ms usada en mtodos estadsticos para hacer
inferencia.
Se divide por (n-1), ya que slo existen n-1 diferencias independientes, y la desviacin
media se calcula dividiendo por el nmero de desviaciones realmente independientes. Por ejemplo,
con los nmeros 3, 4, 5, 6 y 7 de las fotocopiadoras
55
16 . 3
10
4
) 4 ( ) 2 ( ) 0 ( ) 2 ( ) 4 (
2 2 2 2 2
2
+ + + +
s
s
tenemos cuatro diferencias independientes, que son las suficientes para definir a los cinco nmeros;
si empezamos con el 3 y le aadimos un 1 obtenemos el 6, si le aadimos otro 1 obtenemos el 7.
Fijmonos que hemos empleado slo cuatro unos, es decir, cuatro diferencias, para definir cinco
nmeros; eso esquemticamente es:
1 ... 1 1 1 1
... 7 6 5 4 3
+ + + + n s diferencia
n nmeros
Lo que significa que con n elementos, slo hay n-1 diferencias independientes. La media no
la tendramos en cuenta pues tampoco es independiente, ya que se ha calculado a partir de los
nmeros dados, y en el ejemplo anterior sera adems el sexto nmero, es decir, n+1.
Cuando se trata de una fabricacin con una cantidad muy importante de unidades, la
desviacin tipo de toda la fabricacin se puede estimar a partir de la medicin de un nmero
pequeo de unidades a condicin de dividir pro n-1, que acta como corrector, por lo que de este
modo obtenemos una aproximacin de la desviacin tipo de toda la fabricacin o poblacin.
Fijmonos que en el ejemplo anterior al dividir por 4 en vez de 5, el resultado se hace mayor, con lo
cual estamos corrigiendo por el hecho de tomar slo una muestra de la fabricacin o poblacin.
Ahora podemos presentar los resultados de las fotocopiadoras, de forma que nos definan
completamente la variacin que presenta cada una. Tenemos dos medidas, que presentadas
conjuntamente nos definen la variacin de una forma completa; una es la media de los valores que
nos indica la posicin, y otra la desviacin tipo que nos indica el grado de dispersin:
FOTOCOPIADORA MEDIA x DES. TIPO. S RECORRIDO, R
A 5 1.58 4
B 5 3.16 8
C 5 3.54 8
La media por s sola no distingue entre las tres distribuciones que son distintas, el recorrido
slo distingue las dos primeras, pero confunde la B con la C; en cambio la desviacin tipo distingue
a las tres, aunque ella solo tampoco sera suficiente para definir una distribucin, ya que nos faltara
situarla. Por ejemplo, podemos tener una distribucin D, con la s = 1.58 y tener situada la media en
3, lo que significara una calidad muy inferior con respecto a las distribuciones presentadas.
Nota. Comnmente, el numerador de la varianza,
) ( x
2
. Se le llama tambin suma de
cuadrados de x, y se simboliza como SC(x). Por lo tanto,
s
2
= SC(x)/n - 1 , donde SC(x) =

2
) ( x
56
Hay otras estadsticas que miden la dispersin, y son:
1. Rango intercuartil IQR = Q
3
Q
1
.
2. Coeficiente de variacin x s CV /
El rango intercuartil es una medida til de la dispersin, cuando hay valores extremos o
valores atpicos en la muestra. El coeficiente de variacin es un ndice adimensional para comparar
la variabilidad de diversos conjuntos de datos, cuando la desviacin estndar tiende a crecer con el
promedio.
Coeficiente de variacin.
Si bien es posible que carezca de sentido comparar desviaciones estndar, es posible
comparar la variabilidad entre dos o ms conjuntos de datos que representan diferentes cantidades
con distintas unidades de medicin, utilizando una medida de resumen numrica conocida como
coeficiente de variacin. El coeficiente de variacin relaciona la desviacin estndar de un conjunto
de valores con su media; es el cociente entre s y x , y por tanto, s una medida de variabilidad
relativa. Como la desviacin estndar y la media comparten las mismas unidades de medicin, se
cancelan y despojan al coeficiente de variacin de dimensiones.
% 100
x
s
CV
No resulta fcil afirmar si este valor, en s mismo, es grande o pequeo; el coeficiente de variacin
es ms til para comparar dos o ms conjuntos de datos. Puesto que carece de unidades de
medicin, se le puede utilizar para evaluar la variacin relativa entre dos conjuntos de
observaciones. Entre ms pequeo sea el CV indicar que la variable tiene menos variacin en
trminos porcentuales. Aunque en algunos crculos an se emplea el coeficiente de variacin como
medida de resumen, sus propiedades estadsticas no son buenas. Como consecuencia, su aplicacin
disminuye y no debera fomentarse su uso.
En el caso contrario, digamos, 1/CV se llama el Cociente de seal de ruido.
2.11 El significado prctico de la desviacin estndar.
La desviacin estndar puede ser interpretada como una medida de la dispersin que tienen
los valores en torno a la media. En este sentido, la media aritmtica y la desviacin estndar son
complementarias. La media aritmtica mide el valor central de la distribucin y la desviacin
estndar muestra que tan dispersos estn los valores individuales en torno a este valor central.
Mientras mayor es la distribucin de los valores de una distribucin, mayor es el valor de la
desviacin estndar.
El teorema de Tchebysheff. Dado un nmero k, y un conjunto de observaciones x
1
, x
2
, ....,
x
n
, al menos (1 - 1/k
2
) de las observaciones caen dentro de k desviaciones estndar de la media. La
57
probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones estndar
de la media es al menos 1 1/k
2
. Es decir.
2
1
1 ) (
k
k X k P + < <
Dem. Por la definicin de varianza de X podemos escribir
[ ]

+
+

+

+
+ +

k
k
k
k
k
k
dx x f x dx x f x
dx x f x dx x f x dx x f x
dx x f x
X E
) ( ) ( ) ( ) (
) ( ) ( ) ( ) ( ) ( ) (
) ( ) (
) (
2 2
2 2 2
2
2 2
debido a que la segunda de las tres integrales es no negativa. Ahora bien, como
k x
para
cualquier
k x o k x +
, tenemos que
2 2 2
) ( k x en ambas integrales. Se sigue que

+

+

k
k
dx x f k dx x f k ) ( ) (
2 2 2 2 2
y que
2
1
) ( ) (
k
dx x f dx x f
k
k
+

+

De aqu
2
1
1 ) ( ) (
k
dx x f k X k P
k
k
+ < <

.
El teorema de Tchebysheff se refiere a cualquier conjunto de observaciones, por lo tanto se
puede aplicar tanto a una muestra como a la poblacin.
58
Fig. 2.14 Ilustracin del teorema de Tchebysheff
La idea contenida en el teorema de Tchebysheff se ilustra en la figura 2.14. En esta figura se
construye un intervalo midiendo una distancia de k a ambos lados de la media. Note que el resultado
del teorema es cierto para cualquier nmero k siempre y cuando ste sea mayor o igual a uno.
Entonces dentro de este intervalo se tendr una fraccin del (1 - 1/k
2
) del nmero total de
observaciones n.
Para k = 1 el teorema afirma que cuando menos 1 - 1/1
2
= 0 de las observaciones caen en el
intervalo de (
) a (
), para k = 2, 1 - 1/2
2
= de las observaciones caen en el intervalo
de (
- 2 ) a (
+ 2 ). Cuando menos 8/9 de las observaciones caen dentro de 3 desviaciones

estndar de la media, es decir dentro del intervalo de (
- 3
) a (
+ 3
).
Se presenta ahora una regla que describe adecuadamente la variabilidad de una distribucin
acampanada y razonablemente bien la variabilidad de otras distribuciones que se acercan a esta
forma. Una buena cantidad de mediciones de caractersticas de seres vivos y otras variables que se
observan en la naturaleza siguen una distribucin en forma de campana u otra forma similar a sta.
De aqu la importancia prctica de la siguiente regla que se conoce como la regla emprica.
La regla emprica.
Dada una distribucin de las observaciones con forma aproximadamente acampanada,
entonces el intervalo:
(
t
) contiene aproximadamente al 68.2% de las observaciones
(
t2 ) contiene aproximadamente al 95.4% de las observaciones

59
(
t3
) contiene casi todas las observaciones (99.7%).

La distribucin acampanada de la figura 2.15 se conoce como la distribucin normal.

Fig. 2.15 La Regla Emprica.
Lmites reales o naturales.
Los lmites reales o naturales de un proceso indican los puntos en donde vara la salida de un
proceso, y por lo general se obtienen de la siguiente manera:

3 ) ( sup
3 ) ( inf
+

LRS erior real Lmite
LRI erior real Lmite
Estos lmites indican la amplitud real de la variacin de salida del proceso. En un estudio de
capacidad, estos lmites reales se comparan contra las especificaciones para la caracterstica de
calidad. Por ejemplo, si las especificaciones para una caracterstica de calidad son que sta debe
tener dimensiones de 800 t 5; luego la especificacin inferior es EI = 795, y la superior es ES =
805. Si adems se sabe que la media y la desviacin estndar de tal caracterstica de calidad son =
800.6 y = 1.2, entonces los lmites reales son:
2 . 804 ) 2 . 1 ( 3 6 . 800
0 . 797 ) 2 . 1 ( 3 6 . 800
+

LRS
LRI
Por lo que se espera que esta caracterstica de calidad vare de 797.0 a 804.2, con una media
de 800.6. Al comparar esto con las especificaciones, se aprecia que los lmites reales caen dentro de
las mismas, por lo que se concluye que el proceso es capaz de cumplir con tales especificaciones.
2.12 Momentos y medidas de asimetra.
60
Ahora es posible considerar las tres medidas de tendencia central: media, mediana y moda,
en la curva de distribucin de frecuencias, que se muestra en la figura 2.16. La moda es el valor
correspondiente al punto ms alto de la curva; la mediana divide al rea bajo la curva en dos
mitades; y la media pasa por el centroide del rea. (Esto ltimo resulta del hecho de que la suma de
las desviaciones respecto de la media de todas las observaciones, es cero). La mediana se encuentra
entre la media y la moda, o bien, coincide con ellas.
Cuando los tres promedios no coinciden, se dice que la curva de distribucin de frecuencias
es sesgada o es asimtrica. Es sesgada hacia la derecha cuando la mediana se encuentra a la derecha
de la moda, es decir, cuando la cola derecha de la curva se extiende, y sesgada hacia la izquierda
cuando la mediana se encuentra a la izquierda de la moda.
En las distribuciones con una nica moda, en general, si la distribucin es asimtrica
positiva, la media es superior a la mediana y sta superior a la moda.
Si la distribucin es asimtrica negativa, la media es inferior a la mediana y sta inferior a la
moda. Para curvas simtricas, la media, moda y mediana coinciden.
Fig. 2.16 Media, mediana y moda
Para curvas de frecuencias unimodales que sean moderadamente sesgadas (asimtricas), y se
conoce la media y la mediana, se tiene la siguiente relacin emprica:
Moda 3(medianas) - 2(medias)
Esta estimacin es aplicable a ambos, conjuntos agrupado y no agrupado de datos.
Los momentos son expresiones que definen algunas medidas de centralizacin y dispersin
de las variables estadsticas.
Se llama momento respecto al origen de orden r a la expresin:

k
i
i
r
i
N
i
r
i
r r
N
f x
N
x
m
1
1

Ntese que
1
es la media aritmtica.
61
Se llama momento respecto a la media o un momento central, de orden r a la expresin:

k
i
j
r
j
N
i
r
i
r r
N
f x
N
x
m
1
1 *
) (
) (

Ntese que m
2
es la varianza, y, m
2
=
2
-
1
2.
Medidas de asimetra.
Una distribucin es asimtrica a la derecha si su grfica (histograma) presenta una cola
ms larga a la derecha. De forma anloga para la izquierda.
Sesgo de la muestra (coeficiente de Skewness) mide qu tan asimtrica es la distribucin de
nuestros datos con respecto a la media:
poblacin una para
m
x x
n
Skewness
n
i
i
3
3
3
1
3
) (
1

( )
muestra una para
s n
x x
Skewness
3
3
) 1 (

Si una distribucin es simtrica con respecto de su promedio, el sesgo es = 0. Si el sesgo es >
0, se dice que la distribucin tiene sesgo positivo o sesgo a la derecha. Si el sesgo es < 0, la
distribucin tiene sesgo negativo o sesgo hacia la izquierda. En este caso Media Mediana
Moda. En las distribuciones con sesgo positivo, Media Mediana Moda. En la distribuciones
simtricas, Mo Me x .
Coeficiente de asimetra de Pearson. Viene definido por:
) ( 3 Me
p

Si p = 0, la distribucin es simtrica, la mediana (Me) y la media coinciden; Si p > 0 la

distribucin es asimtrica a la izquierda, y si p < 0, la distribucin es asimtrica a la derecha.
El coeficiente de Kurtosis nos dice que tan aplanada o picuda es la distribucin de nuestros
datos con respecto a la distribucin normal.
El Kurtosis de la muestra se define como:
poblacin una para
x x
n
K
n
i
i
4
1
4
) (
1
62
( )
muestra una para
s n
x x
Kurtosis
i
4
4
) 1 (

Cuando se trata de una distribucin normal el valor de este coeficiente
4
4
/ m es de 3. Si es
menor de 3, nos indicar, a grandes rasgos, que los valores ms alejados de la media tienen en esa
curva mayor probabilidad que en la curva normal, o sea, que en cierta medida la curva es aplanada.
Si es mayor de 3 entonces la curva o es muy puntiaguda en el centro o tiene colas relativamente
cortas. A este coeficiente
4
4
/ m o ms corrientemente
4
4
/ m -3, para compararlo con su valor en
la curva normal, es a lo que se llama Kurtosis
3 3
2
2
4
4
4

m
m
s
m
Kurtosis
Los valores estandarizados de estos dos coeficientes prueban la posibilidad de una
desviacin importante con respecto a la distribucin normal. Si los valores de estos coeficientes
estandarizados se salen del rango entre -2.0 y +2.0 significa que los datos se apartan en forma
significativa de la distribucin normal.
Todas estas comparaciones se entienden hechas con la curva normal de la misma media y
varianza que las de la distribucin que comparamos. Esta es otra razn para dividir por . ,
4 3

Estos valores de la kurtosis son indicativos cuando las distribuciones son aproximadamente
simtricas, si son muy asimtricas carecen de valor prctico. En la misma distribucin normal, al
aumentar disminuye OA y aumenta OL, Fig. 2.17, por lo que de dos curvas normales con
diferente ser ms esbelta la de menor , aunque en ambas la kurtosis valga 0. Esto explica por
qu hemos antes comparado, al definir la kurtosis, con la curva normal de la misma ; no tendra
sentido hablar de ms o menos esbelta si la comparamos con otra cualquiera.
63
Fig. 2.17 En todas las curvas normales el punto de inflexin I est a una distancia del
origen O. Las ordenadas en el origen OA valen 2 / 1 .
Se puede demostrar que,
.
, 1
n muestra la de tamano al igual o que menor es Kurtosis
y a igual o que grande ms es Skewness Kurtosis
Estas desigualdades se mantienen para cualquier distribucin que tengan un Skewness y Kurtosis
finitos.
2.13 Estadsticas robustas de ubicacin y dispersin.
Tanto el promedio de la muestra,
n
x
, como la desviacin estndar muestral son sensibles a
observaciones atpicas. Por ejemplo, supongamos que se hicieron tres observaciones sobre la
resistencia de la soldadura de acero al esfuerzo cortante, y que se obtuvieron los valores 2350, 2400
y 2500. El promedio de la muestras es
3
x
= 2416.67. Qu sucede si un tcnico, por error, teclea el
valor 25000 en lugar de 2500? El promedio de la muestra resultar 9916.67. Si se comprueba el
resultado de inmediato, es probable que se descubra y se corrija el error. Sin embargo, si no se
comprueba de inmediato, el resultado absurdo quedar y ser causa de dificultades posteriores.
Tambin la desviacin estndar se anotar errneamente, como 13063, y no con el valor correcto de
76.376. Este sencillo ejemplo indica lo sensibles que son el promedio y la desviacin estndar a la
presencia de valores atpicos en los datos.
Para evitar esos problemas se puede usar una estadstica (ms) robusta que el promedio de
la muestra,
n
x
. sta es el promedio recortado . De los extremos superior e inferior de la muestra
ordenada se eliminan sendas porciones de los datos. A continuacin, se calcula el promedio con la
parte que queda de los datos, que es 1 - 2. Representaremos con
T
el promedio recortado es
[ ]
[ ]
) 1 (
1
) (
1

n
n j
j
x
N
T
64
en la que
[ ] .
representa la parte entera del nmero entre parntesis rectangulares, por ejemplo,
[ ] 7 3 . 7
, y
[ ] [ ]
n n N ) 1 (
. Por ejemplo, si n =100 y = .05, se calcula el promedio de los
90 valores ordenados x
(6)
, ..., x
(95)
.
Sin embargo, Me,
T
, Q
1
y Q
3
no cambian nada. Estas estadsticas se llaman robustas o
insensibles, contra desviaciones extremas o datos atpicos.
La desviacin estndar S es muy sensible a las observaciones en los extremos. Una
estadstica robusta de la dispersin es
3490 . 1
1 3
Q Q

El denominador 1.3490 es la distancia entre Q
3
y Q
1
en la distribucin normal terica. En realidad,
Q
3
y Q
1
son robustos contra valores atpicos. En consecuencia,
~
que equivale aproximadamente a
las tres cuartas partes del IQR, con frecuencia resulta ser una estadstica apropiada para remplazar a
S.
Otra estadstica es la desviacin estndar recortada :
( )
[ ]
[ ]
,
_
) 1 (
1
2
) (
1
1

n
n j
j
T x
N
S
Eje. Utilice una muestra de 50 datos obtenidos en un examen de laboratorio. Los 50 datos
ordenados de manera ascendente son:
27 68 79 91 107
43 71 80 91 108
65
43 71 81 93 108
44 71 82 94 116
47 73 82 94 120
49 73 84 94 120
50 74 84 96 122
54 75 86 97 123
58 76 88 103 127
63 77 88 106 128
Diagrama Tallo-hoja:
7 4 333479
10 5 048
12 6 38
23 7 11113345679
(10) 8 0112244688
22 9 113344467
13 10 367888
7 11 6
6 12 002378
Tabla de frecuencia.
Procedimiento:
1. Identifique los valores mximos y mnimos (128, 27) y obtenga su amplitud
Amplitud = 128 27 = 101
2. Seleccione un nmero de clase (10) y un ancho de clase (11) de manera que el producto
(110) sea un poco mayor que la amplitud o intervalo total (amplitud = 101).
3. Elija un valor inicial. Este valor debe ser un poco ms pequeo que el puntaje mnimo.
Supngase que inicia en 22, contando un mltiplos de 11 (el ancho de clase) a partir de
este nmero inicial, obtenemos 22, 33, 44, 55, ...., 132. Estos ltimos valores se llaman
lmites inferiores de clase.
Las clases son:
22-32 77-87
33.43 88-98
44.54 99-109
55.65 110-120
66.76 121-131
66.77
Clase Fronteras de
clase
Frecuencia
de clase, f
i
Frec.
Relativa de
clase, fr
i
Frec.
acumulada
1 22-32 1 1/50 1/50
2 33-43 2 2/50 3/50
3 44-54 5 5/50 8/50
66
4 55-65 2 2/50 10/50
5 66-76 9 9/50 19/50
6 77-87 9 9/50 28/50
7 88-98 10 10/50 38/50
8 99-109 5 5/50 43/50
9 110-120 3 3/50 46/50
10 121-131 4 4/50 50/50
Totales 50 1.00
La marca de clase es el punto medio de cada clase (x
1
= (22 + 32)/2 = 27)
Descriptive Statistics: datos
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
calif 55 0 83.18 3.26 24.17 27.00 71.00 82.00 97.00 128.00
calif
F
r
e
q
u
e
n
c
y
120 100 80 60 40
12
10
8
6
4
2
0
Histogram of calif

67
120 100 80 60 40
Median
Mean
90.0 87.5 85.0 82.5 80.0 77.5 75.0
Anderson-Darling Normality Test
Variance 583.966
Skewness -0.133822
Kurtosis -0.427337
N 55
Minimum 27.000
A-Squared
1st Quartile 71.000
Median 82.000
3rd Quartile 97.000
Maximum 128.000
95% Confidence I nterval for Mean
76.649
0.35
89.715
95% Confidence I nterval for Median
75.786 91.428
95% Confidence I nterval for StDev
20.344 29.768
P-Value 0.469
Mean 83.182
StDev 24.165
95% Confidence I ntervals
Summary for calif
calif
P
e
r
c
e
n
t
140 120 100 80 60 40 20
100
80
60
40
20
0
Mean 83.18
StDev 24.17
N 55
Empirical CDF of calif
Normal
68
Eje. En el proceso de produccin de punteras, se tiene que el cuerpo de cierta puntera debe
tener un dimetro exterior de 0.02 m (2.0 cm), con una tolerancia de t 25 m (1 m = 10
-6
m). A
las mediciones originales se les resta el valor nominal de 20 000 m, por lo que el resultado de la
resta debe estar dentro de t 25 m, y ahora el valor nominal ser cero, y la tolerancia o
especificacin inferior es EI=-25, y la superior ES = 25. En una de las ltimas etapas del proceso de
fabricacin de las punteras (componentes de un motor), cada hora se mide el dimetro de 5
punteras, en la tabla adjunta se aprecian los datos de 4 turnos (dos das).
-21 -5 21 3 -12 4 3 7 22 -18 -13 7 -11 -7 7 15 7 26 7
-4 0 13 6 -20 6 1 4 3 9 -10 -4 0 -5 11 2 3 -13 3
-13 9 7 0 5 11 4 17 3 2 -23 -4 15 -5 2 12 5 5 -1
2 -16 10 1 -2 -4 -16 10 -13 1 -6 11 4 2 -4 14 -6 -2 4
2 19 -1 6 6 8 2 9 -4 -22 1 -2 2 -7 -9 10 -8 -10 -2
0 -3 -13 14 -3 7 5 -1 -1 1 10 7 -8 -14 -33 -14 28 10 0
-2 -19 2 7 12 -9 10 5 14 -4 4 21 -16 -20 -3 10 22 -14 -5
-7 5 -1 1 4 -4 17 0 5 6 -19 -7 2 -19 12 -1 0
Descriptive Statistics: Punterias
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3
Punterias 150 0 0.593 0.858 10.513 -33.000 -5.000 2.000 7.000
Variable Maximum
Punterias 28.000
30 20 10 0 -10 -20 -30
35
30
25
20
15
10
5
0
Punterias
F
r
e
q
u
e
n
c
y
Histogram of Punterias
69
30
20
10
0
-10
-20
-30
-40
P
u
n
t
e
r
i
a
s
Boxplot of Punterias
30 20 10 0 -10 -20 -30
Median
Mean
3 2 1 0 -1
1st Quartile -5.0000
Median 2.0000
3rd Quartile 7.0000
Maximum 28.0000
-1.1029 2.2895
0.0000 3.0000
9.4429 11.8590
A-Squared 0.83
P-Value 0.031
Mean 0.5933
StDev 10.5131
Variance 110.5248
Skewness -0.257177
Kurtosis 0.390369
N 150
Minimum -33.0000
Anderson-Darling Normality Test
95% Confidence I nterval for Mean
95% Confidence I nterval for Median
95% Confidence I nterval for StDev
95% Confidence I ntervals
Summary for Punterias
De acuerdo con el anlisis hecho, se concluye que el proceso est centrado y que la variacin
es mucha, por lo que la capacidad real del proceso es mala. Se deben seguir las siguientes
recomendaciones para reducir la variabilidad y de esa forma mejorar la calidad de las punteras.
70
Para reducir la variabilidad se debe encontrar qu aspectos de las 6 Ms estn
contribuyendo ms al exceso de variacin. Esto se puede hacer estratificando (separando)
los datos por turno, por lote, por condicin de proceso, etc; al hacer el anlisis ver si hay
diferencias importantes de un estrato a otro. De ser as, tomar las medidas necesarias para
hacer ms homogneos estos estratos.
Otra posibilidad es analizar con detalle los patrones de comportamiento del proceso
apoyndose en la carta R x . , ver si hay patrones en funcin de turnos, operadores,
lotes, etc.
Otra alternativa es generar un proyecto Seis Sigma para encontrar las variables de
entrada que ms influyen en el dimetro de las punteras, ya s tomar las decisiones
adecuadas.
Eje. Nili, gran proveedor de fibras paras industrias textiles en diversas partes del mundo,
tiene un control estricto sobre la resistencia de sus fibras. Por lo regular, la dimensin crtica se
analiza con base en una escala logartmica. Esta transformacin logartmica produce datos que se
distribuyen en forma ms simtrica.. Veamos n = 100 valores de y = ln (x), siendo x la resistencia
de la fibra (libras/22 fibras) de lana.
Muestra de 100 valores de ln (resistencia de
hilos)
2.4016 1.1515 4.0017 2.1381 2.5364
2.5813 3.6152 2.5800 2.7243 2.4064
2.1232 2.5654 1.3436 4.3215 2.5264
3.0164 3.7043 2.2671 1.1535 2.3483
4.4382 1.4328 3.4603 3.6162 2.4822
3.3077 2.0968 2.5724 3.4217 4.4563
3.0693 2.6537 2.5000 3.1860 3.5017
1.5219 2.6745 2.3459 4.3389 4.5234
5.0904 2.5326 2.4240 4.8444 1.7837
3.0027 3.7071 3.1412 1.7902 1.5305
2.9908 2.3018 3.4002 1.6787 2.1771
3.1166 1.4570 4.0022 1.5059 3.9821
3.7782 3.3770 2.6266 3.6398 2.2762
1.8952 2.9394 2.8243 2.9382 5.7978
2.5238 1.7261 1.6438 2.2872 4.6426
3.4866 3.4743 3.5272 2.7317 3.6561
4.6315 2.5453 2.2364 3.6394 3.5886
1.8926 3.1860 3.2217 2.8418 4.1251
3.8849 2.1306 2.2163 3.2108 3.2177
2.0813 3.0722 4.0126 2.8732 2.4190
El valor mnimo es y = 1.1514, y el mximo es y = 5.7978. Esto representa un intervalo de
5.7978 1.1514 = 4.6464. Para obtener aproximadamente 10 subintervalos, es necesario que el
ancho de cada uno sea 0.46. En este caso una eleccin ms cmoda podra ser 0.50. El primer
71
subintervalo podra comenzar en b
0
= 0.95 y el ltimo podra terminar con b
k
= 5.95. La distribucin
de frecuencias para estos datos se presentan en la siguiente tabla
Distribucin de frecuencias
(b
i-1
, b
i
)
i
b f
i
p
i
F
i
P
i
(0.95, 1.45) 1.2 4 .04 4 .04
(1.45, 1.95) 1.7 11 .11 15 .15
(1.95, 2.45) 2.2 18 .18 33 .33
(2.45, 2.95) 2.7 21 .21 54 .54
(2.95, 3.45) 3.2 16 .16 70 .70
(3.45, 3.95) 3.7 15 .15 85 .85
(3.95, 4.45) 4.2 8 .08 93 .93
(4.45, 4.95) 4.7 5 .05 98 .98
(4.95, 5.45) 5.2 1 .01 99 .99
(5.45, 5.95) 5.7 1 .01 100 1.00
6 5 4 3 2 1
20
10
0
Resist.
F
r
e
q
u
e
n
c
y
72
6 5 4 3 2 1
100
50
0
Resist.
C
u
m
u
l
a
t
i
v
e

F
r
e
q
u
e
n
c
y
Los cuartiles de esta muestra se pueden obtener partiendo de la distribucin de frecuencias,
con un polgono de frecuencias acumuladas, como se ve en la figura. Si se utiliza interpolacin
lineal dentro de los subintervalos, obtendremos Q
1
= 2.3, Q
3
= 3.6 y Me = 2.9. Estos estimados slo
son ligeramente diferentes a los valores exactos, Q
1
= x
(25 .25)
= 2.2789, Q
3
= x
(75 .75)
= 3.5732, Y Me
= x
(50 .5)
= 2.8331.
Diagrama de tallo y hoja.
73
Tallo y hoja de ln y, N = 100, unidad de hojas = 0.50
5 1 11344
15 1 5556677788
34 2 0011112222233344444
(21) 2 555555555566677888999
45 3 000011112223344444
27 3 5556666667778
14 4 000133344
6 4 5668
2 5 0
1 5 7
En este caso, se ordenan los datos en intervalo de clase de igual longitud, como en un
histograma. Los 100 valores de la tabla comienza con x
(1)
= 1.151 y termina con x
(100)
= 5.798. En
este diagrama se pueden usar slo los dos primeros dgitos de la izquierda, sin redondear. Todos los
valores entre 1.0 y 1.499 se representan en la primera clase en la forma 1.1, 1.1, 1.3, 1.4 y 1.4. Hay
cinco valores, y esta frecuencia se escribe en la extrema izquierda. La segunda clase consiste en
todos los valores entre 1.5 y 1.999. Hay 10 valores: 1.5, 1.5, 1.5, 1.6, 1.6, 1.7, 1.7, 1.7, 1.8 y 1.8.
Las dems clases se representan en igual forma. La frecuencia de la clase a la que pertenece la
mediana, Me, se encierra entre parntesis, para que resalte. Las frecuencias abajo o arriba de la
mediana son acumuladas. Como la frecuencia acumulada (desde arriba) de la clase inmediata
siguiente a la de la mediana es 45, se deduce que la mediana est ubicada inmediatamente despus
del quinto valor comenzando de arriba, de esa clase, que es Me = 2.8, como vimos antes. De igual
manera, para determinar Q
1
, obsrvese que x
(q1)
est en la tercera clase desde arriba. Es el dcimo
valor, desde la izquierda, en esa clase. As, se ve que Q
1
= 2.2. En forma parecida se determina que
x
(q3)
= 3.5.
Los resultados descriptivos utilizando un paquete estadstico son:
Descriptive Statistics: Resist.
Variable N Mean Median TrMean StDev SE Mean
Resist. 100 2.9238 2.8331 2.8982 0.9378 0.0938
Variable Minimum Maximum Q1 Q3
Resist. 1.1515 5.7978 2.2790 3.5733
8747 . 2 4040 . 0
93776 . 0 8790 . 0
9238 . 2
2

Kurotosis Sesgo
s s
x
El promedio de la muestra es 9238 . 2 x para valores en una escala logartmica. Con objeto
de regresar a la escala original, libras/22 fibras, se utilizar la medida
{ }
6177 . 18
exp
/ 1
1

,
_
n
n
i
i
y
x G
74
donde y
i
exp(x
i
), i 0 1, ..., n. A la medida estadstica G se le llama media geomtrica de Y. La
media geomtrica, G, slo se define para variables positivas. Se puede demostrar el resultado
general siguiente:
x G
La igualdad es vlida slo si todos los valores en la muestra son iguales.
El coeficiente de variacin, para los datos de logaritmo de resistencia de las fibras, es =
0.938/2.924 = 0.32.
El diagrama de cajas es:
X
(1)
= 1.151
Q
1
= 2.279
Me = 2.833
Q
3
= 3.573
X
(100)
= 5.798
Q
3
Q
1
= 1.294 representa la longitud de la caja
En la grfica de caja y bigotes, el extremo del bigote inferior est en mx[1.151, 0.338] =
x
(1)
. El bigote superior termina en mn[5.798, 5.4514]. Por consiguiente, x
(100)
es un dato atpico.
Llegamos a la conclusin de que esta nica medicin de la resistencia de la fibra, que parece ser
extremadamente grande, es un valor atpico; podra haber sido un error de medicin.
6
5
4
3
2
1
R
e
s
i
s
t
.
Grfica de caja y bigotes
Grfica de cuantiles.
75
Una grfica de cuantiles presenta los cuantiles de la muestra, x
p
, en funcin de p, 0 < p < 1, y
x
p
= x
(ip)
, siendo i
p
= mx{1, [p(n+1)]}. En la figura se muestra la grfica de cuantiles para el
logaritmo de la resistencia del hilo. De esta grfica se pueden obtener estimaciones grficas de los
cuantiles de la distribucin. Por ejemplo, en la figura se obtiene de inmediato el estimado 2.8 de la
mediana, 2.23 para el primer cuartil y 3.58 para el tercer cuartil. Son parecidos a los valores que
calculamos antes. En esa figura tambin se ve que el punto mximo de este conjunto de datos es
atpico. Las partes de la grfica que son lineales indican que la distribucin de los datos es uniforme
en los intervalos correspondientes. As, casi el 50% de los puntos de (x
.4
a x
.9
) est distribuido de
manera uniforme. Los datos entre x
.1
y x
.4
tienden a ser ms grandes, ms cercanos a Me, que los de
una distribucin uniforme, y el 10% mximo de los valores (> x
.9
) tambin tiende a ser mayor,
apartndose de Me, que los puntos de una distribucin uniforme. Esto explica el ligero sesgo
positivo de los datos, que se ve en la grfica de caja.
6 5 4 3 2 1 0
99
95
90
80
70
60
50
40
30
20
10
5
1
Data
P
e
r
c
e
n
t
0.531 AD*
Goodness of Fit
Normal Probability Plot for Resist.
ML Estimates - 95% CI
Mean
StDev
2.92384
0.933057
ML Estimates
Eje. Consideremos los resultados de las pruebas respecto a la resistencia transversal (MN/m
2
)
de ladrillos provenientes de una misma fbrica.
5.93 9.10 5.66 7.17 6.89 6.96 8.20 8.14 7.45 7.58 7.79
6.34 7.58 8.62 10.20 7.93 5.10 7.45 5.93 6.89 5.58 6.89
8.27 5.66 7.58 6.14 1.86 7.38 5.72 9.51 6.62 9.38 5.03
5.86 6.34 6.48 9.03 9.17 7.03 9.58 5.72 5.66 6.76 9.17
6.34 7.38 11.24 4.62 7.93 8.07 6.34 7.72 8.07 8.00 7.52
7.52 4.83 6.27 8.07 5.52 6.62 7.03 7.52 13.86 6.14 6.41
5.72 6.07 6.00 9.24 5.79 8.14 5.10 6.07 5.45 7.58 8.69
7.17 7.45 7.17 6.76 8.55 5.52 5.93 6.96 7.79 6.69 7.86
76
10.41 7.31 5.79 6.48 7.65 8.55 8.89 6.00 8.69 7.24 6.21
5.10 8.48 7.03 7.31 6.83 7.03 5.66 7.03 5.93 5.86 6.14
7.93 5.93 7.58 5.79 7.31 7.10 6.83 7.58 7.45 7.45 6.69
6.89 4.96 5.52 8.07 6.69 4.76 7.10 6.14 4.83 6.07 7.93
7.86 7.45 6.83 3.93 5.45 7.38 5.66 4.00 5.66 7.31 6.76
7.10 6.62 6.00 5.52 7.17 5.66 8.14 9.31 8.14 6.55 7.58
4.83 5.93 4.55 8.14 5.38 8.48 6.55 6.21 5.24 9.51 6.21
6.34 7.58 7.45 6.76 5.24 5.72 8.41 7.58 7.52 9.51 8.75
5.93 6.83 6.14 6.48 6.27 7.65 7.03 9.51 6.96 7.10 6.55
6.55 6.07 6.69 6.89 6.83 5.72 5.86 4.34 4.90 6.21 6.14
7.03 5.17 7.38 6.34 6.00 6.96 8.48 5.38 6.89 7.93 9.38
8.96 6.69 5.52 4.48 8.14 5.93 7.93 9.65 6.07 5.03 5.72
6.14 7.10 7.31 11.10 8.20 9.65 5.86 6.96 6.96 8.55
7.38 6.69 6.62 8.14 7.24 6.27 7.65 5.38 5.38 8.20
6.27 7.58 6.00 6.76 5.03 5.52 5.52 7.86 6.48 6.76
6.00 6.69 6.27 5.72 7.10 7.24 4.90 6.14 6.96 7.72
5.58 7.38 7.58 3.17 5.93 7.38 6.07 8.55 6.48 5.93
Datos ordenados:
1.86 5.38 5.72 6.00 6.34 6.69 7.03 7.38 7.58 8.14 9.03
3.17 5.38 5.72 6.07 6.34 6.76 7.03 7.38 7.58 8.14 9.10
3.93 5.38 5.72 6.07 6.34 6.76 7.03 7.38 7.58 8.14 9.17
4.00 5.45 5.79 6.07 6.34 6.76 7.03 7.38 7.58 8.14 9.17
4.34 5.45 5.79 6.07 6.34 6.76 7.03 7.38 7.65 8.14 9.24
4.48 5.52 5.79 6.07 6.41 6.76 7.03 7.38 7.65 8.14 9.38
4.55 5.52 5.86 6.07 6.48 6.76 7.03 7.38 7.65 8.20 9.38
4.62 5.52 5.86 6.14 6.48 6.83 7.10 7.45 7.72 8.20 9.51
4.76 5.52 5.86 6.14 6.48 6.83 7.10 7.45 7.72 8.20 9.51
4.83 5.52 5.86 6.14 6.48 6.83 7.10 7.45 7.79 8.27 9.51
4.83 5.52 5.93 6.14 6.48 6.83 7.10 7.45 7.79 8.41 9.51
4.83 5.52 5.93 6.14 6.55 6.83 7.10 7.45 7.86 8.48 9.58
4.90 5.58 5.93 6.14 6.55 6.89 7.10 7.45 7.86 8.48 9.65
4.90 5.58 5.93 6.14 6.55 6.89 7.17 7.45 7.86 8.48 9.65
4.96 5.66 5.93 6.14 6.55 6.89 7.17 7.52 7.93 8.55 10.20
5.03 5.66 5.93 6.21 6.62 6.89 7.17 7.52 7.93 8.55 10.41
5.03 5.66 5.93 6.21 6.62 6.89 7.17 7.52 7.93 8.55 11.10
5.03 5.66 5.93 6.21 6.62 6.89 7.24 7.52 7.93 8.55 11.24
5.10 5.66 5.93 6.21 6.62 6.96 7.24 7.58 7.93 8.62 13.86
5.10 5.66 5.93 6.27 6.69 6.96 7.24 7.58 7.93 8.69
5.10 5.66 6.00 6.27 6.69 6.96 7.31 7.58 8.00 8.69
5.17 5.72 6.00 6.27 6.69 6.96 7.31 7.58 8.07 8.75
5.24 5.72 6.00 6.27 6.69 6.96 7.31 7.58 8.07 8.89
5.24 5.72 6.00 6.27 6.69 6.96 7.31 7.58 8.07 8.96
5.38 5.72 6.00 6.34 6.69 6.96 7.31 7.58 8.07
77
Se puede elegir una amplitud de clase de 1.00 MN/m
2
, con el punto medio del menor
intervalo en 2.00 MN/m
2
. Dicha eleccin es bastante arbitraria, pero suele ser conveniente tener de
10 a 25 intervalos. Si se utilizan demasiados intervalos de clase, las frecuencias de clase son bajas y
el ahorro en clculos es pequeo. Por el contrario, con muy pocos intervalos de clase se puede
ocultar el verdadero carcter de la distribucin y perder la informacin.
Generalmente es preferible elegir intervalos de tal manera que ningn resultado caiga en el
lmite (o frontera) de clase. Como en este caso, los resultados estn dados al 0.01 MN/m
2
ms
cercano, se puede decir que los intervalos son: 1.5-2.49, 2.50-3.49, etc. Para fines de simplificacin,
suelen formarse, intervalos de clase como 1.50-2.50, 2.50-3.50 y 3.50-4.50, y se da por sentado que
el lmite superior es excluyente. Lo importante es que no exista ninguna brecha o separacin ni
ninguna superposicin o traslape entre las clases.
Tabla de frecuencias agrupadas.
Clase Intervalo de
clase
Marca
de clase
Frecuencia de
clase
Frecuen
cia
acumul
ada
Frec.
acum.
Relativ
a
x
i
f
i
F F/n f
i
x
i
1 1.5 2.5 2 1 1 0.0037
0
2.00
2 2.5 3.5 3 1 2 0.0074
1
3.00
3 3.5 4.5 4 4 6 0.022 16.00
4 4.5 5.5 5 24 30 0.111 126.00
5 5.5 6.5 6 81 111 0.411 486.00
6 6.5 7.5 7 78 189 0.700 546.00
7 7.5 8.5 8 51 240 0.889 408.00
8 8.5 9.5 9 18 258 0.956 162.00
9 9.5 10.5 10 9 267 0.989 90.00
10 10.5 11.5 11 2 269 0.996 22.00
11 11.5 12.5 12 0 269 0.996 0
12 12.5 13.5 13 0 269 0.996 0
13 13.5 14.5 14 1 270 1.000 14.00
Totales

n f
i
270

00 . 1869
i i
x f
Histograma.
78
Histograma
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13
Resistencia Mn/m
F
r
e
c
u
e
n
c
i
a

f
i
Histograma
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9 10 11 12 13
Resistencia
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
Histograma
-0.1
0
0.1
0.2
0.3
0.4
0 5 10 15
Resistencia
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
79
Curva de Frec. acumulada
0
0.2
0.4
0.6
0.8
1
1.2
1 2 3 4 5 6 7 8 9 10 11 12 13
Resistencia
f
r
e
c
.

a
c
u
m
u
l
a
d
a
La media:
9222 . 6
270
1869

i
i i
f
x f
x
Cuando se trabaja con un nmero considerable de observaciones, o una muestra grande, es
posible simplificar el clculo de la media con slo una pequea prdida de exactitud, mediante el
uso del mtodo de intervalo de clase. En lugar de considerar cada una de las observaciones, se
trabaja con la totalidad de ellas dentro de un intervalo de clase como si fuera un grupo y se supone
que, en cualquier clase, estn distribuidas de manera uniforme por todo el intervalo, de modo que se
puede decir que la frecuencia de clase se concentra en el punto medio de clase
i
x
. El
procedimiento es como sigue:
1. Se toma el primer punto medio de clase x
o
como origen arbitrario a fin de calcular la
media ficticia.
2. Se calculan las desviaciones
i
X
con respecto a este origen, expresadas en trminos de
la amplitud de clase x, esto es,
. / ) ( w x x X
o i i

3. Se obtiene el producto de la frecuencia f
i
y
i
X
.
4. Se determina la media ficticia
i
i i
i
f
X f
X
5. Finalmente se convierte
i
X
a la media verdadera x : x origen arbitrario + (media
ficticia) x (amplitud de clase).
w X x w
f
X f
x x
i o
i
i i
o
+ +
80
Marca
de
clase
Frecuenc
ia de
clase
Desviacin a
partir del
origen, en
trminos de la
amplitud de
clase
x
i
f
i
X
i
f
i
X
i
F
i
X
i
2
2 1 0 0 0
3 1 1 1 1
4 4 2 8 16
5 24 3 72 216
6 81 4 324 1296
7 78 5 390 1950
8 51 6 306 1836
9 18 7 126 882
10 9 8 72 576
11 2 9 18 162
12 0 10 0 0
13 0 11 0 0
14 1 12 12 144
Totales 270 1329 7079
2
/ 92 . 6 ) 00 . 1 )( 92 . 4 ( 00 . 2
270
1329
00 . 2
m MN w X x w
f
X f
x x
i o
i
i i
o
+ + + +
La media exacta es 6.89 MN/m

2
. En muchos casos, la diferencia entre ambos valores no
tiene importancia.
El valor obtenido equivale a la media de los valores comprendidos en la muestra de ladrillos
de nuestro ejemplo, una media distinta. De este modo, en lo que respecta a la poblacin de todos los
ladrillos producidos por la misma fbrica, la media, como factor determinado a partir de las
muestras, constituye una cantidad variable, pero muchos menos cambiante que la resistencia de cada
uno de los ladrillos.
Observacin x
i
|x
i
- x | (x
i
- x )
2
1 1.86 5.03 25.3009
2 3.17 3.72 13.8384
3 3.93 2.96 8.7616
. . . .
269 11.24 4.35 18.9225
270 13.86 6.97 48.5809
n =270 Totales 518.9963
81
( )

2
2
1
i i
x x n
n
Observacin x
i
x
i
2
1 1.86 3.4596
2 3.17 10.0489
3 3.93 15.4449
. . .
269 11.24 126.3376
270 13.86 192.0996
Totales 1861.30 13351.7562
( )
2 2
2
2
/ 39 . 1 ) 30 . 1861 ( ) 7562 . 13351 ( 270
270
1 1
m NM x x n
n
i i

Si se considera los resultados de las pruebas de resistencia de 270 ladrillos como una muestra
de la poblacin formada por todos los ladrillos producidos en una fbrica durante el perodo de
muestreo, entonces se puede decir que la desviacin estndar de la media muestral es,
2
/ 0846 . 0
270
39 . 1
m MN
n
s
s
x

Eje. Los siguientes datos sealan el tiempo de funcionamiento (en das) hasta que se presenta
la primera falla de 88 n transmisores-receptores
16 224 16 80 96 536 400 80
56 72 64 40 184 264 96 224
60 208 340 104 72 168 40 152
108 194 136 224 80 16 424 264
156 216 168 184 552 72 184 240
168 168 114 280 152 208 160 176
304 16 72 8 80 72 56 608
358 384 256 246 328 464 448 716
360 232 40 112 112 288 168 352
392 576 128 56 656 224 40 32
438 120 308 32 272 152 328 480
Ordenando en orden ascendente
8 56 80 128 168 224 304 424
16 56 80 136 176 224 308 438
16 56 80 152 184 232 328 448
16 60 96 152 184 240 328 464
82
16 64 96 152 184 246 340 480
32 72 104 156 194 256 352 536
32 72 108 160 208 264 358 552
40 72 112 168 208 264 360 576
40 72 112 168 216 272 384 608
40 72 114 168 224 280 392 656
40 80 120 168 224 288 400 716
a) Con la amplitud obtenida aproxime s para los 88 n tiempos de funcionamiento.
Haciendo la sumatoria de todos los elementos
Donde s es la desviacin estndar y se calcula de la siguiente manera
( )
n
i
i
x x
n
s
1
2
1
1
S= 162.311
b) Construya un histograma de frecuencias para los datos. (observe la tendencia de la
distribucin a extenderse (sesgarse) hacia la derecha).
Ya una vez estando la lista en orden ascendente se determina el rango:
708 8 716
min max

R
R
Ya con esto se determina el intervalo de clase
89 5 . 88
8
708
R
Luego se procede a elaborar la tabla de frecuencias
Clase Fuentes de
clase
Marca de
clase
Frecuencia
de clase
Frecuencia
relativa
Frecuencia
relativa
acumulada
1 7 96 51.5 27 27/88 =
0.307
0.307
2 97-186 141.5 22 22/88 =
0.250
0.557
3 187-276 231.5 15 15/88 =
0.170
0.727
4 277-366 321.5 10 10/88 =
0.114
0.841
5 367-456 411.5 6 6/88 = 0.909
83
0.068
6 457-546 501.5 3 3/88 =
0.034
0.943
7 547-636 591.5 3 3/88 =
0.034
0.977
8 637-726 681.5 2 2/88 =
0.023
1.000
Histograma de frecuencia
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
1 2 3 4 5 6 7 8
Clases
f
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
Serie1
84
Frecuencia relativa acumulada
0
0.2
0.4
0.6
0.8
1
1.2
1 2 3 4 5 6 7 8
clase
r
e
l
a
t
i
v
a

a
c
u
m
u
l
a
d
a
Serie1
c) Utilice una calculadora (o computadora) para calcular x y
s
. (el calculo a mano es
demasiado laborioso para este ejercicio)
Ti intervalo (164.92, 256.05)
X= 210.489
S= 162.311
n= 88
d) Calcule los intervalos
3 , 2 , 1 , t k ks
y determine el nmero de medidas que contiene
cada uno. Compare los resultados mediante la regla emprica. Observe que la regla emprica
proporciona una descripcin mucho mejor de estos datos a pesar de que la distribucin se
encuentra demasiado sesgada.
4 . 276 ) 3 . 162 )( 3 ( 5 . 210 3
4 . 691 ) 3 . 162 )( 3 ( 5 . 210 3
1 . 110 ) 3 . 162 )( 2 ( 5 . 210 2
1 . 441 ) 3 . 162 )( 2 ( 5 . 210 2
2 . 48 ) 3 . 162 )( 1 ( 5 . 210
8 . 372 ) 3 . 162 (1)( 5 . 210

+ +

+ +

+ +
s
s
s
s
s
s
Eje. Un conjunto de 340 resultados de exmenes que exhibe una distribucin de frecuencias
relativas acampanada posee una media de
72
y una desviacin estndar de 8 s . Cuntos
resultados aproximadamente espera que se encuentren incluidos en el intervalo de 56 al 88?
85
) 8 ( 2 72 2 t t
Contiene alrededor del 95 %de los datos que en este caso son:
( ) 323 95
100
340
340 de % 95 datos
Eje. Una mquina produce baleros con un dimetro promedio de 3.00 pulgadas y una
desviacin estndar de 0.01 pulgadas. Los baleros con dimetros superiores a 3.02 y menores de
2.98 pulgadas no cumplirn con las especificaciones del control de calidad. Ms o menos que parte
de la produccin de la mquina violara las especificaciones? Qu suposiciones hizo en relacin con
la distribucin de los dimetros de los baleros para contestar esta pregunta?
98 . 2 02 . 0 3 2
02 . 3 02 . 0 3 2
01 . 0
3

+ +

s
x
Contiene alrededor del 95.9 % y aproximadamente un 4.1 % violar las especificaciones de
calidad
Eje. El ao pasado, un proceso de produccin de fertilizantes arrojo una produccin diaria de
60 toneladas con una varianza en la produccin diaria de 100 toneladas. Si el da de maana la
produccin se redujera a menos de 40 toneladas sospechara que existen anomalas en el proceso?
(calcule la probabilidad de obtener menos de 40 toneladas) Qu supuso respecto a la distribucin
de las producciones?
86
ton 40 s
ton 100 s
ton 60
2
x
40 ) 5 )( 4 ( 60 4
La probabilidad de que sea 40 toneladas es menor que 0.030 %
Eje. Un gerente de personal de determinada industria posee registros de la cantidad de
empleados que faltan diariamente. El promedio de faltas es de 5.5 y la desviacin estndar de 2.5
como hay varios das que son cero, una o dos faltas y solo unos cuantos con mas de diez, la
distribucin de frecuencias se encuentra muy sesgada. El gerente desea publicar un intervalo que
contenga por lo menos 75 % de estos valores.
5 . 2
5 . 5
s
x
87

Est Ad Is 02

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Est Ad Is 02

Cargado por

Copyright:

Formatos disponibles

2. Estadstica descriptiva.

Como hemos visto, esta probabilidad P(x

< < < <

Cuando, y es el caso ms frecuente, hemos establecido una clasificacin previa tendremos

siendo A una constante que se puede elegir arbitrariamente:

Vemos que dichas diferencias se anulan al sumarlas, lo cual es un inconveniente, que se

es la varianza de una poblacin de N observaciones x

La varianza de una muestra de n observaciones x

+ 2 ). Cuando menos 8/9 de las observaciones caen dentro de 3 desviaciones

t2 ) contiene aproximadamente al 95.4% de las observaciones

) contiene casi todas las observaciones (99.7%).

Si p = 0, la distribucin es simtrica, la mediana (Me) y la media coinciden; Si p > 0 la

La media exacta es 6.89 MN/m

También podría gustarte