Está en la página 1de 35

Ingeniería en Mantenimiento Industrial

Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

INTRODUCCIÓN

La estadística es una ciencia que nos permite pensar en forma clara y disciplinada, y ofrece diversas
técnicas, cuya correcta aplicación, reduce la complejidad presente en los datos, para que estos puedan
ser interpretados.

El presente apunte está orientado a técnicas de análisis estadístico. En su primer módulo está
destinado a reconocer las raíces mismas del dato, características de éste, cómo y cuántos datos obtener
para poder obtener conclusiones científicamente válidas. En el segundo y tercer módulo, se enfatiza el
análisis exploratorio de datos y estadística descriptiva, como un primer paso en todo resumen de
datos.

En el cuarto y quinto módulo, con la experiencia y visión obtenida en los módulos anteriores, se
comienza a estructurar la idea de leyes probabilísticas, para la presentación de modelos que
habitualmente se utilizan en ingeniería y que suelen ser usados en la teoría de decisiones.

Se podría, desde un punto de vista más amplio, definir la estadística como la ciencia que estudia cómo
debe emplearse la información y cómo dar una guía de acción en situaciones prácticas que entrañan
incertidumbre.

PRIMER MÓDULO

• Proceso de Medición

En todo ámbito de la vida, constantemente los medios de comunicación invaden las percepciones de
la gente con todo tipo de indicadores, tales como: cantidad de libros que en promedio leen alumnos
de enseñanza media, variaciones de precios (IPC), índices de delincuencia o seguridad ciudadana,
niveles de aceptación respecto a la gestión realizado por funcionarios públicos, etc.

En la empresa, estos indicadores han surgido como un eficaz medio para evaluar y controlar su
desempeño, en fenómenos que a juicio de los ejecutivos son de interés para la viabilidad de ésta, es
así como, en empresas productivas el porcentaje de bienes defectuosos son un indicador importante,
mientras que, en empresas de servicio, el número promedio de reclamos, son un indicador del buen o
mal servicio que se está prestando.

Todos estos indicadores que irrumpen en la vida moderna de las personas son producto de mediciones
realizadas con algún instrumento. Sin embargo, el concepto mismo – medición – ha sido apartado de
los indicadores, dando por hecho que éstos son un reflejo puro de la realidad, en el instante donde se
produce la medición, lo cual puede considerarse como un ideal, pero no necesariamente real.

La medición es la asignación de símbolos (números) a sucesos, hechos u objetos del mundo empírico,
sobre la base de reglas y procedimientos de un mundo abstracto como es la matemática, que se basa
en una serie de restricciones propias de su disciplina. Es por esta razón, que en general, toda
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

investigación debe tener claro la selección y diseño de la técnica de medición, para estar seguro de
que estas mediciones son eficientes para cumplir con el objetivo de aclarar el suceso, hecho u objeto
en investigación, con limitaciones propias de la relación propuesta entre el mundo empírico y el mundo
abstracto.

Lo más común, cuando se habla de mediciones, es pensar en números, por ejemplo, en el sistema
numérico de base diez, que se compone por los símbolos: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9; se construyen todos
los números que manejamos comúnmente, pero también es cierto, que estos podrían ser representados-
las mismas mediciones- en el sistema binario, como es en informática.

A modo de ejemplo, cuando se desea conocer la opinión que tienen los clientes de una empresa, se
procede a la creación de un cuestionario – el instrumento de medición – que el cliente debe contestar.
A partir del conjunto de cuestionarios ya completados, se obtienen los indicadores, pero ¿están
representando estos indicadores lo que realmente piensan los clientes de la empresa? En la creación
del cuestionario surgen los primeros problemas, ya que se debe tener especial cuidado en la formulación
de las preguntas, a modo de ejemplo:

1. Deben ser simples, directas y familiares para todos los entrevistados, evitando modismos
propios de algunos sectores.
2. Deben ser claras y lo más específica posible, evitando ambigüedades o palabras que pueden
tener muchas interpretaciones.
3. Deben satisfacer los objetivos con preguntas unidimensionales, con el fin de evitar respuestas
donde no se sabe a qué sector se refiere.
4. No ser muy extenso, con el fin de no abusar del tiempo del entrevistado que a mitad del
cuestionario se aburra y decida contestar al azar o simplemente dejar de contestar.
5. Evitar estilos de pregunta persuasivas, ya sea por implicación o intencionalidad. etc.

Posteriormente al llegar a la aplicación del cuestionario se debe responder:

1. ¿Cuántos clientes serán necesarios encuestar?


2. ¿Cómo acceder a los clientes para realizar la encuesta?
3. ¿Qué pasa cuando un cliente seleccionado se niega a responder?
4. ¿Serán válidas las respuestas de los clientes?
5. ¿Estarán siendo estas respuestas fiel reflejo de lo que se piensa?, etc.

• Características de las mediciones

En el sistema numérico de base tradicional, compuesto por: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9; se deben distinguir


las características esenciales de estos símbolos que se extrapolan al fenómeno de medición.

En primer lugar, debemos notar que cada uno de estos símbolos es único, aquella medición a la cual
se le asigne el símbolo ‘0’ deberá cumplir con distintas características que aquella a la cual se le asigne
el símbolo ‘1’. A modo de ejemplo, se desea medir la característica comuna de ubicación de un cliente,
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

aquellos que pertenezcan a la comuna de Villa Alemana, cumplirán todos con ser clientes cuya
ubicación es Villa Alemana (símbolo ‘0’), y serán distintos a aquellos clientes cuya comuna de
ubicación sea Quilpué (símbolo ‘1’).

En segundo lugar, podremos percibir que aquella medición que asigna un ‘2’ es menos, en cuanto a la
cantidad de la característica medida que aquella que se asigna ‘4’, se visualiza que existe un orden
establecido propio de la característica que se está midiendo. A modo de ejemplo, si se desea medir los
hábitos de pago de los clientes, claramente un cliente cuya clasificación sea de deficiente, es menos en
cuanto a su capacidad de pago dado los antecedentes de éste, que aquél que sea clasificado como
bueno.

Hasta este momento, se puede apreciar que las mediciones realizadas tienen un carácter cualitativo y
su riqueza informativa es limitada. En general cuando se desea aumentar el nivel informativo de los
datos, éste debe ser cuantitativo, pues datos de este tipo, agregan nuevas propiedades.

Cuando los datos son de carácter cuantitativo, se agrega una tercera característica, pues además de
existir las propiedades de unicidad y orden antes establecidas, se añade la noción de distancia, pues
existen entre los datos obtenidos diferencias equitativas, es decir la distancia entre el símbolo 6 – 4 es
igual a la distancia entre los símbolos 9 – 7. Con la noción de distancia ya disponible, nos permite la
creación de medidas de incertidumbre, riesgo o variabilidad en la medición, que representan los
indicadores más deseados a manejar y controlar, que además son la principal fuente para establecer
la noción de precisión de la medición.

La utilización de los números en estadística comprende la utilización de una o más de estas


características, el problema consiste en distinguir, en las mediciones de las variables investigadas,
cuáles son las características que se cumplen. Las escalas numéricas utilizadas en estadística se han
establecido en términos de estas cuatro características del sistema numérico, a saber: Nominal, ordinal,
intervalar y razón.

• Tipos de Escala

Escala Nominal. Es aquella en que los números sirven solamente como etiqueta para catalogar o
identificar los objetos o sucesos.

Ejemplos: Regiones, Comunas, Marcas, Tipos de almacenes, sexo, etc.

La escala nominal es la más pobre en cuando a información, pues sólo se encarga dela identificar y/o
clasificar, con el fin de obtener información rápida y completamente dirigida. La regla general, es
asignar igual número a objetos o sucesosque pertenezcan al mismo dominio, es decir, las categorías en
que se clasifiquen loselementos deben se mutuamente excluyentes y, en su conjunto, exhaustivas para
los elementos considerados.

En clasificaciones nominales no se puede establecer prioridad alguna de las categorías asignadas. Una
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

proporción importante de los fenómenos de mercadeo requiere una medición en escala nominal, en
situaciones tales como medir: marcas, tipos de almacenes, tipos de clientes, etc. Es muy raro que en
estudios de investigación demercados no se incluya información de esta naturaleza.

Escala Ordinal. Además de lo anterior, se define una relación ordenada entre los sucesos y/o objetos
que comprenden la característica de orden. En este tipo de escala, se mide si hay más o menos de la
característica, en relación con los otros objetos, sin embargo, no suministra información si la cantidad,
mayor ó menor, de la característica que poseen varios objetos o sucesos.

Ejemplo: Aptitudes, preferencias, etc. Grupo Social; 1 Bajo, 2 Medio, 3 Alto. No se puede decir que
2 es el doble de 1,sólo que 2 tiene más que 1.

Escala Intervalar. Comprende la utilización de los números para clasificar objetoso sucesos de
manera que la distancia entre los números corresponde a la distancia entre los objetos o sucesos en
relación con la característica que se está midiendo.

Ejemplo: Escala de temperatura (ºC, ºF). IPC, IPM, PIB, etc.

Las mediciones que disfruten de esta característica poseen todas las cualidades dela escala ordinal,
además de la característica de igual diferencia propia del sistemanumérico. La libertad en la asignación
de los números se reduce a la selección arbitraria de la unidad de medición y un origen.

Escala de Razón. Tiene todas las propiedades de la escala de intervalos, además del cero absoluto.
En esta escala sólo se puede asignar arbitrariamente la unidad de medición o distancia, pues
una vez determinado este número, se establecen completamente las asignaciones numéricas
restantes.

Ejemplo: Ventas pesos, dólares, etc.

En una escala de razón indica que las proporciones iguales entre los valores de la escala corresponden
a las proporciones iguales, entre los fenómenos que se están midiendo. Afirmar que las ventas en el
sector A, son el doble de las ventas del sector B es perfectamente legítimo, si se utilizan datos cuya
escala de medición sea de razón.

Todas las mediciones realizadas, se encuentran en el marco de una de estas escalas,pero en muchas
ocasiones, el trabajo y análisis del dato obtenido es complejo, conlo cual se recomienda alguna
transformación adecuada, que dependerá del tipo de escala.

• Tipos de Datos

Además de la clasificación de las mediciones según escala, que es una característicapropia del dato,
éste también puede ser clasificado como un dato cualitativo ó cuantitativo. Los datos cualitativos,
se asocian siempre a datos cuya mediciónsea en escala nominal u ordinal, mientras que los datos
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

cuantitativos, se relacionansiempre a datos cuya medición sea en escala intervalar o de razón, ya sean
discretoso continuos.

• Error de Medición

Por lo visto la medición es tan sólo la relación entre el mundo empírico y un mundoabstracto, que
como hemos podido apreciar, es en realidad un proceso de medición, que comienza con la idea de
representar un suceso, hecho u objeto a través de algúnsímbolo y termina con la representación del
hecho. Cuando esta relación entre el sistema empírico corresponda directamente a las verdaderas
reglas del sistema numérico creado, se hablará de una medición efectiva, sin embargo, escomún
que,en todo proceso de medición, el valor de la medición obtenida probablemente discrepará del
“valor verdadero” debido a diversas causas.

El llamado “valor verdadero” es en realidad un concepto puramente teórico y absolutamente


inaccesible en la mayoría de los casos. En el proceso de medición únicamente pretendemos estimar
de forma aproximada el valor del suceso, hecho u objeto medido. Para ello debemos dar un número
con sus unidades y una estimación delerror. Dicho de otra manera, el resultado de cualquier medida
es siempre inciertoy a lo más que podemos aspirar es estimarlo razonablemente bien.

Es común que estos errores se agrupen en subconjuntos, los más comunes son los ‘errores
sistemáticos’, los cuales serían debidos a causas que podrían ser controladas o eliminadas. Por
ejemplo, medidas realizadas con un aparato averiado, o mal calibrado. La fuente del error podría
eliminarse usando un aparato que funcione correctamente o calibrándolo adecuadamente antes de
medir. Sin embargo, también sepueden encontrar ‘errores aleatorios’, que son fruto del azar o de
causas que no podemos controlar. Como consecuencia de ello, si repetimos una experiencia cierto
número de veces en condiciones reproducibles, es altamente posible que no se obtengasiempre el mismo
valor, sino que un conjunto de valores que serían deseablesmodelar.Esta modelación de valores puede
ser analizada por métodos estadísticos y permite determinar rangos de valores más probables y una
medida de la incertidumbre.

Toda medición se puede ser representada por la observación misma del fenómeno (Oi), factor
compuesto por tres elementos: el primero, el valor real de la medición (Ri); el segundo, el error
sistemático asociado a la medición (Si); y finalmente, el error aleatorio asociado a la medición (Ai).
Formalmente, y en una primera aproximación,se puede representar una relación de la forma:

𝑂! = 𝑅! + 𝑆! + 𝐴!
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Estadística y Ciencia

Se dice que los científicos usan el método científico, sin embargo, sería difícil definir la expresión
método científico, dado que los científicos usan cuantos métodos o medios puedan concebir, sin
desprenderse del objetivo fundamental del método científico que es producir conocimiento científico.

De la gran variedad de procedimientos científicos, vinculados a distintas técnicasde metodología de


investigación se pueden destacar puntos esenciales en común, queson:

1. Revisión de los hechos y teorías propuestas.


2. Formulación de hipótesis sujetas a pruebas.
3. Evaluación objetiva de las hipótesis y conclusiones.

Las respuestas a interrogantes relacionadas con el problema a investigar, por lo general, se hacen
mediante una descripción de; las relaciones, los hechos, los procesos relacionados del problema.

La estadística proporciona una forma de pensar clara y disciplinada, especialmentecuando se trata


de recolectar e interpretar información (técnicas estadísticas), la estadística como ciencia, es la
actividad organizada en virtud de la cual se procura,a través del estudio objetivo, descubrir, dominar
y comprender los fenómenos que ocurren en la naturaleza y la sociedad, siendo un pilar fundamental
en el proceso deinvestigación científica.

La Estadística, se ocupa de los métodos y procedimientos para recoger, clasificar,resumir, hallar


regularidades y analizar los datos, siempre y cuando la variabilidade incertidumbre sea una causa
intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar
a la toma de decisionesy en su caso formular predicciones.

Podríamos por tanto clasificar la estadística en descriptiva, cuando las conclusionesde los resultados del
análisis no pretenden ir más allá del conjunto de datos, éstadescribe, analiza y representa un grupo
de datos utilizando métodos de organizaciónde éstos, gráficos y medidas de desempeño que resumen
y presentan la información contenida en ellos.

Sin embargo, al catalogar la estadística como inferencial, es cuando el objetivo del estudio es derivar
las conclusiones obtenidas de un conjunto de datos resumidosa uno más amplio, es decir, la inferencia
estadística: La cual se apoya en el cálculode probabilidades y a partir de datos muéstrales, efectúa
estimaciones, decisiones,predicciones u otras generalizaciones sobre un conjunto mayor.

Introducción al Muestreo

El mundo empírico está compuesto por un sin fin de conjuntos de elementos; tales como: personas,
animales, objetos, etc. Estos conjuntos de elementos son llamados ‘población’ o ‘población objeto’,
que, en una investigación, debe quedar claramente acotada, geográficamente o en el tiempo. Un
mecanismo, quizás el más apropiado para poder obtener información, es laextracciónde un subconjunto
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

de unidades o elementos a la cual realizar el análisis y obtenerun diagnóstico de la población. Este


subconjunto de unidades o elementos es llamado‘muestra’, cuyas principales razones para su uso, es
llegar a obtener estimacionesde las características de interés de una población en forma más rápida y
económica.

Los métodos o técnicas de muestreo son un pilar fundamental dentro de los métodos estadísticos,
pues dependiendo de una buena y adecuada técnica de muestreo, se puededeterminar hasta dónde
abarcan los análisis y conclusiones que se realizan como referencia futura de un marco establecido.

Teniendo una muestra de una población, esperamos que ésta sea representativa de esapoblación, es
decir, que todas las características de la población que se están analizando estén reflejadas en
la muestra. Mientras mejor se reflejen lascaracterísticas de la población en la muestra, mayor
es la confiabilidad de cualquier conclusión que se haga de la población. La presencia ó ausencia de
aleatorización en el diseño de muestreo permite clasificar los métodos de muestreo en: Muestras
probabilística, es decir, que sus elementos de alguna manera capturen lascaracterísticas
esenciales de la población, y Muestras no probabilísticas, es decir,las conclusiones obtenidas de la
muestra sólo representan o capturan las características esenciales de esos elementos y no de la
población.

• Muestreo no Probabilístico: Es el típico muestreo que se realiza a la salidade un centro


comercial, salida o ingreso del metro, en una esquina de una calle, etc., en donde los resultados
obtenidos sólo representan el pensamientode los encuestados, pero no el de la población en
estudio.

• Muestreo Probabilístico: La aleatorización es vital, pues, las inferencias que se realicen


abarcarán al comportamiento de la población total. Es por ello, que una mala aleatorización
o el no cumplimiento de lo establecido por la aleatorización, puede llevar a obtener
conclusiones erróneas, al considerarseestas muestras como sesgadas. En este muestreo cada
uno de los elementos de la población de interés, o población objeto, tiene una probabilidad
conocida,y frecuentemente igual, de ser elegido en la muestra. A las muestras aleatoriasse les
denomina también muestras probabilísticas o muestras científicas.

En el muestreo probabilístico se utilizan básicamente cinco técnicas de muestreo:

• Muestreo Aleatorio Simple (m.a.s.).


• Muestreo Aleatorio Sistemático (m.a.st.).
• Muestreo Aleatorio Estratificado (m.a.e.).
• Muestreo Aleatorio por Conglomerado (m.a.c.).

Deberemos aclarar que, en ningún caso, los métodos y técnicas presentadas, son rígidas en su
aplicación, sin embargo, queremos entregar una visión globalizada delo que debe tenerse en cuenta
en una muestra estadística, que permita conocer y entender los factores fundamentales que influyen
en cada técnica de muestreo.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

La elección de una técnica de muestreo se basa en el grado de conocimientos que setenga del
comportamiento de la característica de interés dentro de la población objeto, el grado de precisión
que se desea obtener en los estimadores utilizados, costos asociados a su aplicación, etc.

Tipos de Muestreos

Muestreo aleatorio simple, también llamado muestreo al azar irrestricto, los elementos se escogen en
forma individual y al azar de la totalidad de la población,es decir, se escogen sin ningún privilegio y
cada uno posee la misma probabilidad de formar parte de la muestra en cada una de las posibles
muestras. A modo de ejemplo: Es recomendado cuando la característica de interés se encuentra
distribuidade forma homogénea dentro de los elementos de la población, como se muestra en la
Figura A.

Figura A: Representación esquemática del muestreo aleatorio simple.

Las situaciones propicias para la aplicación de este plan de muestreo son cuando: la lista de elementos
de la población está disponible o es de fácil acceso; los elementos de la población no presentan
grandes variaciones entre grupos naturales que pudiesen formarse en ésta. La importancia relativa
de los diferentes elementosde la población tiene el mismo peso a la hora de determinar indicadores
de la población bajo estudio.

Muestreo aleatorio sistemático, plan de muestreo al azar, en la cual se eligen loselementos de la


población a intervalos uniformes, a partir de un listado (ordenado),tal como elegir cada k-ésimo
elemento después de un arranque aleatorio. A modo de visualización esquemática, suponga una
población de ‘N’ elementos de los cuales sedesea obtener una muestra de ‘n’ elementos, entonces la
cantidad de intervalos o grupos ‘k’, que en que se divide la población, está dada por k = N / n.
Luego del primer grupo de k elementos se escoge un elemento al azar, mientras que los n – 1
elementos faltantes en las muestras se escogen a intervalos regulares de k elementos,después del primer
escogido.

Muestreo aleatorio estratificado, la característica que se está midiendo en la población objetivo,


presenta mucha dispersión en grupos identificados de la ésta, por los tanto, lo primero que se debe
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

hacer es estratificar los elementos de la población en subgrupos separados y excluyentes de acuerdo


con el comportamiento quepresenta la característica dentro de estos grupos. Esquemáticamente, esta
situaciónse refleja en la Figura B, donde la característica a medir se presenta notoriamentedistinta
lo cual es reflejado por la densidad y colores de la figura.

Posterior a la clasificación de los elementos de la población en grupos, se obtienepor separado una


muestra aleatoria simple o sistemática de cada estrato. Puede utilizarse este tipo de muestreo para
asegurar una representación proporcional de diversos subgrupos en la muestra. Por lo general el
tamaño de la muestra que se requiere para lograr determinado nivel de precisión en el muestreo
estratificado esmenor que con muestreo aleatorio simple, con la consiguiente reducción en los costosdel
muestreo.

Figura B: Representación esquemática del muestreo aleatorio estratificado.

Muestreo aleatorio por conglomerados, es un muestreo aleatorio en el cual la unidadde muestreo, que
es la unidad de selección, contiene más de un elemento de la población, por lo tanto, la unidad de
muestreo es un grupo de elementos también llamados conglomerados. En este caso cada elemento de
la población debe estar identificado unívocamente con una, y sólo una, unidad de muestreo.

En la aplicación de este tipo de muestreo, lo habitual es que los elementos de la población se agrupan
en forma natural en subgrupos de tal manera que forman una masaque es difícil descomponer ó no se
puede acceder directamente a ellos. Así, se eligenal azar en primer lugar los conglomerados, y luego los
elementos dentro de éste. Unamanera de esquematizar este plan de muestreo se muestra en la Figura
C, donde se pueden observar que existen conjuntos de elementos, difíciles de separar.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Figura C: Representación esquemática del muestreo aleatorio por conglomerados.

Lo que constituye un conglomerado como aceptable es asunto que depende de las condiciones
prácticas, que a su vez depende del instrumento de medición de la característica en estudio, su
configuración física en el dominio de estudio y de losrecursos disponibles.

El número de elementos asociados a un conglomerado se llama tamaño del conglomerado. Los


conglomerados pueden ser de igual tamaño, que suelen ser por lo general producto de condiciones
planeadas, que se dan, por ejemplo, en procesos manufactura, paquetes, cajas de exportación o
importación, etc. Sin embargo, en su mayoría de las poblaciones, lo más común es trabajar con
conglomerados de tamaño desigual; por ejemplo, si se desea medir la cantidad de elementos en áreas,
lo común que en áreas de igual o distinto tamaño, existan distinto número de elementos.

La selección de conglomerados en primer lugar y de elementos dentro de éstos a continuación,


requiere de dos etapas de selección, aunque puede extenderserápidamente a más etapas, es
conocido como muestrea aleatorio polietápico, que consiste en una jerarquía de diferentes tipos de
unidades; cada unidad de primera etapa se divide, o es potencialmente divisible, en unidades de
segunda etapa, etc. Las unidades de muestreo de la primera etapa se llaman unidades de muestreos
primarias,mientras que en las etapas siguientes se llaman de segunda, tercera, etc.Etapa.

Generalmente, el submuestreo se utiliza para dividir conglomerados en unidades menores, que sin
lugar a dudas, se solucionaría al utilizar y seleccionar unidadesfinales, las de la última etapa, como
unidades primarias, y aplicar directamente unmuestreo en una sola etapa, sin embargo, los principales
inconvenientes que presenta esta alternativa son: los conglomerados pueden existir naturalmente
como, unidadesconvenientes de muestreo, sin embargo ser mayores que el tamaño económico deseado
para su análisis; no evita el costo de formación de conglomerados menores en la población completa;
aumente generalmente, el efecto de la asociación que pueda existir entre los conglomerados suele ser
menor los grupos de mayor tamaño.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

SEGUNDO MODULO

Resumen de Datos

En estadística descriptiva, a partir de un conjunto de datos, se busca encontrar resumes sencillos,


que permitan visualizar las características esenciales de éstos.En una experiencia, un dato por sí sólo
es informativo del resultado de un ensayo en particular, pero para obtener un patrón de esta
experiencia, es necesario contarcon un conjunto de datos, que por sí solos no entregan información,
de ahí la necesidad de encontrar resúmenes apropiados que muestren, de existir, patrones en los
datos.

En el resumen de datos se siguen dos enfoques: el primero, más orientado al análisis exploratorio de
datos, con un conjunto de técnicas encaminadas a la visualización de los datos mediante tablas o
gráficos que permitan realizar un diagnóstico de ellos; el segundo desarrolla un conjunto de
indicadores descriptivos de diversas características importantes de los datos, cuyo fin es
complementar el diagnóstico de éstos.

Organización de Datos

La organización de datos trata de acomodar éstos, para que puedan revelar sus características
informativas fundamentales y de esta manera simplificar los análisispara la obtención de conclusiones.
Los datos no organizados también se denominan ‘datos no agrupados’, del mismo modo, los datos
ya organizados son llamados ‘datosagrupados’.

Una manera de acomodar los datos es construir un arreglo ordenado; esto es, organizando los datos
con un orden natural cuando la escala de medición lo permite.Si el número de datos es grande, el
arreglo puede ser difícil de manejar y poco útilen cuanto a la información que pueda entregar;
por eso a menudo se utilizantablas de frecuencia como una primera aproximación general a la
organización de datos.

El uso de frecuencia es más natural en datos cualitativos o discretos, pues en estoscasos es sencillo
contar el número de veces que aparece un mismo dato en la población(muestra) de éstos, en este caso
se habla de tablas de frecuencia no agrupadas. Sin embargo, cuando se trabaja con datos cuantitativos
en escala continua, es muy posible que exista un conjunto de números distintos losuficientemente
grande, como para hacer impracticable lo anterior, en este último caso se procede a crear
agrupaciones convenientes para los datos observados, este caso se habla de tablas de frecuencia
agrupadas.

Tablas de Frecuencia

En las tablas de frecuencias cada categoría tiene una frecuencia observada, este cálculo es siempre
posible en datos cualitativos, sin embargo, si la cantidad de categorías distintas es grande, deja de
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

ser un resumen adecuado para los datos. Lasrespuestas observadas en la población (muestra), se
denominarán clases, las cuales se simbolizan por

𝐶1, 𝐶2, . . . , 𝐶𝑘,

donde k es la cantidad de categorías (respuestas) distintas. En la construcción detablas se utilizan


las clases junto con dos frecuencias asociadas a éstas, estas son:

Frecuencia Absoluta: Se llama frecuencia absoluta de la clase Ci, al número de elementos en


la población (muestra) que pertenecen a la clase Ci. Este número lo denotaremos por ni.

"

) 𝑛! = 𝑛
!#$

Frecuencia Relativa: Se llama frecuencia relativa de la clase Ci, a la cantidad de elementos en la


población (muestra) que pertenecen a la clase Ci, relativo al totalde elementos en la población
(muestra). Este número lo denotaremos por fi y cumple la propiedad.

" "
𝑛! 𝑛!
𝑓! = ⇒ . ) 𝑓! = ) = 1
𝑛 𝑛
!#$ !#$

Aplicación 01: Suponga el caso que es de interés determinar la frecuencia de las facturas que
llegan a la empresa producto de trabajos realizado por los contratistasde obras menores, donde los
datos son:

Emis Ltda. Baker & Jones Smith y CIA. Emis Ltda.


Emis Ltda. Baker & Jones Baker & Jones Smith y CIA.
Brown e Hijos Emis Ltda. Smith y CIA. Baker & Jones
Emis Ltda. Baker & Jones Smith y CIA. Brown e Hijos
Baker & Jones Smith y CIA. Brown e Hijos Baker & Jones
Baker & Jones Emis Ltda. Baker & Jones Emis Ltda.
Smith y CIA. Emis Ltda. Baker & Jones Emis Ltda.
Brown e Hijos Emis Ltda. Emis Ltda. Emis Ltda.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Tabla Aplicación 01: Frecuencias de facturas entregadas por empresas contratistas

Empresa Frecuencia Frecuencias


Absoluta Relativa
Baker & Jones 10 31,25%
Brown e Hijos 4 12,50%
Emis Ltda. 12 37,50%
Smith y CIA. 6 18,75%

Estas dos frecuencias asociadas a la organización (resumen) de datos son comunes eindependientes
de la escala de medición, es lo mínimo que una tabla de frecuencia puede tener, sin embargo, cuando
se trabaja con datos en escala al menos ordinal, se pueden agregar otras frecuencias adicionales, a
saber:

Frecuencia Absoluta Acumulada: Se llama frecuencia absoluta acumulada hasta la clase Ci, al número
total de elementos en la población (muestra) que pertenecen a las clases C1, C2, ..., Ci. Este número
lo denotaremos por Ni y cumplen la propiedad

𝑁! = 𝑛$ + 𝑛% + ⋯ + 𝑛! ⇒ . 𝑗 = 1,2, … , 𝑖 𝑖 = 1,2, … , 𝑘

Frecuencia Relativa Acumulada: Se llama frecuencia relativa acumulada hasta la claseCi, a la cantidad
de elementos en la población (muestra) que pertenecen a las clases C1, C2, ... , Ci, con respecto al total
de elementos en la población (muestra). Estenúmero lo denotaremos por Fi y cumplen la propiedad:

𝐹! = 𝑓$ + 𝑓% + ⋯ + 𝑓! ⇒ 𝑗 = 1,2, … , 𝑖 𝑖 = 1,2, … , 𝑘

Aplicación 02: En un conjunto de clientes, el interés es determinar la clasificación de éstos según


su cumplimiento en el pago. Estos son clasificados como: Malos (M), Regulares (R), Buenos (B) y
excelentes (E). Los datos son:

B R B E E E M B E R
R M M R R M R B B B
B B E B B B E B E R
E M B B E B B B B B
M R M B B B B E M R
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Tabla Aplicación 02: Clasificación de clientes por su cumplimiento en el pago.

Frecuencias Frecuencias Acumuladas


Clasificación Absoluta Relativa Absoluta Relativa
Malo 8 16% 8 16%
Regular 9 18% 17 34%
Buenos 23 46% 40 80%
Excelentes 10 20% 50 100%

Las aplicaciones anteriores están orientadas a la organización de variables cualitativas, en una


primera aplicación en datos nominales, y en un segundo caso, adatos en escala ordinal. Sin embargo,
estos mismos conceptos pueden ser aplicados avariables discretas, siempre que en número de datos
tomando distintos valores no seaexcesivamente grande.

Aplicación 03: Suponga que, en un conjunto de clientes, el interés es determinarel número


de veces que éstos se han atrasado en el pago de su cuenta. Los datos son los siguientes:

0 0 2 4 4 7 0 1 4 0 0 0 0 0 0
0 0 0 2 0 0 0 4 1 1 0 7 3 8 0
7 0 3 3 7 1 0 3 0 3 0 0 0 0 1
2 0 8 0 0 0 4 0 0 3 2 3 3 0 0

Tabla Aplicación 03: Número de veces que un cliente se ha atrasado en el pago de su cuenta

Frecuencias Frecuencias Acumuladas


# de Absoluta Relativa Absoluta Relativa
Atrasos
0 32 53.4% 32 53.4%
1 5 8.3% 37 61.7%
2 4 6.7% 41 68.4%
3 8 13.3% 49 81.7%
4 5 8.3% 54 90.0%
5 0 0% 54 90.0%
6 0 0% 54 90.0%
7 4 6.7% 58 96.7%
8 2 3.3% 60 100.0%

En variables continuas, la organización de datos es un poco más compleja, se dividen los datos en k
grupos o segmentos disjuntos, como se muestra Figura D. Estos grupos representan las clases y se
determina la frecuencia de datos asociado a cada grupo, conformando una tabla de frecuencia
agrupada.

En variables continuas, la organización de datos es un poco más compleja, se dividen los datos en k
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

grupos o segmentos disjuntos, como se muestra Figura D. Estos grupos representan las clases y se
determina la frecuencia de datos asociadoa cada grupo, conformando una tabla de frecuencia agrupada.

Figura D: Segmentación en grupos de datos continuos.

En este tipo de datos las clases están compuestas por intervalos, luego es necesariobuscar un representante
de la frecuencia asociada a este intervalo, el cual seconocecomo marca de clase. Es común utilizar como
marca de clase al valor mediodel segmento(intervalo).

Construcción de la Tabla de Frecuencia

En la construcción de una tabla de frecuencia, lo primero que se debe tener claro es la cantidad de
segmentos (intervalos) a considerar. Lo más común es utilizar comouna primera aproximación la regla
de Sturges.

Regla de Sturges: El número de clases k = 3,3 log(n) + 1, donde ‘n’ es la cantidadde datos que se
desea organizar. Nosotros recomendamos utilizar un número impar de clases, por consideraciones que
se explicarán más adelante.

Amplitud: Para determinar ‘A’, la amplitud de las clases, se debe calcular el rango(𝑹𝑫), que es la
diferencia entre el dato mayor (máx. {xi}) y el menor (min. {xi}).También es necesario determinar
‘u’, la unidad mínima de conteo de los datos. La amplitud está dada por:

𝑅& + 𝑢
𝐴=
𝑘

Rango de la Tabla: El rango de la tabla 𝑅' , que es la multiplicación entre la cantidad de clases que se
están utilizandoy la amplitud. La inclusión de u en el cálculo de A, puede que no garantice que el 𝑅𝑇
sea mayor que el 𝑅𝐷, es por esta razón que se recomienda utilizar una aproximación conveniente de A.

Para la determinación de los límites teóricos de las clases, se comienza con el límite Inferior de
la primera clase, LI1, el cual se calcula como:

𝐷
𝐿𝐼$ = 𝑚𝑖𝑛𝑖𝑚𝑜(𝑥! ) −
2
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

donde la diferencia, 𝐷 = 𝑅𝑇 − 𝑅𝐷, en el caso que el último digito de D no sea par, se realiza un ajuste
conveniente.

Posteriormente, se suma la amplitud a 𝐿𝐼$ obteniéndose el límite superior de esta clase, 𝐿𝑆$ , el que
también será el límite inferior de la segunda clase, 𝐿𝐼% = 𝐿𝑆1, donde 𝐿𝑆$ se considera abierto para su clase
y cerrado para la segunda clase. Los siguienteslímites se obtienen sumando la amplitud hasta completar las
k clases a utilizar. La tabla de frecuencia genérica resultante queda

Tabla de frecuencia genérica.

Frecuencias Frecuencia Acumulada


Clases Absoluta Relativa Absoluta Relativa
[ LI1 - LS1 [ n1 f1 N1 F1
[ LI2 - LS2 [ n2 f2 N2 F2
[ LI3 - LS3 [ n3 f3 N3 F3
….

….

….

….

….
[ LIk - LSk [ nk fk Nk Fk

Aplicación 04: Suponga que los datos representan tiempos de espera (en segundos) para la línea
telefónica de atención al cliente.

Tiempos (Segundos)
47 43 33 52 70 24 55 48 52 52 49 47
34 48 42 57 65 45 48 63 54 54 46 55
55 65 36 47 66 51 39 11 44 44 45 44
53 45 44 43 56 59 56 54 23 23 32 49
55 49 57 57 55 46 42 52 56 56 42 53
61 46 53 57 54 49 49 45 36 36 47 52
25 66 44 54 52 41 54 54 57 57 45 46
42 54 70 41 49 51 44 52 58 58 44
55 70 34 68 29 36 52 32 45 45 52
52 57 41 39 42 37 43 35 38 57 69
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Frecuencia Frecuencia
Acumulada
Tiempos Marca de Absoluta Relativ Absoluta Relativa
(seg) Clase a
[10.4 – 19.0[ 14.7 1 0.85% 1 0.85%
[19.0 – 27.6[ 23.3 4 3.42% 5 4.27%
[27.6 – 36.2[ 31.9 11 9.40% 16 13.67%
[36.2 – 44.8[ 40.5 22 18.80% 38 32.47%
[44.8 – 53.4[ 49.1 39 33.33% 77 65.80%
[53.4 – 62.0[ 57.7 30 25.64% 107 91.44%
[62.0 – 70.6[ 66.3 10 8.56% 117 100.00%

Tabla Aplicación 04: Tiempo de espera antes de ser atendido

Graficas

Un gráfico es otra forma de representar y resumir datos, en el gráfico se pueden se hacer evidentes ciertas
características que en una tabla de frecuencias pueden pasar inadvertidas.

La representación gráfica de los datos ha logrado un uso creciente en los medios de comunicación y eso
se debe en gran parte, a la popularidad y uso de software con amplias representaciones gráficas. Hay
disponibilidad de gráficas de muchos tipos, desde aquellas para datos agrupados en tablas de frecuencias
hasta datos no agrupados, donde su uso depende en gran medida del tipo de escala empleada. En adelante
se ilustran distintos tipos de gráficos comúnmente utilizados.

Gráficos de barras y la gráfica de pastel (circular), son los gráficos más comunes y sencillos, usualmente
utilizados en datos categóricos. Cuando los datos se presentan en escala nominal, la secuencia en que se
presentan las clases es totalmente arbitraria, sin embargo, cuando los datos se presentan en escala
ordinal, las clases deben mantener el orden de la escala. A continuación, se presentan dos aplicaciones
que exponen una serie de gráficos y variaciones de estos.

Aplicación 05: La tabla muestra la proporción de clientes asociados sector deubicación.

Sector 1 2 3 4 5 6
Proporción (%) 10% 15% 40% 20% 10% 5%
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Figura: Graficas de barras asociadas al sector de cliente.

Los gráficos circulares, son otra opción para los datos anteriores, En estos gráficos, el más común es el
primero (de izquierda a derecha), por su sencillez y fácil interpretación

Figura: Graficas circulares asociadas al sector de cliente.

Aplicación 06: Suponga que estamos interesados en el grado de satisfacción de los clientes con
respecto a los servicios adicionales que presta la empresa. En este caso a una muestra de 77 clientes
se pide que califiquen el grado de satisfacción como: Insatisfecho (I), Indiferente (II), Normal (N),
Satisfecho con reparos (SR) yTotalmente Satisfecho (TS). Los datos son:

Frecuencia
Grado Absoluta Absoluta Acumulada
Insatisfecho (I) 19 19
Indiferente (II) 21 40
Normal (N) 33 73
Satisfecho con Reparos (SR) 2 75
Totalmente Satisfecho (STS) 4 77
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Figura 06: Graficas circulares asociadas al nivel de satisfacción.

En la Figura 06, se muestran dos gráficas asociadas, con la particularidad que la variable cualitativa
bajo estudio está en escala ordinal, razón por la cual, existe un orden en la distribución del grado de
satisfacción.
En la representación gráfica de la tabla de frecuencia de datos cuantitativos (continuos), existen cuatro
gráficos habituales El primero, los constituye el histograma de frecuencia junto con el polígono de
frecuencia, el segundo, lo constituye gráfica de frecuencias acumuladas junto con la ojiva. Se muestra a
continuación estas graficas para los datos de tiempos de espera (Tabla Aplicación 04).

Figura: Histograma de la Tabla Aplicación 04

La última representación gráfica es utilizada en particular cuando la variable bajo estudio se ha


medido en el tiempo (datos longitudinales). Está gráfica, llamada diagrama de dispersión, es de gran
utilidad en series de tiempo y control estadístico de la calidad, tiene la particularidad que puede
mostrar tendencias de los datos en el tiempo. Consideremos los datos de la aplicación 4.5, pero además
agreguemos el tiempo como referencia

Medidas de Desempeño

Los indicadores de desempeño han adquirido gran importancia a partir del establecimiento de la
filosofía de gestión, calidad total y la aplicación de normas nacionales o internacionales. Son
herramientas para la evaluación de la gestión, que proveen valores de referencia con el cual se puedan
comparar o proponer metas.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Las medidas de desempeño son otro medio con el cual se resumen los datos, ya que a través de ellos
se establece una medida resumen de alguna particularidad en los datos. Estos indicadores se dividen
en tres tipos: medidas de posición, resumen de los datos que representa un lugar definido importante
dentro de ellos; medidas de variabilidad o riesgo, que como se podrá apreciar son muy importantes; y
medidas de forma, que tienen una importante relación con un grupo de medidas de posición.

Medidas de Posición

Una medida de posición es un valor simple que se calcula para un grupo de datos y que se utiliza
como una manera de resumir a estos un valor dentro del rango de los datos. Normalmente se desea
que el valor sea representativo de todos los valores incluidos en el grupo, estos valores pueden estar
relacionados con posiciones de particular interés como los extremos, los cuales se asocian a cuantiles,
o valores del centro, llamados de tendencia central.

La Media Aritmética: La media aritmética, o promedio, se define como el cociente de la suma de


todos los valores entre el número total de valores. En estadística, un "promedio” es una medida de
tendencia central para un conjunto de datos.

Es normal representar una medida descriptiva de una población, (o parámetro poblacional), mediante
letras griegas, en tanto que se utilizan letras romanas para las medidas descriptivas de estadísticas
muestrales. Así, la media aritmética para una población de valores se presenta mediante el símbolo,
en tanto que la media aritmética de una muestra se representa mediante el símbolo X. Las
expresiones para el cálculo de la media de una población y de una muestra son:

( )
𝑋! 𝑋!
𝜇 = ) ⇒ . 𝑋 = )
𝑁 𝑛
!#$ !#$

Aplicación 06: Los pagos de consumo, en una muestra de 15 cuentas en un restaurante, fueron:
$1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y
41000.
𝑋 = $12.080

Cuando se agrupan datos en una distribución de frecuencias, se utiliza el punto medio de cada clase
como aproximación de todos los valores contenidos en ella. El punto medio o marca de clase se
representa con el símbolo 𝑚! , en donde el subíndice i indica la "clase i", y se utiliza la letra ni para
representar la frecuencia absoluta observada en la clase respectiva. Las fórmulas para la media de la
población y de la muestra para datos agrupados son:

" "
𝑛! 𝑚! 𝑛! 𝑚!
𝜇=) ⇒ . 𝑋 = )
𝑁 𝑛
!#$ !#$
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Aplicación: Considerando los datos del tiempo de espera (en segundos) antes de ser atendido se
tiene:

Frecuencia
Tiempos (seg.) Marca de Clase Absoluta Relativa
[ 10,4 - 19,0 [ 14,7 1 0,85%
[ 19,0 - 27,6 [ 23,3 4 3,42%
[ 27,6 - 36,2 [ 31,9 11 9,40%
[ 36,2 - 44,8 [ 40,5 22 18,80%
[ 44,8 - 53,4 [ 49,1 39 33,33%
[ 53,4 - 62,0 [ 57,7 30 25,64%
[ 62,0 - 70,6 [ 66,3 10 8,56%

"
𝑋! 14.7 × 1 + 23.3 × 4 + ⋯ + 66.3 × 10
𝑋=) = = 48.4
𝑛 117
!#$

La gran desventaja de este indicador es su gran sensibilidad a la presencia de datos extremos. Un dato
extremo se manifiesta inmediatamente en el promedio, poniendo en duda el ser un valor representativo
del centro de los datos.

La Mediana: La mediana de un conjunto de datos es el valor que ocupa el lugar central de estos
cuando se ordenan en orden de magnitud. Para conjunto de datos, con un número par de elementos,
la mediana se calcula como el promedio de los valores centrales.
𝑋)*$ 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
%
𝑀𝑒 = Q𝑋) + 𝑋)*$
% %
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
2

Aplicación 07: Considerando los pagos de consumo, en una muestra de 15cuentas en un restaurante:
$1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000.

𝑀𝑒 = 𝑋)*$ = 𝑋$+*$ = 15.300


%

Para datos agrupados, en primer lugar, es necesario determinar la clase que contiene el valor de la
mediana, para después determinar la posición de la mediana dentro de la clase mediante interpolación.
La clase que contiene la mediana es la primera clase cuya frecuencia acumulada es mayor o igual a la
mitad de los datos. Una vez que se identifica esta clase, se determina el valor interpolado de la
mediana, empleando la siguiente expresión:
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

𝑛
− 𝑁!-$
𝑀, = 𝐿! + W2 X 𝑎!
𝑛!

𝐿! = Límite inferior de la clase que contiene la mediana.


𝑛 = número total de observaciones en la distribución de frecuencias.
𝑎! = Amplitud de clase.
𝑁!-$ = La frecuencia acumulada anterior a la clase que contiene la mediana.
𝑛! = Número de observaciones en la clase que contiene la mediana.

Aplicación 08: Para los datos agrupados de la Tabla 4.5, la mediana del tiempo de espera (en
segundos) antes de ser atendido es:

Marca de. Frecuencia


Tiempos (seg.) Clase Absoluta Acumulada
[ 10.4 - 19.0 [ 14.7 1 1
.
.
.

.
.
.

.
.
.

.
.
.
[ 44.8 - 53.4 [ 49.1 39 77 Clase Mediana
.
.
.

.
.
.

.
.
.

.
.
.

𝑛 117
2 − 𝑁!-$ − 38
𝑀, = 𝐿! + W X 𝑎! = 44.8 + W 2 X 8,6 = 49,3
𝑛! 39

La mediana es otra medida de tendencia central, este indicador no es afectado por datos extremos
(indicador robusto).
La Moda: Medida de tendencia central, que está dada por el valor o clase que se presenta con mayor
frecuencia. A una distribución que tiene una sola moda se le denomina unimodal. Cuando dos valores no
adyacentes tienen frecuencias máximas similares, se dice que la distribución es bimodal. Para datos
agrupados, primero se identifica la clase que contiene la moda, determinando la clase que tiene el mayor
número de observaciones (clase modal). Algunos autores consideran que la moda es el punto medio de la
clase modal (marca de clase), otros, interpolan dentro de la clase modal, de acuerdo con la siguiente
expresión:
𝑑$
𝑀. = 𝐿! + Z \𝑎
𝑑$ + 𝑑% !
/!
Donde /! */"
es un factor de ponderación y además:

Li = Límite inferior de la clase que contiene la moda.


d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que le precede.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que le sigue.


ai = Amplitud del intervalo de clase.

Existen otras medidas de tendencia central, utilizadas en situaciones más específicas como una solución
al problema de la alta sensibilidad del promedio aritmético, alguna de ellas:

Media Geométrica: Se utiliza principalmente para promediar proporciones de variaciones, en datos


económicos y se define como la raíz n-ésima del producto de los n valores.

𝑀0 = #]𝑥$ 𝑥% … 𝑥)

Media Armónica: Se define como el recíproco de la media de los recíprocos de las medias, es decir:

𝑛
𝑀1 =
1
∑)!#$
𝑥!

Cuantiles: Los cuantiles son medidas de posición que dividen los datos en grupos bajo los cuales se
encuentra una determinada proporción de éstos, por lo que se requiere que los datos se encuentren en al
menos escala

La mediana es un cuantil que divide la distribución de los datos en dos partes de igual frecuencia
acumulada, y luego bajo/sobre la mediana se encuentra acumulado el 50% de los datos. Los cuartiles,
la dividen en cuatro cuartos; los quintiles, dividen la población en cinco; los deciles, la dividen en diez
décimos; y los puntos percentiles, la dividen en cien partes. Estos, en el caso de datos dispersos, son
expresados por:

𝐶𝑢𝑎𝑟𝑡𝑖𝑙 𝑖: 𝑄! = 𝑋!()*$) 𝑖: 1 ,2, … ,4


3
𝑄𝑢𝑖𝑛𝑡𝑖𝑙 𝑖: 𝐾! = 𝑋!()*$) 𝑖: 1 ,2, … ,5
+
𝐷𝑒𝑐𝑖𝑙 𝑖: 𝐷! = 𝑋!()*$) 𝑖: 1 ,2, … ,10
$5
𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙: 𝑃! = 𝑋!()*$) 𝑖: 1 ,2, … ,100
$55

Estas expresiones son exactas en la medida que los factores de proporción son números enteros, en caso
contrario, una buena aproximación (aunque no la única) la entrega el promedio entre el entero superior
6*$
e inferior de la respectiva fracción. Finalmente, un percentil indica que el i g h % de los datos está bajo
$55
el valor P7

Aplicación 09: Considerando los pagos de consumo: $1000, 1000, 2500, 2500, 2500, 3500, 4000,
5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Q8 = X8($+*$) = X$% = 24500


3

Luego, el 75% de los pagos por consumo son menores o iguales a $ 24.500.

𝑋9 + 𝑋;
𝐷3 = 𝑋3($+*$) = 𝑋9.3 = = 3750
$5 2

Para datos agrupados, la fórmula se modifica de acuerdo con el punto fraccionario de interés. Para
utilizar esta expresión modificada, en primer lugar, se determina la clase que contiene el punto de interés,
de acuerdo con las frecuencias acumuladas, y después se lleva a cabo una interpolación como en el caso
anterior de la mediana. Luego, la expresión general para el cálculo de percentiles, utilizando
frecuencias absolutas como relativas está dada por:

𝑛 × 𝑗 𝑗
− 𝑁!-$ − 𝐹!-$
𝑃< = 𝐿= + W 100 X 𝑎 = 𝐿= + W100 X𝑎
𝑛! 𝑓!

Aplicación 10: Para los datos agrupados en Tabla Aplicación 04, el percentil 80 de los tiempos
de espera (en segundos) es:

Frecuencia Frecuencia
Acumulada
Tiempos Marca de Absoluta Relativa Absoluta Relativa
(seg) Clase
[10.4 – 19.0[ 14.7 1 0.85% 1 0.85%
[19.0 – 27.6[ 23.3 4 3.42% 5 4.27%
[27.6 – 36.2[ 31.9 11 9.40% 16 13.67%
[36.2 – 44.8[ 40.5 22 18.80% 38 32.47%
[44.8 – 53.4[ 49.1 39 33.33% 77 65.80%
[53.4 – 62.0[ 57.7 30 25.64% 107 91.44%
[62.0 – 70.6[ 66.3 10 8.56% 117 100.00%

Tabla X: Tiempo de espera antes de ser atendido, Clase percentil 80 en rojo.

117 × 80
− 77
𝑃>5 = 53,4 + W 100 X 8.6 = 58,2
30

Luego, el 80% de los tiempos de espera es menor o igual a los 58,2 segundos. Otra utilidad, de la
expresión anterior, permite determinar qué porcentaje de los datos se encuentra bajo (o por defecto
sobre) un determinado valor, como, por ejemplo, ¿Qué porcentaje de las veces, los tiempos de espera
fueron superiores a 47 segundos? En este caso se conoce el percentil, pero no el porcentaje, luego:
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

117 × 𝑗
− 38
47 = 44,8 + W 100 X 8.6. ⇒ . 𝑗 = 41,01%
39

Por lo tanto, el (100 – 40,01) %= 58,99%. son superiores a 47 segundos.

Medidas de Variabilidad: Las medidas de tendencia central ó de posición que se presentaron son
útiles para identificar un valor “típico” ó “particular” de un conjunto de datos, las medidas de
variabilidad se ocupan de describir la dispersión (riesgo, precisión) de los datos con respecto a una medida
del centro o un valor particular.

Existen varios indicadores para medir la magnitud de la variabilidad en conjuntos de datos. Las que se
describen a continuación son: rango, rango modificado, desviación media, varianza, desviación
estándar y coeficiente de variación.

El Rango: El rango (R), es la diferencia entre el mayor y menor valor del conjunto de datos. Sí Máx{xi}
representa el mayor, y Min{xi} representa el menor, el rango de los datos está dado por:

Datos dispersos: max(𝑥! ) − min (𝑥! )


𝑅=m
Datos agrupados: 𝐿𝑆" − 𝐿𝐼$

Aplicación 11: Considerando los pagos de consumo, en una muestra de 15 cuentas en un restaurante:
$1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000,
el rango está dado por:

R=𝑚𝑎𝑥(𝑥! ) − min(𝑥! ) = 41000 − 1000 = 40000

Aplicación 12: Para los datos agrupados en Tabla X, el rango de los tiempos de espera esta dado
por:

Frecuencia Frecuencia
Acumulada
Tiempos Marca de Absoluta Relativ Absoluta Relativa
(seg) Clase a
[10.4 – 19.0[ 14.7 1 0.85% 1 0.85%
[19.0 – 27.6[ 23.3 4 3.42% 5 4.27%
[27.6 – 36.2[ 31.9 11 9.40% 16 13.67%
[36.2 – 44.8[ 40.5 22 18.80% 38 32.47%
[44.8 – 53.4[ 49.1 39 33.33% 77 65.80%
[53.4 – 62.0[ 57.7 30 25.64% 107 91.44%
[62.0 – 70.6[ 66.3 10 8.56% 117 100.00%
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Tabla X: Tiempo de espera antes de ser atendido.

𝑅 = 𝐿𝑆; − 𝐿𝐼$ = 70,6 − 10,4 = 60,2

Rangos Modificados: Un rango modificado es un rango para el cual se elimina cierto porcentaje de los
valores en cada uno de los extremos de la distribución y es simbolizado por Rmod (j% central). Algunos
rangos modificados típicos son: el 50% central, el 80% central y el 90% central.

Para determinar el rango modificado, primero se debe ubicar los dos puntos percentiles de interés para,
después, calcular el rango entre ellos. Por ejemplo, para el rango del 80% central, los puntos percentiles
de interés son el décimo percentil y el nonagésimo percentil, porque el 80% central de esos valores se
ubica entre esos dos puntos. En particular se definirá el rango inter cuartilico.

𝐼𝑄𝑅 = 𝑄8 − 𝑄$

Este valor indicara la distancia donde se concentra el 50% de los datos.


Aplicación 13: Considerando los pagos de consumo, en una muestra de 15 cuentas en un restaurante:
$1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000,
el rango modificado al 50% central está dado por:

𝑃;+ = 𝑋;+()*$) = 𝑋$% = 24.500


$55
𝑃+5 = 𝑋%+()*$) = 𝑋3 = 2.500
$55
𝑅𝑚𝑜𝑑(50%) = 𝑃;+ − 𝑃+5 = 22000

Aplicación 14: Para los datos agrupados de la Tabla X, el rango modificado al 90% central de los
tiempos de espera (en segundos) es:

117 × 5
−5
𝑃+ = 27,6 + W 100 X 8.6 = 28,3
11

117 × 95
− 107
𝑃?+ = 62 + W 100 X 8.6 = 65,6
10
𝑅𝑚𝑜𝑑(90%) = 𝑃?+ − 𝑃+ = 37,3

La Varianza y la Desviación Estándar: La varianza es similar a la desviación media porque se


basa en la diferencia entre cada uno de los valores del conjunto de datos y la media del grupo, La
diferencia consiste en que, antes de sumarlas, se eleva al cuadrado cada una de las diferencias, Para
una población, se representa la varianza mediante V(X) o, típicamente por la letra 2; la fórmula de
cálculo es:
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

(
%
(𝑥! − 𝜇)%
𝑉(𝑋) = 𝜎 = )
𝑁
!#$

A diferencia de otras estadísticas muestrales que se han analizado, la varianza de una muestra no es,
en términos de cálculo, completamente equivalente a la varianza de la población, La varianza muestral
se representa mediante S2, y está dada por:
)
%
(𝑥! − 𝑋)%
𝑆 =)
𝑛−1
!#$

Se utiliza con mayor frecuencia la raíz cuadrada de la varianza, representada mediante la letra griega
para el caso poblacional y S para una muestra, y se le denominada desviación estándar, Las fórmulas
son:
)
(𝑥! − 𝑋)%
𝜎 = ]𝑉(𝑥) 𝑆 = ~)
𝑛−1
!#$

Estas medidas (muestrales) también tienen su representación en datos agrupados, la cual está dada
por:
" "
𝑛! (𝑚! − 𝑥)% %
%
𝑆 =) = ) 𝑓! 𝑚!% − 𝑥
𝑛
!#$ !#$

Criterio: Veremos a futuro que, si los datos tienen una distribución normal, el 99% de los datos está
concentrado en el intervalo (𝑋 − 3𝑆, 𝑋 + 3𝑆)
La desviación estándar, además de ser una medida de dispersión que utiliza toda la información
(en contraposición con los rangos) y ser expresada en igual unidad de medida que los datos
originales, es especialmente útil cuando se le utiliza junto con la denominada distribución normal.

Aplicación 13: Para los datos de ventas de aparatos eléctricos: 5 – 8 – 11 – 11 – 11 – 14 - 16.


La media aritmética es 10,5 unidades. Considerando estos datos mensuales de ventas como la
población estadística de interés, se determina la desviación estándar:

σ = ]V(x) = ]86/8 = 3,3


Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Aplicación 14: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la media aritmética
es 48,4 segundos, la desviación estándar es:

fi mi mi – x (mi – x )2 fi (mi – x )2
0,009 14,7 -33,7 1135,7 10,2212
0,034 23,3 -25,1 630,0 21,4203
0,094 31,9 -16,5 272,3 25,5915
0,188 40,5 -7,9 62,4 11,7331
0,333 49,1 0,7 0,5 0,1632
0,256 57,7 9,3 86,5 22,1414
0,086 66,3 17,9 320,4 27,5553
Total 118,826

S = ]V(x) = ]118,826 = 10,9

Coeficiente de Variación. Es un coeficiente sin unidades y sirve para comparar muestras, el cual
se define como
𝑆
𝐶𝑉 =
𝑋

Observación: Si se poseen dos muestran y se desea comparar entre ellas, ocuparemos este coeficiente
y lo entenderemos de la siguiente manera. La muestra que tenga el menor coeficiente de variación
será aquella cuyos datos son más homogéneos.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Ejercicio: La siguiente resume la información obtenida desde una encuesta a 700


trabajadores, en relación con su ingreso mensual (en [UF]) y su opinión respecto al
sistema de administración de su empresa.

Opinión de la Empresa
Ingreso Mensual Mala Regular Buena
[4,945 - 15,445[ 75 55 45
[15,445 - 25,945[ 45 95 75
[25,945 - 36,445[ 35 55 105
[36,445 - 46,945[ 29 31 55

a. ¿Qué porcentaje de los encuestados gana más de 25 [UF] mensuales?


b. ¿Cuál es la mediana del ingreso mensual de los trabajadores que opinaron que
el sistema era regular y bueno, respectivamente?
c. ¿Qué opinión sobre la administración de la empresa es relativamente menos
homogénea?

Ejercicio: La siguiente información corresponde a los diámetros en [mm] de los pernos


producidos por una máquina en un día.

72 67 62 81 78
71 64 73 76 77
76 76 72 63 73
69 71 72 84 65
61 77 67 72 67

Para “resumir” la información, construya una “tabla de frecuencias”. No obstante a


los beneficios obtenidos con esta tabla, se perderá́ precisión en los indicadores que se
calculen. Determine medidas de tendencia central, de posición y de dispersión. Compare
sus resultados.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Medidas de Forma: Los indicadores de forma de las distribuciones de frecuencias asociadas a un


conjunto de datos son medidas que se agrupan en: asimetría y curtosis. Las medidas de asimetría
centran su interés en la tendencia de los datos a concentrarse en los valores más pequeños, que se
conoce como asimetría positiva, valores más grandes, que se conoce como asimetría negativa o
simplemente en el centro, que se denomina simetría.

En la figura E, se observan las posibilidades de asimetría, en conjunto de datos que presentan solo
una cima (peack). En estos casos se observa que la tendencia de los datos resulta fácil, sin embargo,
cuando se presenta más de una moda, determinar la asimetría de los datos es más riesgoso, con lo
cual se recomienda el uso de indicadores para una mayor certeza de la situación. La figura además
muestra el caso de datos simétricos de un conjunto de datos bimodales.

Las medidas de curtosis centran su atención en la tendencia de los datos en el grado de concentración
que estos poseen alrededor de puntos centrales, en este caso, se dice que los datos tienen una
concentración mesocúrtica cuando el grado de concentración se acerca a lo ideal, mientras que, se
habla de leptocúrtica o platicúrtica, si el grado de concentración es menor o mayor a lo ideal,
respectivamente.

Figura E: Representación de simetría en conjunto de datos

En la figura F, se muestran las tres situaciones de curtosis, en conjunto de datos que presentan solo
una moda. Se puede apreciar, que, en el caso de distribuciones leptocúrticas, la menor variabilidad es
evidente en comparación a las otras formas. La distribución mesocúrtica, representa el caso de una
distribución con variabilidad ideal, en comparación con el modelo probabilístico normal. Finalmente,
la distribución platicurtica, representa la mayor variabilidad en comparación con la distribución ideal.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Figura F: Representación de curtosis en conjunto de datos

Finalmente, notamos que mediante un análisis grafico es muy difícil poder visualizar que conjunto de
datos posee alguno de estos patrones.

Los indicadores asociados a curtosis ayudan a la comparación de la variabilidad en los datos, pues
justamente la variabilidad mide el grado de no concentración de estos. Adicionalmente, se pueden
emplear como un criterio para determinar la existencia de datos extremos, es decir, muy grandes o
muy pequeños, con respecto al común de los datos observados, que causarían un efecto negativo en
algunos indicadores, o bien, como una señal de la existencia de dos estratos dentro de los datos que
se analizan, como en el caso de la Figura E, donde se muestra un conjunto de datos bimodales, donde
perfectamente, se podría suponer que en la característica de la población en estudio se presenta
concentrada en dos grupos, que afectarían los resultados de algunos indicadores.

A continuación, se presentan una serie de indicadores asociados a características de forma, en el primer


caso se muestran indicadores de asimetría datos por los coeficientes de: Yule, Simetría, Pearson y
Fisher; para finalizar con los coeficientes de curtosis: 𝐾% y Fisher.

Coeficiente de Yule y Simetría: Son dos indicadores de simetría que se basan en cuantiles
centrales, como lo son: cuartil 1, cuartil 3 y la mediana. Las expresiones de cálculo de Yule y Simetría
son,

𝑄8 + 𝑄$ − 2 𝑄% 𝑄8 + 𝑄$ − 2 𝑄%
𝐼@ = 𝐼A =
2 𝑄% 𝑄8 − 𝑄$

Estos indicadores (adimensionales) son de fácil calculo, tanto para datos dispersos como agrupados,
tienen la ventaja de no ser afectados por observaciones extremas, que siempre se encuentran sobre 𝑄8
o bajo 𝑄$ , razón por la cual se puede apreciar que ambos indicadores muestran la simetría en el centro
de los datos y no en la totalidad de estos.

Coeficiente de Pearson: El coeficiente de Pearson, se basa en tres indicadores de usual uso en


estadística y mide la asimetría, como la diferencia entre la media y la mediana con respecto a la
desviación estándar. Este coeficiente poblacional y muestral se encuentra determinado por

3(𝑋 − 𝑀𝑒) 3(𝜇 − 𝑀𝑒)


𝐴B = 𝐴A =
𝑆C 𝜎
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

El promedio y la mediana, que son dos medidas de tendencia central, que cuando hay simetría siempre
son iguales, y la desviación estándar, que es una medida de riesgo que estandariza el indicador, hacen
de este, un indicador más completo.

Coeficiente de Simetría de Fisher: Es el indicador de simetría más fiable de los presentados


anteriormente, se basa en el tercer momento de la distribución de los datos, y que para datos dispersos
y agrupados se obtiene mediante

) )
(𝑥! − 𝑥)8
𝑚8 = ) 𝑚8 = ) 𝑓! (𝑚! − 𝑥)8
𝑛
!#$ !#$

Estas medidas se ven fuertemente afectadas por las unidades de medidas de los datos en estudio, por
lo tanto, se estandariza para medir la asimetría estandarizada, cuya expresión queda.

𝑚8
𝛼8 =
𝑆C8

En su cálculo poblacional, al igual que en el coeficiente de Pearson, basta con el reemplazo de los
indicadores muestrales por sus respectivas medidas poblacionales.

El punto de comparación teórico de estos indicadores es el cero, pues en distribuciones simétricas


todos los indicadores resultan ser cero, mientras que, si el indicador es negativo o positivo, se dice que
la asimetría es negativa o positiva, respectivamente, Sin embargo, en la práctica en el análisis de datos
reales, nunca se obtienen coeficientes cero, por lo cual es bueno recomendar un intervalo en torno al
cual se aceptara la simetría.

Para una distribución simétrica el valor del coeficiente de asimetría es cero, por que el promedio y la
mediana son iguales, mientras que para una distribución con asimetría positiva la media es siempre
mayor que la mediana, y por ello el valor del coeficiente es positivo, como se muestra en la Figura G,
donde además se muestra el caso de una distribución con un coeficiente de asimetría negativo, la
media es siempre menor que la mediana.
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Figura G: Distribución de las medidas de tendencia central en curvas unimodales

Aplicación 15: Para los datos de ventas de aparatos eléctricos: 5-8-8-11-11-11-14-16. La media
aritmética, la mediana, el primer y tercer cuartil, además de la desviación estándar están dadas por:
10.5; 11.0; 8.0; 12.5 y 3.3 unidades, respectivamente. Considerando que estos datos mensuales de
ventas son la población estadística de interés, se tiene que:

𝑄8 + 𝑄$ − 2 𝑄% 𝑄8 + 𝑄$ − 2 𝑄%
𝐼@ = = −0.07 𝐼A = = −0.33
2 𝑄% 𝑄8 − 𝑄$

3(10.5 − 11.0)
𝐴B = = −0.45 𝑚8 = 1.5
3.3

Luego, si consideramos 𝐼@ , 𝐼A y 𝐴A , la distribución tiene una ligera asimetría negativa, es decir, es


sesgada hacia la izquierda, sin embargo, si usamos 𝑚8 muestra el caso contrario. Esto se debe que
tanto 𝐼@ , 𝐼A y 𝐴A , a perdido información al resumir datos, por esta razón el 𝑚8 es un coeficiente más
confiable en establecer el tipo de asimetría de los datos.

Aplicación 16: Para los datos agrupados de la tabla (tiempos de espera), la media aritmética es
48.4 segundos, además, se obtienen los siguientes resultados.

fi mi mi – x (mi – x )3 fi (mi – x )3
0,009 14,7 -33,7 -38272,75 -344,45
0,034 23,3 -25,1. -15813,25 -537,65
0,094 31,9 -16,5 -4492,13 -422,26
0,188 40,5 -7,9. -493,04 -92,69
0,333 49,1 0,7 0,34 0,11
0,256 57,7 9,3 804,36 205,92
0,086 66,3 17,9 5735,34 493,24
Total -697,79
Utilizando las medidas calculadas anteriormente

𝑥 = 48,4 [𝑠𝑒𝑔]
𝑀, = 49,3 [𝑠𝑒𝑔]
𝑆 % = 118,3 [𝑠𝑒𝑔% ]
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

𝑄$ = 41,4 [𝑠𝑒𝑔]
𝑄8 = 56,5 [𝑠𝑒𝑔]

Por lo tanto, se tiene

𝐼@ = −0,01. 𝐼A = −0,05. 𝐴A = −0,25


𝑚8 = −697,79 𝛼8 = −0,54

Coeficiente 𝐊 𝟐 : Este indicador de curtosis, que se basan en cuantiles extremos, como lo son: decil
1 y decil 9. Las expresiones son

𝐷? − 𝐷$
𝐾% = −1
1,9 × (𝑄$ − 𝑄% )

Este indicador es de fácil calculo, tanto para datos dispersos como agrupados, tiene la ventaja de no
ser afectado por observaciones extremas, que en la mayor parte de los casos siempre se encuentran
sobre el 𝐷? o bajo el 𝐷$ . 𝐾% , se encuentra dividido por el factor 1,9 el rango intercuartílico, que es la
distancia que existe teóricamente entre los deciles 9 y 1l en la curva ideal estandarizada.

Coeficiente de Curtosis de Fisher: Es el indicador de curtosis más usado, que se basa en el cuarto
momento de la distribución de los datos, se encuentra definido para datos dispersos y agrupados por:

) )
(𝑥! − 𝑥)3
𝑚3 = ) 𝑚3 = ) 𝑓! (𝑚! − 𝑥)3
𝑛
!#$ !#$

Para evitar la influencia de las unidades, esta medida se estandariza, de la siguiente forma:

𝑚3
𝛼3 = −3
𝑆C3

En su cálculo poblacional, basta con el reemplazo de los indicadores muestrales por sus respectivas
medidas poblacionales. El punto de comparación teórico de estos indicadores es el cero, pues en
distribuciones absolutamente mesocúrticas todos los indicadores resultan ser cero, mientras que, si el
indicador es negativo o positivo, se dice que la curtosis es platicurtica o leptocúrtica. Sin embargo, en
la práctica en el análisis de datos reales, nunca se obtienen coeficientes cero, por lo cual es bueno
recomendar un intervalo en torno al cual se aceptará la distribución de datos como mesocúrtica.

Aplicación 17: Para los datos de ventas de aparatos eléctricos: 5-8-8-11-11-11-14-16. Donde el
primer y noveno decil, junto con el primer y tercer cuartil están dados por: 5,16 ,8 y 12.5 unidades,
respectivamente.

Considerando que estos datos mensuales de venta son la población estadística de interés, se determina

𝐷? − 𝐷$ 16 − 5
𝐾% = −1= − 1 = 0.29. 𝑚3 = 257,31. ⇒ . 𝛼3 = −0.83
1,9 × (𝑄$ − 𝑄% ) 1,9 × (12,5 − 8)
Ingeniería en Mantenimiento Industrial
Curso de Estadística
Departamento de Ciencias
UTFSM – Sede de Viña del Mar

Luego, si consideramos 𝐾% , la distribución se podría considerar mesocúrtica, sin embargo, si usamos


𝑚3 muestra una clara tendencia platicurtica. Esto se debe que 𝐾% , a perdido información al resumir
datos, por esta razón el 𝑚3 es un coeficiente más confiable en establecer el tipo de curtosis de los
datos.

Aplicación 18: Para los datos agrupados de la tabla (tiempos de espera), la media aritmética es
48.4 segundos, además, se obtienen los siguientes resultados.

fi mi mi – x (mi – x )4 fi (mi – x )4
0,009 14,7 -33,7 1289791,78 11608,13
0,034 23,3 -25,1. 396912,60 13495,03
0,094 31,9 -16,5 74120,06 6967,29
0,188 40,5 -7,9. 3895,01 732,26
0,333 49,1 0,7 0,24 0,08
0,256 57,7 9,3. 7480,52 1915,01
0,086 66,3 17,9 102662,57 8828,98
Total 43546,78
Utilizando las medidas calculadas anteriormente

𝑄$ = 41,4 [𝑠𝑒𝑔]
𝑄8 = 56,5 [𝑠𝑒𝑔]
𝐷$ = 32,8 [𝑠𝑒𝑔]
𝐷? = 70,1 [𝑠𝑒𝑔]
Por lo tanto, se tiene que

𝐾% = 0,30 𝑚3 = 43546,78 ⇒ . 𝛼3 = 0,08

También podría gustarte