Está en la página 1de 29

Datos atípicos

En ocasiones una muestra puede contener algunos puntos que son


mucho más grandes o pequeños que los otros datos, estos se deben
examinar siempre y cualquiera de ellos que se encuentre es resultado
de un error que se debe corregir o eliminar.

Aunque no todos los datos atípicos son errores. A veces una población
podría contener algunos valores que son muy diferentes del
resto y los datos atípicos en la muestra reflejan este hecho.
Estadística muestral y parámetros poblacionales

Los resúmenes numéricos de una muestra se llaman estadísticos,


mientras que los resúmenes numéricos de una población se llaman
parámetros

Los métodos para calcular los estadísticos de la muestra requieren que la muestra
sea finita. Por tanto, cuando una población contiene un número infinito de
valores, los métodos para calcular los estadísticos de una muestra no se pueden
aplicar para calcular los parámetros de una población.

Para poblaciones infinitas, los parámetros como la media y la varianza


se calculan con procedimientos que generalizan los métodos usados para calcular
las estadísticas de una muestra y que implican sumas infinitas o integrales.
Diagrama de tallo y hojas

Constituye una
manera simple de
resumir un conjunto
de datos permite
obtener
simultáneamente
una distribución de
frecuencias de la
variable y su
representación
gráfica
Diagrama de tallo y hojas
• Cada dato se divide en un tallo y una
hoja

Ejemplo:

56

Tallo 5 Hoja 6

243

Tallo 23 Hoja 3

324.35

Tallo 324 Hoja 32


Diagrama de tallo y hojas
Los datos de la tabla tratan del géiser Old Faithful
en el parque nacional Yellowstone. Este géiser
alterna periodos de erupción, que duran
normalmente de 1.5 a cuatro minutos, con
espacios de tiempo de inactividad, que son
considerablemente más grandes. La tabla
presenta la duración, en minutos, de 60 periodos
de inactividad. La lista se presenta en orden
numérico.
Diagrama de tallo y hojas
En Excel

Tallos Hojas Para los datos de géiser podemos


ver que relativamente hay pocas
4 2 5 9 duraciones en el intervalo
5 0 1 1 1 1 3 3 5 5 6 6 7 8 60-69 minutos, comparado con los
6 0 6 7 7 8 9 intervalos 50-59, 70-79 u 80-89
minutos.
7 0 1 2 3 3 4 5 5 5 5 6 6 6 6 6 9 9
8 0 0 0 0 1 2 2 2 3 3 4 4 4 5 6 6 6 8
9 0 1 3
Diagrama de tallo y hojas

Tallos Hojas Para los datos de géiser podemos


ver que relativamente hay pocas
4 2 5 9 duraciones en el intervalo
5 0 1 1 1 1 3 3 5 5 6 6 7 8 60-69 minutos, comparado con los
6 0 6 7 7 8 9 intervalos 50-59, 70-79 u 80-89
minutos.
7 0 1 2 3 3 4 5 5 5 5 6 6 6 6 6 9 9
8 0 0 0 0 1 2 2 2 3 3 4 4 4 5 6 6 6 8
9 0 1 3
Cuartiles

Los cuartiles son los tres valores que dividen un


conjunto de datos ordenados en cuatro partes
porcentualmente iguales
Cálculo con datos no agrupados
Dada una serie No hay uniformidad sobre su cálculo. En la bibliografía se
de valores X1,X2,X3 ...Xn ordenados en encuentran hasta cinco métodos que dan resultados
forma creciente, podemos pensar que diferentes.2​ Uno de los métodos es el siguiente: dados n
su cálculo podría efectuarse: datos ordenados,
•Primer cuartil (Q1) como
la mediana de la primera mitad de
valores;
•Segundo cuartil (Q2) como la propia
mediana de la serie;
•Tercer cuartil (Q3) como la mediana
de la segunda mitad de valores.
Cuartiles

𝑅𝑎𝑛𝑔𝑜 𝑖𝑛𝑡𝑒𝑟𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝑄3 − 𝑄1
Cuartiles
Para datos no agrupados. Para datos agrupados.
Cuartiles
Ejemplo para datos no agrupados.

1
8
8
7
5
6
8
5
4
3
4
Cuartiles
Ejemplo para datos no agrupados-par.

52 53 57 62 64 65 66 68
70 70 71 71 72 75 77 78
78 82 82 83 83 84 85 86
90 91 92 94 96 101 102 102
Cuartiles
Ejemplo para datos no agrupados.
52 53 57 62 64 65 66 68
70 70 71 71 72 75 77 78
78 82 82 83 83 84 85 86
90 91 92 94 96 101 102 102
Cuartiles
Ejemplo para datos no agrupados-par.
52 53 57 62 64 65 66 68
70 70 71 71 72 75 77 78
78 82 82 83 83 84 85 86
90 91 92 94 96 101 102 102
Cuartiles
Ejemplo para datos agrupados.
Cuartiles
Ejemplo para datos agrupados.
Cuartiles
Ejemplo para datos agrupados.
Cuartiles
Ejemplo para datos agrupados.
Diagrama de caja-Boxplot
Constituye una gráfica que incluye la mediana, el
primero y el tercer cuartil y cualquier dato atípico
que se presente en una muestra.
Los cuartiles son los tres valores de la
variable que dividen a un conjunto de
datos ordenados en cuatro partes
iguales.

Q1, Q2 y Q3 determinan los valores


correspondientes al 25%, al 50% y al
75% de los datos.

Q2 coincide con la mediana.


Diagrama de caja-Boxplot

El rango Inter cuartil


es la diferencia entre el tercer y el primer cuartil

Describe tanto características de


dispersión como de simetría.
Diagrama de caja-Boxplot
Diagrama de caja-Boxplot

Pasos para la construcción de un diagrama de caja


• Calcule la mediana, el primero y tercer cuartil de la muestra. Indique éstos con
líneas horizontales. Dibuje líneas verticales para completar la caja.

• Encuentre el valor de la muestra más grande que no esté a más de 1.5 IQR arriba
del tercer cuartil y el valor de la muestra más pequeño que no esté a más de 1.5
IQR debajo del primer cuartil. Extienda líneas verticales (“bigotes”) desde las
líneas de los cuartiles a estos puntos.

• Puntos a más de 1.5 IQR arriba del tercer cuartil, o a más de 1.5 IQR por debajo
del primer cuartil, se denominan datos atípicos. Dibuje cada dato atípico por
separado.
Diagrama de caja-Boxplot

Ejemplo

Se tienen los siguientes datos sobre la glucosa en mg/dl


60 68 74 94 92 93

75 110 82 69 87 85

62 68 65 100 150 35

102 98 66 74 70
Diagrama de caja-Boxplot
Diagrama de pareto

El Diagrama de Pareto constituye un sencillo y gráfico método de análisis que


permite diagrama de Pareto discriminar entre las causas más importantes de un
problema (los pocos y vitales) y las que lo son menos (los muchos y triviales).

El 80% de las consecuencias de un fenómeno es causado por el 20% de las


causas

Las ventajas del Diagrama de Pareto pueden resumirse en:

• Permite centrarse en los aspectos cuya mejora tendrá más impacto,


optimizando por tanto los esfuerzos.
• Proporciona una visión simple y rápida de la importancia relativa de los
problemas.
• Ayuda a evitar que se empeoren algunas causas al tratar de solucionar otras y
ser resueltas.
• Su visión gráfica del análisis es fácil de comprender y estimula al equipo para
continuar con la mejora
Diagrama de pareto
Diagrama de pareto
La empresa "CLASIC-PLAST" que fabrica tubos PVC a partir de material reciclado, hace una inspección del
producto final, mediante el cual se desea analizar cuáles son los defectos más frecuentes que aparecen en los
tubos al salir dela línea de producción; para esto se empezara a clasificar todos los defectos posibles en sus
diversos tipos:

TIPO DE DEFECTO DETALLE DEL PROBLEMA


Mal color El tubo no tiene el color adecuado
Mal porcentaje de pigmentosLas proporciones de pigmentos en la mezcla para el tubo no es la indicada
Deficiencia de la maquinaria La máquina no prende constantemente por la falta de mantenimiento
Fuera de Medida La medida del tubo es mayor a la admitida
Mal terminación Aparición de rebabas (impurezas) que está presente en el interior del tubo
Desbalanceo El tubo requiere contrapesos adecuados
Rotura El tubo se quiebra durante la instalación
Aplastamiento El tubo se quiebra durante la instalación
Luego de haber hecho una lista de los defectos que presenta el tubo al momento de salir de la línea de
producción se procede posteriormente a decidir que un inspector revise cada tubo de PVC a medida que sale de
producción registrando así sus defectos de acuerdo con dichos tipos. Después de inspeccionar 94 tubos, al
finalizar la jornada; se obtiene una tabla como esta:
Diagrama de pareto

TIPO DE DEFECTO FRECUENCIA

Aplastamiento 40

Rotura 35

Fuera de medida 8

Mal color 3

Mal porcentaje de
3
pigmentos

Mala terminación 2

Deficiencia de máquinas 2

Desbalanceo 1

TOTAL 94
Diagrama de pareto

También podría gustarte