03 Calidad de Datos PDF

Lección 3:
Calidad de datos
Población y muestra
En la práctica estadística, uno se interesa por una variable cuantitativa

definida sobre los individuos de una población. La muestra es un
subconjunto de la población, correspondiendo a los individuos para los
cuales se midió dicha variable.
Como se desconoce los valores de todos los individuos de la población, se

utiliza el formalismo de las variables aleatorias para realizar inducción
estadística, es decir, para estimar los parámetros de la población (media,
varianza, etc.) a partir de la información de la muestra. Específicamente, se
supone que los valores en la población o en la muestra son realizaciones
independientes de una misma variable aleatoria X.
Población y muestra
Preguntas planteadas
• ¿Es la muestra representativa de la población?
• ¿Son los datos de la muestra confiables? Pueden existir valores aberrantes,

mediciones sesgadas o de mala precisión.
• ¿Cómo se propagan los errores de medición en una o varias variables a través de

los cálculos que se hacen?
Representatividad
de la muestra
Para que la inducción estadística sea juiciosa, se debe plantear algunas

hipótesis sobre cómo ha sido realizado el muestreo. Éste debe corresponder
a un muestreo probabilístico, donde cada individuo de la población tiene la
misma oportunidad de ser incluido en la muestra (principio de
equiprobabilidad).
Representatividad
de la muestra
Ejemplos de muestreos probabilísticos
• Muestreo aleatorio simple (uniforme)

Representatividad
de la muestra
• Muestreo sistemático o regular: los individuos son seleccionados a intervalos

constantes de tiempo, orden o espacio, partiendo con una fecha o una posición
escogida al azar
Representatividad
de la muestra
• Muestreo aleatorio estratificado: se divide la población en varios estratos,

luego se escoge al azar un número proporcional de individuos en cada estrato
Representatividad
de la muestra
Ejemplos de muestreos no probabilísticos
• Muestreo casual, incidental o fortuito: se selecciona directa e

intencionadamente los individuos de la población (individuos de más fácil
acceso, voluntarios, etc.)
• Muestreo por juicio por selección experta: el investigador selecciona los

individuos que a él le parecen representativos o típicos de la población
• Muestreo por cuotas o accidental: basado en un buen conocimiento de la

población y/o de los individuos más “adecuados” para los fines de la
investigación, se fijan unas cuotas consistentes en un número de individuos
que reúnen determinadas condiciones, luego se eligen los primeros que se
encuentren que cumplan esas condiciones.
Representatividad
de la muestra
• Muestreo aleatorio no uniforme
• Muestreo preferencial
Representatividad
de la muestra
Errores en datos
Datos atípicos
Datos con valores extremos afectan considerablemente las estadísticas

básicas y generan problemas al aplicar regresión o construir modelos
predictivos. Podrían ser datos erróneos o aberrantes (outliers), debido a una
falla accidental del sistema de medición.
Errores en datos
Estos datos “atípicos” se pueden detectar con herramientas gráficas como

los histogramas o las nubes de correlación.
Errores en datos
Alternativas para el manejo de datos atípicos
• Declarar los valores extremos como erróneos y eliminarlos. Esto es válido

sólo si se ha comprobado que están errados; en caso de ser datos verdaderos,
los “outliers” pueden proveer información crítica.
• Clasificarlos en poblaciones estadísticas separadas.
• Usar estadísticas robustas, que son menos sensibles a los valores extremos
• Transformar los datos para reducir la influencia de los datos extremos
• Bajarlos a un máximo “razonable”.
Errores en datos
Nociones de precisión y exactitud
• La precisión mide la dispersión de una medición y puede expresarse bajo

la forma de una desviación estándar (o de una varianza). Una baja
precisión implica incertidumbre y reduce la confianza que uno tiene en
una medición.
• La exactitud mide la desviación de la medición con respecto al resultado

correcto. Mediciones inexactas implican la existencia de sesgos (errores
sistemáticos), debidos a errores instrumentales, muestreos no
representativos, equivocaciones, etc.
Errores en datos
Errores en datos
Las propiedades ideales de un sistema de medición son no tener sesgo (ser

exacto) ni variación (ser preciso). En la práctica, esto no se realiza
perfectamente: toda medición posee incertidumbre, o sea, un error.
Los efectos de una medición errónea o deficiente son, entre otros:

• análisis y conclusiones pobres o dudosas
• entrega de un producto o servicio no conforme etiquetado como conforme
• evaluación de la capacidad de un proceso satisfactorio, como insatisfactorio
Exactitud / sesgo
Estimación de la exactitud
Supongamos que se tiene n mediciones (X1,... Xn) de una misma variable X.

Para estimar la exactitud de estas mediciones, se debe tener además un valor de
referencia X0 (valor “estándar”). Se tiene:
∀i ∈ {1,...n}, X i = X 0 + ε i
donde εi es el error asociado a la i-ésima medición Xi. El sesgo corresponde al

error esperado y se puede estimar por:
1 n
ε = ∑ Xi − X0
n i =1
Si no existe error sistemático, el sesgo es próximo a 0. En este caso, el sistema
de medición se ve como exacto.
Exactitud / sesgo
Un sistema inexacto o sesgado podría producir mediciones sistemáticamente

bajo o sobre el verdadero valor y, por lo tanto, un error promedio de las
mediciones significativamente diferente de 0. A menudo, la inexactitud se debe
a:
• piezas desgatadas del instrumento de medición

• instrumento dimensionalmente inadecuado
• dispositivos de medición calibrados incorrectamente o fuera de calibración
• instrumento utilizado incorrectamente, debido a un entrenamiento inadecuado
en el propio uso de los dispositivos
• contaminación del sistema de medición
Exactitud / sesgo
Ejercicio: se utiliza un instrumento para realizar 30 mediciones de una unidad

de referencia de 5 mm de ancho, obteniéndose los siguientes datos:
5.05 5.06 5.08 5.06 4.91 4.91 4.91 4.97 4.83 4.89
4.94 4.86 4.89 4.88 4.97 4.93 5.00 4.99 4.88 4.95
4.86 4.95 5.03 5.10 4.93 5.06 4.96 4.96 4.96 4.93
Se desea saber si el sistema de medición está sesgado o no.

Exactitud / sesgo
A veces, la exactitud de la medición varía dentro del rango de operación del

instrumento. Para evaluar esta variación (supuestamente lineal), se debe:
• tomar varias partes que cubran el rango de operación y medirlas con un

instrumento patrón
• medir cada parte varias veces por un mismo operador con el instrumento de
medición
• en cada parte, obtener el promedio de las mediciones y restarlo del valor de
referencias obtenido en dicha parte (sesgo promedio de cada parte)
• ajustar una recta de regresión (sesgo promedio vs. medición de referencia)
• ver si la pendiente de la regresión es significativamente distinta de 0
(típicamente, mayor a 0.1 o menor a -0.1)
Exactitud / sesgo
Ejercicio: un operador mide 5 piezas con un instrumento patrón y mide 12

veces cada pieza con el sistema de medición. Los datos son los siguientes:
pieza referencia = 10 referencia = 12 referencia = 15 referencia = 17 referencia = 20
1 10.34 12.32 15.21 17.02 19.34
2 10.25 12.12 15.10 16.57 19.45
3 10.75 11.97 15.32 16.64 19.52
4 10.53 11.86 14.86 17.03 19.83
5 10.07 12.19 14.95 16.76 19.48
6 10.18 12.08 15.13 16.48 19.59
7 10.06 12.15 15.12 16.38 19.41
8 10.59 11.89 15.04 17.01 19.63
9 10.48 11.78 14.87 16.58 19.48
10 10.12 12.15 14.76 16.93 19.25
11 10.62 12.18 15.04 17.15 19.16
12 10.24 12.31 15.21 16.74 19.32
Se desea saber si el sistema de medición está sesgado o no y si el sesgo varía en

el rango de operación.
Precisión
Estimación de la precisión
La precisión se puede estimar al replicar la medición (suponiendo que se
mide la misma magnitud bajo las mismas condiciones) y calcular la
desviación estándar o la varianza de los valores medidos.
Precisión
Componentes de la precisión
La variabilidad observada se debe, en parte, a la variabilidad del proceso y,
en parte, a la variabilidad inherente en el sistema de medición. Asumiendo
que el error de medición es independiente de la variable medida, se tiene:
2
σtotal = σ 2proceso + σ 2medición
A su vez, la dispersión de los errores de medición puede expresarse como el

efecto combinado de errores de repetibilidad y reproducibilidad:
σ 2medición = σ 2repetibilidad + σ 2reproducibilidad

Precisión
Repetibilidad
Es la variación de las mediciones obtenidas con un mismo instrumento, usado

varias veces por un mismo operador en condiciones absolutamente idénticas. Se
puede asimilar a un error instrumental.
Reproducibilidad
Es la variación en el promedio de las mediciones obtenidas por distintos

operadores, reflejando la inhabilidad de un operador para coincidir con los
resultados de otros operadores. Se puede asimilar a un error de operador.
Precisión
Estimación de las componentes de la precisión
Experimento A: 1 operador, varias mediciones. Este experimento es sólo de

repetibilidad. Si existe un efecto de operadores, tal experimento subestimará la
varianza del error de medición y, por lo tanto, la varianza de precisión.
Experimento B: varios operadores, 1 medición por operador. Este experimento

es sólo de reproducibilidad. Si la repetibilidad es significativa, tal experimento
subestimará la varianza del error de medición.
Experimento C: varios operadores, varias mediciones por operador. Este

experimento es el más popular, pues permite la estimación de repetibilidad y
reproducibilidad. Una técnica utilizada para ello es el análisis de varianza.
Precisión
Para reducir el error, se puede repetir la medición y promediar los resultados.

Por ejemplo, si cada operador realiza dos mediciones con cada instrumento y
promedia ambas mediciones, se reduce el error de repetibilidad a la mitad:
σ 2repetibilidad
σ 2total = σ 2proceso + σ 2reproducibilidad +
2
En cambio, al promediar las mediciones obtenidas por dos operadores distintos

que usan instrumentos distintos, se obtendría una reducción de la varianza en
las componentes de repetibilidad y reproducibilidad:
σ 2reproducibilidad + σ 2repetibilidad
σ 2total = σ 2proceso +
2
Precisión
Si el objetivo es comparar dos instrumentos distintos, sería mejor pedir que

cada operador haga una medición del proceso con cada instrumento y calcular
la diferencia entre las dos mediciones efectuadas por cada operador. La
varianza de esta diferencia sería
2σ 2repetibilidad
y se cancelarían los errores correspondientes a reproducibilidad y proceso. Al

contrario, si las dos mediciones fueran realizadas por operadores distintos, la
varianza de su diferencia sería mayor (lo que aumentaría el riesgo de equivocar
la conclusión):
2(σ 2repetibilidad + σ 2reproducibilidad )

Precisión
Propagación de errores
Es importante saber cómo los errores se propagan a través de los cálculos que
uno realiza. Por ejemplo, si un valor z es la suma (o la diferencia) de dos
valores (x,y) independientes cuyos errores son pequeños, entonces el error en z
es:
δz = δx + δy
En términos de varianzas de las mediciones, se tiene:
σ 2z = σ 2x + σ 2y
Precisión
En el caso donde z es una combinación lineal de varias variables independientes:
n
z = ∑ ai xi
i =1
se tendrá
n
σ = ∑ ai2 σ 2xi
2
z
i =1
Observar que son las varianzas las que se suman, no las desviaciones
estándares.
Precisión
Más generalmente, la propagación de un error a través de una función

puede ser determinada usando las derivadas parciales de esta función:
∂f ∂f
z = f ( x, y ) δz ≈ δx + δy
∂x ∂y
(válido para errores pequeños). En términos de varianzas:
2 2
 ∂f   ∂f 
σ 2z ≈   σ 2x +   σ 2y
 ∂x   ∂y 
Precisión
Ejemplo 1
Si f(x,y) = x + y o f(x,y) = x – y, entonces var{ f ( x, y )} = σ 2x + σ 2y
en términos de desviaciones estándar: σ f ( x , y ) = σ 2x + σ 2y
más generalmente σ f ( x , y ,z ,...) = σ 2x + σ 2y + σ 2z + ...

Precisión
Ejemplo 2
2 2
Si f(x,y) = x y o f(x,y) = x / y, entonces var{ f ( x , y )} σ x
σ y
= +
f 2 ( x, y ) x2 y 2
2
en términos de desviaciones estándar:
σ f ( x, y ) σ 2x σ y
= 2+ 2
f ( x, y ) x y
2
σ 2x σ y σ 2z
σ f ( x , y ,z ,...)
más generalmente = 2 + 2 + 2 + ...
f ( x, y, z ,...) x y z
Ejercicios
1) El flujo F de alimentación a un hidrociclón se mide en 170 m3/h, con un

flujometro cuya precisión (desviación estándar) es de 1% del valor
medido. El flujo del underflow (U) se mide en 40 m3/h al cronometrar el
tiempo de llenado de un pequeño pozo, con una precisión esperada del
10% del valor medido. El flujo del overflow (O) se calcula entonces en
170 – 40 = 130 m3/h. ¿Cuál es la precisión de esta estimación?
2) Se mide dos flujos (x1 = 100 m3/h, x2 = 200 m3/h) con flujometros cuyos
límites de tolerancia (3σ) son definidos por el fabricante como el 1% del
valor medido. ¿Cuál es el límite de tolerancia del flujo total Q = x1 + x2?
Ejercicios
3) El concentrado de un mes de producción se midió en T = 10 000 t y su ley

media estimada por ensayos es de Z = 30% Cu. La humedad se estimó en
W = 6%. Suponiendo que cada dato (T,Z,W) no tiene sesgo y tiene un error
(desviación estándar) de un 1% del valor medido, ¿cuál sería el error y un
intervalo de confianza para la cantidad de metal en el concentrado?
4) En el proceso de flotación, las densidades de la pulpa mineral (ρp) y de los

sólidos finos (ρs) satisfacen la fórmula
ρ s (ρ p − 1)
CW =
ρ p (ρ s − 1)
en donde CW es la concentración (en masa) de sólidos en la pulpa. Se tiene

las siguientes mediciones: ρp = 1.15 y ρs = 2.65. Considerando que el error
máximo en las mediciones es de 0.02, ¿cuál es el error máximo en CW?
Ejercicios
5) El muestreo de material particulado consiste en una sucesión de etapas de
selección (extracción de una muestra desde un lote) y preparación
(conminución). Por ejemplo, considerando los detritos de un pozo de
tronadura (1 tonelada) del cual se quiere caracterizar la ley de cobre:
• se selecciona una muestra primaria de 20 kg
• se muele los fragmentos a 0.3 cm de diámetro
• se selecciona una muestra secundaria de 1 kg
• se pulveriza los fragmentos a 100 µm de diámetro
• se selecciona una muestra terciaria de 1 g para análisis químico de
ley de cobre
La teoría del muestreo de Pierre Gy permite cuantificar el error relativo en

la ley de cobre en las etapas de selección, mediante la fórmula del “error
fundamental”. Suponiendo que la desviación estándar de estos errores
relativos sea de 0.05, 0.03 y 0.02 en la selección de las muestras primarias,
secundarias y terciarias, respectivamente, ¿cuál es la desviación estándar
del error relativo total del protocolo de muestreo?

03 Calidad de Datos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

03 Calidad de Datos PDF

Cargado por

Copyright:

Formatos disponibles

Lección 3:

En la práctica estadística, uno se interesa por una variable cuantitativa

Como se desconoce los valores de todos los individuos de la población, se

• ¿Es la muestra representativa de la población?

• ¿Son los datos de la muestra confiables? Pueden existir valores aberrantes,

• ¿Cómo se propagan los errores de medición en una o varias variables a través de

Para que la inducción estadística sea juiciosa, se debe plantear algunas

• Muestreo aleatorio simple (uniforme)

• Muestreo sistemático o regular: los individuos son seleccionados a intervalos

• Muestreo aleatorio estratificado: se divide la población en varios estratos,

• Muestreo casual, incidental o fortuito: se selecciona directa e

• Muestreo por juicio por selección experta: el investigador selecciona los

• Muestreo por cuotas o accidental: basado en un buen conocimiento de la

• Muestreo aleatorio no uniforme

Datos con valores extremos afectan considerablemente las estadísticas

Estos datos “atípicos” se pueden detectar con herramientas gráficas como

Alternativas para el manejo de datos atípicos

• Declarar los valores extremos como erróneos y eliminarlos. Esto es válido

Nociones de precisión y exactitud

• La precisión mide la dispersión de una medición y puede expresarse bajo

• La exactitud mide la desviación de la medición con respecto al resultado

Las propiedades ideales de un sistema de medición son no tener sesgo (ser

Los efectos de una medición errónea o deficiente son, entre otros:

Supongamos que se tiene n mediciones (X1,... Xn) de una misma variable X.

donde εi es el error asociado a la i-ésima medición Xi. El sesgo corresponde al

Un sistema inexacto o sesgado podría producir mediciones sistemáticamente

• piezas desgatadas del instrumento de medición

Ejercicio: se utiliza un instrumento para realizar 30 mediciones de una unidad

Se desea saber si el sistema de medición está sesgado o no.

A veces, la exactitud de la medición varía dentro del rango de operación del

• tomar varias partes que cubran el rango de operación y medirlas con un

Ejercicio: un operador mide 5 piezas con un instrumento patrón y mide 12

Se desea saber si el sistema de medición está sesgado o no y si el sesgo varía en

A su vez, la dispersión de los errores de medición puede expresarse como el

σ 2medición = σ 2repetibilidad + σ 2reproducibilidad

Es la variación de las mediciones obtenidas con un mismo instrumento, usado

Es la variación en el promedio de las mediciones obtenidas por distintos

Estimación de las componentes de la precisión

Experimento A: 1 operador, varias mediciones. Este experimento es sólo de

Experimento B: varios operadores, 1 medición por operador. Este experimento

Experimento C: varios operadores, varias mediciones por operador. Este

Para reducir el error, se puede repetir la medición y promediar los resultados.

En cambio, al promediar las mediciones obtenidas por dos operadores distintos

Si el objetivo es comparar dos instrumentos distintos, sería mejor pedir que

y se cancelarían los errores correspondientes a reproducibilidad y proceso. Al

2(σ 2repetibilidad + σ 2reproducibilidad )

En términos de varianzas de las mediciones, se tiene:

En el caso donde z es una combinación lineal de varias variables independientes:

Más generalmente, la propagación de un error a través de una función

(válido para errores pequeños). En términos de varianzas:

Si f(x,y) = x + y o f(x,y) = x – y, entonces var{ f ( x, y )} = σ 2x + σ 2y

en términos de desviaciones estándar: σ f ( x , y ) = σ 2x + σ 2y

más generalmente σ f ( x , y ,z ,...) = σ 2x + σ 2y + σ 2z + ...

1) El flujo F de alimentación a un hidrociclón se mide en 170 m3/h, con un

3) El concentrado de un mes de producción se midió en T = 10 000 t y su ley

4) En el proceso de flotación, las densidades de la pulpa mineral (ρp) y de los

en donde CW es la concentración (en masa) de sólidos en la pulpa. Se tiene

La teoría del muestreo de Pierre Gy permite cuantificar el error relativo en

También podría gustarte