Está en la página 1de 35

Lección 3:

Calidad de datos
Población y muestra

En la práctica estadística, uno se interesa por una variable cuantitativa


definida sobre los individuos de una población. La muestra es un
subconjunto de la población, correspondiendo a los individuos para los
cuales se midió dicha variable.

Como se desconoce los valores de todos los individuos de la población, se


utiliza el formalismo de las variables aleatorias para realizar inducción
estadística, es decir, para estimar los parámetros de la población (media,
varianza, etc.) a partir de la información de la muestra. Específicamente, se
supone que los valores en la población o en la muestra son realizaciones
independientes de una misma variable aleatoria X.
Población y muestra

Preguntas planteadas

• ¿Es la muestra representativa de la población?

• ¿Son los datos de la muestra confiables? Pueden existir valores aberrantes,


mediciones sesgadas o de mala precisión.

• ¿Cómo se propagan los errores de medición en una o varias variables a través de


los cálculos que se hacen?
Representatividad
de la muestra

Para que la inducción estadística sea juiciosa, se debe plantear algunas


hipótesis sobre cómo ha sido realizado el muestreo. Éste debe corresponder
a un muestreo probabilístico, donde cada individuo de la población tiene la
misma oportunidad de ser incluido en la muestra (principio de
equiprobabilidad).
Representatividad
de la muestra
Ejemplos de muestreos probabilísticos

• Muestreo aleatorio simple (uniforme)


Representatividad
de la muestra

• Muestreo sistemático o regular: los individuos son seleccionados a intervalos


constantes de tiempo, orden o espacio, partiendo con una fecha o una posición
escogida al azar
Representatividad
de la muestra

• Muestreo aleatorio estratificado: se divide la población en varios estratos,


luego se escoge al azar un número proporcional de individuos en cada estrato
Representatividad
de la muestra
Ejemplos de muestreos no probabilísticos

• Muestreo casual, incidental o fortuito: se selecciona directa e


intencionadamente los individuos de la población (individuos de más fácil
acceso, voluntarios, etc.)

• Muestreo por juicio por selección experta: el investigador selecciona los


individuos que a él le parecen representativos o típicos de la población

• Muestreo por cuotas o accidental: basado en un buen conocimiento de la


población y/o de los individuos más “adecuados” para los fines de la
investigación, se fijan unas cuotas consistentes en un número de individuos
que reúnen determinadas condiciones, luego se eligen los primeros que se
encuentren que cumplan esas condiciones.
Representatividad
de la muestra

• Muestreo aleatorio no uniforme

• Muestreo preferencial
Representatividad
de la muestra
Errores en datos

Datos atípicos

Datos con valores extremos afectan considerablemente las estadísticas


básicas y generan problemas al aplicar regresión o construir modelos
predictivos. Podrían ser datos erróneos o aberrantes (outliers), debido a una
falla accidental del sistema de medición.
Errores en datos

Estos datos “atípicos” se pueden detectar con herramientas gráficas como


los histogramas o las nubes de correlación.
Errores en datos

Alternativas para el manejo de datos atípicos

• Declarar los valores extremos como erróneos y eliminarlos. Esto es válido


sólo si se ha comprobado que están errados; en caso de ser datos verdaderos,
los “outliers” pueden proveer información crítica.
• Clasificarlos en poblaciones estadísticas separadas.
• Usar estadísticas robustas, que son menos sensibles a los valores extremos
• Transformar los datos para reducir la influencia de los datos extremos
• Bajarlos a un máximo “razonable”.
Errores en datos

Nociones de precisión y exactitud

• La precisión mide la dispersión de una medición y puede expresarse bajo


la forma de una desviación estándar (o de una varianza). Una baja
precisión implica incertidumbre y reduce la confianza que uno tiene en
una medición.

• La exactitud mide la desviación de la medición con respecto al resultado


correcto. Mediciones inexactas implican la existencia de sesgos (errores
sistemáticos), debidos a errores instrumentales, muestreos no
representativos, equivocaciones, etc.
Errores en datos
Errores en datos

Las propiedades ideales de un sistema de medición son no tener sesgo (ser


exacto) ni variación (ser preciso). En la práctica, esto no se realiza
perfectamente: toda medición posee incertidumbre, o sea, un error.

Los efectos de una medición errónea o deficiente son, entre otros:


• análisis y conclusiones pobres o dudosas
• entrega de un producto o servicio no conforme etiquetado como conforme
• evaluación de la capacidad de un proceso satisfactorio, como insatisfactorio
Exactitud / sesgo

Estimación de la exactitud

Supongamos que se tiene n mediciones (X1,... Xn) de una misma variable X.


Para estimar la exactitud de estas mediciones, se debe tener además un valor de
referencia X0 (valor “estándar”). Se tiene:

∀i ∈ {1,...n}, X i = X 0 + ε i

donde εi es el error asociado a la i-ésima medición Xi. El sesgo corresponde al


error esperado y se puede estimar por:

1 n
ε = ∑ Xi − X0
n i =1
Si no existe error sistemático, el sesgo es próximo a 0. En este caso, el sistema
de medición se ve como exacto.
Exactitud / sesgo

Un sistema inexacto o sesgado podría producir mediciones sistemáticamente


bajo o sobre el verdadero valor y, por lo tanto, un error promedio de las
mediciones significativamente diferente de 0. A menudo, la inexactitud se debe
a:

• piezas desgatadas del instrumento de medición


• instrumento dimensionalmente inadecuado
• dispositivos de medición calibrados incorrectamente o fuera de calibración
• instrumento utilizado incorrectamente, debido a un entrenamiento inadecuado
en el propio uso de los dispositivos
• contaminación del sistema de medición
Exactitud / sesgo

Ejercicio: se utiliza un instrumento para realizar 30 mediciones de una unidad


de referencia de 5 mm de ancho, obteniéndose los siguientes datos:

5.05 5.06 5.08 5.06 4.91 4.91 4.91 4.97 4.83 4.89
4.94 4.86 4.89 4.88 4.97 4.93 5.00 4.99 4.88 4.95
4.86 4.95 5.03 5.10 4.93 5.06 4.96 4.96 4.96 4.93

Se desea saber si el sistema de medición está sesgado o no.


Exactitud / sesgo

A veces, la exactitud de la medición varía dentro del rango de operación del


instrumento. Para evaluar esta variación (supuestamente lineal), se debe:

• tomar varias partes que cubran el rango de operación y medirlas con un


instrumento patrón
• medir cada parte varias veces por un mismo operador con el instrumento de
medición
• en cada parte, obtener el promedio de las mediciones y restarlo del valor de
referencias obtenido en dicha parte (sesgo promedio de cada parte)
• ajustar una recta de regresión (sesgo promedio vs. medición de referencia)
• ver si la pendiente de la regresión es significativamente distinta de 0
(típicamente, mayor a 0.1 o menor a -0.1)
Exactitud / sesgo

Ejercicio: un operador mide 5 piezas con un instrumento patrón y mide 12


veces cada pieza con el sistema de medición. Los datos son los siguientes:
pieza referencia = 10 referencia = 12 referencia = 15 referencia = 17 referencia = 20
1 10.34 12.32 15.21 17.02 19.34
2 10.25 12.12 15.10 16.57 19.45
3 10.75 11.97 15.32 16.64 19.52
4 10.53 11.86 14.86 17.03 19.83
5 10.07 12.19 14.95 16.76 19.48
6 10.18 12.08 15.13 16.48 19.59
7 10.06 12.15 15.12 16.38 19.41
8 10.59 11.89 15.04 17.01 19.63
9 10.48 11.78 14.87 16.58 19.48
10 10.12 12.15 14.76 16.93 19.25
11 10.62 12.18 15.04 17.15 19.16
12 10.24 12.31 15.21 16.74 19.32

Se desea saber si el sistema de medición está sesgado o no y si el sesgo varía en


el rango de operación.
Precisión

Estimación de la precisión
La precisión se puede estimar al replicar la medición (suponiendo que se
mide la misma magnitud bajo las mismas condiciones) y calcular la
desviación estándar o la varianza de los valores medidos.
Precisión

Componentes de la precisión
La variabilidad observada se debe, en parte, a la variabilidad del proceso y,
en parte, a la variabilidad inherente en el sistema de medición. Asumiendo
que el error de medición es independiente de la variable medida, se tiene:

2
σtotal = σ 2proceso + σ 2medición

A su vez, la dispersión de los errores de medición puede expresarse como el


efecto combinado de errores de repetibilidad y reproducibilidad:

σ 2medición = σ 2repetibilidad + σ 2reproducibilidad


Precisión

Repetibilidad

Es la variación de las mediciones obtenidas con un mismo instrumento, usado


varias veces por un mismo operador en condiciones absolutamente idénticas. Se
puede asimilar a un error instrumental.

Reproducibilidad

Es la variación en el promedio de las mediciones obtenidas por distintos


operadores, reflejando la inhabilidad de un operador para coincidir con los
resultados de otros operadores. Se puede asimilar a un error de operador.
Precisión

Estimación de las componentes de la precisión

Experimento A: 1 operador, varias mediciones. Este experimento es sólo de


repetibilidad. Si existe un efecto de operadores, tal experimento subestimará la
varianza del error de medición y, por lo tanto, la varianza de precisión.

Experimento B: varios operadores, 1 medición por operador. Este experimento


es sólo de reproducibilidad. Si la repetibilidad es significativa, tal experimento
subestimará la varianza del error de medición.

Experimento C: varios operadores, varias mediciones por operador. Este


experimento es el más popular, pues permite la estimación de repetibilidad y
reproducibilidad. Una técnica utilizada para ello es el análisis de varianza.
Precisión

Para reducir el error, se puede repetir la medición y promediar los resultados.


Por ejemplo, si cada operador realiza dos mediciones con cada instrumento y
promedia ambas mediciones, se reduce el error de repetibilidad a la mitad:

σ 2repetibilidad
σ 2total = σ 2proceso + σ 2reproducibilidad +
2

En cambio, al promediar las mediciones obtenidas por dos operadores distintos


que usan instrumentos distintos, se obtendría una reducción de la varianza en
las componentes de repetibilidad y reproducibilidad:

σ 2reproducibilidad + σ 2repetibilidad
σ 2total = σ 2proceso +
2
Precisión

Si el objetivo es comparar dos instrumentos distintos, sería mejor pedir que


cada operador haga una medición del proceso con cada instrumento y calcular
la diferencia entre las dos mediciones efectuadas por cada operador. La
varianza de esta diferencia sería

2σ 2repetibilidad

y se cancelarían los errores correspondientes a reproducibilidad y proceso. Al


contrario, si las dos mediciones fueran realizadas por operadores distintos, la
varianza de su diferencia sería mayor (lo que aumentaría el riesgo de equivocar
la conclusión):

2(σ 2repetibilidad + σ 2reproducibilidad )


Precisión

Propagación de errores

Es importante saber cómo los errores se propagan a través de los cálculos que
uno realiza. Por ejemplo, si un valor z es la suma (o la diferencia) de dos
valores (x,y) independientes cuyos errores son pequeños, entonces el error en z
es:

δz = δx + δy

En términos de varianzas de las mediciones, se tiene:

σ 2z = σ 2x + σ 2y
Precisión

En el caso donde z es una combinación lineal de varias variables independientes:

n
z = ∑ ai xi
i =1

se tendrá

n
σ = ∑ ai2 σ 2xi
2
z
i =1

Observar que son las varianzas las que se suman, no las desviaciones
estándares.
Precisión

Más generalmente, la propagación de un error a través de una función


puede ser determinada usando las derivadas parciales de esta función:

∂f ∂f
z = f ( x, y ) δz ≈ δx + δy
∂x ∂y

(válido para errores pequeños). En términos de varianzas:

2 2
 ∂f   ∂f 
σ 2z ≈   σ 2x +   σ 2y
 ∂x   ∂y 
Precisión

Ejemplo 1

Si f(x,y) = x + y o f(x,y) = x – y, entonces var{ f ( x, y )} = σ 2x + σ 2y

en términos de desviaciones estándar: σ f ( x , y ) = σ 2x + σ 2y

más generalmente σ f ( x , y ,z ,...) = σ 2x + σ 2y + σ 2z + ...


Precisión

Ejemplo 2
2 2
Si f(x,y) = x y o f(x,y) = x / y, entonces var{ f ( x , y )} σ x
σ y
= +
f 2 ( x, y ) x2 y 2

2
en términos de desviaciones estándar:
σ f ( x, y ) σ 2x σ y
= 2+ 2
f ( x, y ) x y

2
σ 2x σ y σ 2z
σ f ( x , y ,z ,...)
más generalmente = 2 + 2 + 2 + ...
f ( x, y, z ,...) x y z
Ejercicios

1) El flujo F de alimentación a un hidrociclón se mide en 170 m3/h, con un


flujometro cuya precisión (desviación estándar) es de 1% del valor
medido. El flujo del underflow (U) se mide en 40 m3/h al cronometrar el
tiempo de llenado de un pequeño pozo, con una precisión esperada del
10% del valor medido. El flujo del overflow (O) se calcula entonces en
170 – 40 = 130 m3/h. ¿Cuál es la precisión de esta estimación?

2) Se mide dos flujos (x1 = 100 m3/h, x2 = 200 m3/h) con flujometros cuyos
límites de tolerancia (3σ) son definidos por el fabricante como el 1% del
valor medido. ¿Cuál es el límite de tolerancia del flujo total Q = x1 + x2?
Ejercicios

3) El concentrado de un mes de producción se midió en T = 10 000 t y su ley


media estimada por ensayos es de Z = 30% Cu. La humedad se estimó en
W = 6%. Suponiendo que cada dato (T,Z,W) no tiene sesgo y tiene un error
(desviación estándar) de un 1% del valor medido, ¿cuál sería el error y un
intervalo de confianza para la cantidad de metal en el concentrado?

4) En el proceso de flotación, las densidades de la pulpa mineral (ρp) y de los


sólidos finos (ρs) satisfacen la fórmula
ρ s (ρ p − 1)
CW =
ρ p (ρ s − 1)

en donde CW es la concentración (en masa) de sólidos en la pulpa. Se tiene


las siguientes mediciones: ρp = 1.15 y ρs = 2.65. Considerando que el error
máximo en las mediciones es de 0.02, ¿cuál es el error máximo en CW?
Ejercicios
5) El muestreo de material particulado consiste en una sucesión de etapas de
selección (extracción de una muestra desde un lote) y preparación
(conminución). Por ejemplo, considerando los detritos de un pozo de
tronadura (1 tonelada) del cual se quiere caracterizar la ley de cobre:
• se selecciona una muestra primaria de 20 kg
• se muele los fragmentos a 0.3 cm de diámetro
• se selecciona una muestra secundaria de 1 kg
• se pulveriza los fragmentos a 100 µm de diámetro
• se selecciona una muestra terciaria de 1 g para análisis químico de
ley de cobre

La teoría del muestreo de Pierre Gy permite cuantificar el error relativo en


la ley de cobre en las etapas de selección, mediante la fórmula del “error
fundamental”. Suponiendo que la desviación estándar de estos errores
relativos sea de 0.05, 0.03 y 0.02 en la selección de las muestras primarias,
secundarias y terciarias, respectivamente, ¿cuál es la desviación estándar
del error relativo total del protocolo de muestreo?

También podría gustarte