Está en la página 1de 48

DESCARTO DE DATOS

Cómo determina si un valor es realmente un valor


atípico y cómo decide si debe continuar o no con el
análisis de datos?
Uno de los problemas en el análisis de datos es manejar
los valores atípicos dentro de un grupo de datos.
Un valor atípico es una observación con un valor que no
parece corresponderse con el resto de los valores en el
grupo de datos.

Por lo general surgen dos preguntas:


1) ¿Es este valor realmente un valor atípico?
2) ¿Puedo eliminar este valor y continuar con el análisis
de datos?
DATOS ATIPICOS
Con respecto a la pregunta 2, debe saberse que
las pruebas estadísticas se utilizan para
identificar valores atípicos, no para retirarlos del
grupo de datos.
Técnicamente, una observación no debe
retirarse a menos que una investigación halle
una causa probable para justificar esta acción.
DATOS ATIPICOS

Si en la investigación no se encuentra una causa


probable, ¿qué debe hacerse?
Un enfoque sería realizar un análisis de datos con el
valor atípico y sin él. Si las conclusiones son diferentes,
entonces se considera que el valor atípico tiene
influencia y esto debería indicarse en el informe.
Otra opción es utilizar estimadores rigurosos para
caracterizar los grupos de datos, tal como la mediana
de la muestra en lugar de la media.
RECHAZO DE DATOS
• Dos de las pruebas estadísticas utilizadas con
mayor frecuencia en un grupo de datos son la
prueba de Dixon y la prueba de Grubbs.
• La prueba de Dixon utiliza relaciones de las
diferencias entre datos que parecen atípicos
comparados con los valores del grupo de
datos.
RECHAZO DE DATOS
• Estas técnicas están diseñadas para detectar un
único valor atípico en un grupo de datos, y por lo
tanto no son adecuadas para la detección de
múltiples valores atípicos.
• Una técnica rigurosa y amplia para identificar
eficazmente múltiples valores atípicos es el
procedimiento para muchos valores atípicos con
generalización extrema de la desviación de Student.
DIXON
Por ejemplo, tomemos los datos 5.3, 3.1, 4.9,
3.9, 7.8, 4.7 y 4.3
Ordenando los datos:
3.1, 3.9, 4.3, 4.7, 4.9, 5.3, 7.8

El tamaño de la muestra es 7, y la relación utilizada es el espacio entre el


valor atípico (7.8) y su vecino más próximo (5.3) dividido por el espacio
entre los valores más grandes y más pequeños en el grupo.
Por lo tanto, el índice de Dixon es:
(7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532
RECHAZO DE DATOS
Este valor se compara con un valor crítico de una tabla, y
el valor se declara valor atípico si supera ese valor
crítico.
Si Dcalculado>Dtabulado se rechaza el dato

El valor tabulado depende del tamaño de la muestra, n,


y de un nivel de confianza elegido, que es el riesgo de
rechazar una observación válida. La tabla por lo general
utiliza niveles de baja confianza tal como 1% o 5%.
Para un n = 7 y un riesgo del 5%, el valor en la tabla es
0.507. El índice de Dixon 0.532 excede este valor crítico,
indicando que el valor 7.8 es un valor atípico.
DIXON
La prueba de Dixon se usa en un número pequeño de
observaciones (menor a 26) y detecta elementos que
se encuentren sesgados o que son extremos.

Para aplicar la prueba de Dixon se requiere de un


número de observaciones igual o mayor a 10. En
el caso que las observaciones sean menores a 10
se utiliza como valor esperado el valor de
preparación.
GRUBBS
La prueba de Grubbs utiliza una estadística de
prueba, T, que es la diferencia absoluta entre el
valor atípico, XO, y el promedio de la muestra
(X) dividida por la desviación estándar de la
muestra, s.
Para el ejemplo anterior, el promedio de la
muestra es = 4.86 y la desviación estándar de
la muestra es = 1.48. La estadística calculada de
la prueba es:
GRUBBS

Para un n = 7 y un riesgo del 5%, el valor


tabulado es 1.938 y el TCalculado = 1.99 excede
este valor crítico, indicando que el valor 7.8 es
un valor atípico.
TEST DE GRUBB PARA DATOS
SOSPECHOSOS
Recomendado por las normas ISO

T= Valor Sospechoso – ˉX
S
(Con el valor sospechoso incluido)

Si T calculada > T tabulada el valor sospechoso se rechaza


TEST Q DE DATOS SOSPECHOSOS
Aceptar o rechazar un resultado anómalo (outlier)
Normalmente se producen al cometer errores o fallos en la
metodología aplicada.

Se ordenan los datos en forma creciente y se calcula Q


Q = desvío = Diferencia entre el dato sospechosos y su vecino más cercano
recorrido Diferencia numérica entre el dato de mayor valor y el de menor valor

Si Qcalculada > Qtabulada el dato se rechaza


Ejemplo:
Al efectuar una serie de réplicas para determinar la
concentración del ión sulfato en una muestra de agua para
riego se obtuvieron los siguientes resultados. Determinar si la
medida 6.0 es un valor rechazable.

Medida Valor 1. Se ordenan los datos en orden de valor


1 5.0 decreciente
2 5.2 6.0, 5.6, 5.5, 5.2, 5.0
3 5.5 2. Se calcula Q
4 5.6 Q= (6.0-5.6)/ (6.0-5.0) =0.40
5 6.0 3. Se compara Q calculado con Q tabulado
para 5 medidas y un nivel de confianza del 90.
Qtab=0.64
0.40<0.64, luego el valor 6.0 no es rechazable
DESCARTE DE DATOS
• EJEMPLO
• 4 Resultados de N de una solución fueron
0.1014, 0.1012, 0.1019, 0.1016. Se podrá
descartar 0.1019?
• X sin el 0.1019 = 0.1014
0.1019-0.01014 =0.0005
• Q = 0.1019 - 0.1016 =0.43
0.1019 – 0.1012
• 0.43 es menor que 0.76. NO SE DESCARTA
PRESENTACION DE LOS DATOS CALCULADOS

• Un indicador de la calidad de los datos es la


utilización de las cifras significativas.
• Cifras significativas: Son todos los dígitos que
se conocen con certeza y el primer digito
incierto. Por ejemplo 30.24 tiene 4 cifras
significativas (4, el ultimo digito, es incierto)
PRESENTACION DE LOS DATOS
CALCULADOS
• El cero puede ser significativo o no según su
ubicación en el numero. Un cero rodeado por
otros dígitos siempre es significativo.
• Los ceros al final pueden o no ser
significativos. 2.0 tiene dos cifras significativas.
2000 tiene una cifra significativa. 2x103 tiene
una.
PRESENTACION DE LOS DATOS
CALCULADOS
• Para las sumas y las restas el resultado debe tener
el mismo numero de decimales que el numero que
tiene menos decimales.
• Cuando se suman o restan números con notación
científica se debe expresar el resultado en la misma
potencia de 10.
• En la multiplicación y la división se debe expresar el
resultado con las cifras significativas del numero
que tenga menor cifras significativas.
PRESENTACION DE LOS DATOS
CALCULADOS
• Redondeo de datos:
• Se debe aproximar al numero mayor si el ultimo es
mayor de 5 y al menor si el ultimo es menor de 5.
• 61.555 se aproxima al numero par mas cercano .
Queda 61.56
• De todas maneras el resultado debe expresarse con
la desviación estándar calculada.
Propagación de errores aleatorios
Propagación de errores aleatorios
• En cualquier experimento se debe predecir la
reproducibilidad que se puede esperar en el resultado final
que se ha calculado a partir de dos o más medidas
independientes, cada una de las cuales tiene asociada un
dado error aleatorio. La forma en la que estos errores
aleatorios individuales afecta al resultado final depende del
tipo de cálculo.

• 1) Adición y sustracción
• En adiciones y/o sustracciones, la incertidumbre esperada en
el resultado se obtiene de la raíz cuadrada de los cuadrados
de los errores absolutos asociados a cada lectura. Ejemplo:
• 1.76 (±0.03) ←⎯ e1
• + 1.89 (±0.02) ←⎯ e2
• - 0.59 (±0.02) ←⎯ e3
• 3.06 (± ? )
• El resultado aritmético de 1.76+1.89-0.59 = 3.06.
Suponiendo que los errores absolutos en las
mediciones son las indicadas entre paréntesis en
cada caso, la incertidumbre asociada al resultado
(e4) será:

• La incertidumbre absoluta asociada al resultado


de la suma algebraica es ±0.04, y el resultado
puede expresarse como 3.06 ±0.04.
2) Multiplicación y División

• Cuando en el resultado final intervienen


multiplicaciones y/o divisiones, se propagan
los errores relativos. La incertidumbre en el
resultado se calcula como sigue:
• Ejemplo:

• Los errores absolutos (indicados entre paréntesis)


deberán primero transformarse en relativos (eri),
luego se estima er4 según la ecuación.
• er1 = 0.02/1.54 = 0.0130
• er2 = 0.04/3.82 = 0.0105
• er3 = 0.03/1.23 = 0.0244
• La incertidumbre absoluta en el dato
calculado será = 0.0296 x 4.78 = 0.141. El
resultado final se expresa como 4.8 ± 0.1.
Notar que no es conveniente redondear el
resultado hasta que los cálculos se hayan
terminado. Recién en el resultado final
deberán considerarse las cifras significativas,
es decir, conservar sólo los dígitos que sean
significativos en el resultado obtenido.
CORRELACION LINEAL
y = 1.9304x + 1.5179

También podría gustarte