Homogeneidad de los errores. Datos atípicos.

Un dato atípico (outlier) es un registro mayor o menor de lo esperado que se detecta por tener un residuo que es un valor “inusual”, muy grande o muy pequeño en relación con la distribución asociada a los residuos. Dado que los residuos estandarizados rit son una muestra aleatoria de una distribución N(0,1), se verifica que aproximadamente un 68% de los rit deben estar entre -1 y 1, y alrededor del 95% entre -2 y 2 y prácticamente todos entre -3 y 3. Por ello, un residuo estandarizado que diste más de 3 o 4 unidades del 0 (∣r it∣>3 ) se correponde, potencialmente, con una observación atípica. Para chequear la existencia de observaciones atípicas se pueden utilizar diferentes gráficos: el histograma de los rit, el diagrama de cajas múltiple de losrit por niveles del factor tratamiento como se observa en la Figura 1. o el diagrama de dispersión de los puntos {i , r it } .

Figura 1. Gráfico de cajas múltiple de los residuos estandarizados frente al factor. Contrastes no paramétricos acerca de la hipótesis de no existencia de datos atípicos son los siguientes. Contrastes de valores atípicos Cuando el tamaño muestral es moderado (no mayor de 20) y se sospecha la presencia de una única observación atípica, un contraste bastante utilizado se basa en calcular el siguiente estadístico que está tabulado: Qn = max = max

como mucho habrá un dato atípico (quizá el 12). o se espera que pueda haber más de un dato atípico. En otro caso. Utilizando como distribución aproximada del coeficiente de curtosis estandarizado la de una N(0. y se acepta la hipótesis de no existencia de datos atípicos. delatan ausencia de normalidad. por el contrario. 40. 25. 46. 7. Contrastar la hipótesis de que la muestra es homogénea. se calcula qn: El punto crítico. Si. . 42. 50. Se ha tomado la siguiente muestra de la misma: 12. La Figura 2. 33. “Las cuotas de disco ocupado (en Mbytes) para distintos usuarios de una estación de trabajo son: 35. la observación atípica se denomina influyente. Si el estadístico es significativamente mayor que el punto crítico de la normal se admitirá la presencia valores atípicos. Se calcula el CAp = -0'4786 y su estandarizado: CApS = -0'437. la observación puede mantenerse. las conclusiones se modifican drásticamente. heterocedasticidad o una incorrecta especificación del modelo. Una vez que se ha identificado la presencia de una observación atípica. se debe usar la aproximación por una normal de media cero y varianza 24/n. Además. 55. En esta figura se observan dos anomalías relativas. En base a ella. 3. 47. 8. 45. es conveniente repetir el análisis estadístico sin la observación atípica y examinar las nuevas conclusiones. 40. 50.” Solución. En ocasiones las observaciones atípicas son fruto de errores concretos en el proceso de recogida de los datos. Ejemplo 2. Por un lado. en caso contrario. la distribución de este estadístico está tabulada. resulta más adecuado usar el contraste basado en el coeficiente de apuntamiento muestral. En este punto. Si el tamaño muestral es medio o grande. la décima observación genera un residuo de valor -2'77. otras veces. 30. 47. 49. Ejemplo 3. 46.Ejemplo 1. “El número diario de operaciones a corazón abierto en un hospital es una variable aleatoria. lo que constituye bastante más que el 68% esperado. para α = 0'05. Este coeficiente aumenta notablemente al introducir alguna observación muestral que provenga de una distribución de mayor varianza que la del resto de variables de la muestra. Si dichas conclusiones son semejantes a las obtenidas con ella.1). contrastar la homogeneidad de dicha muestra”. el p-valor = 0'67. 2. el experimentador debe enjuiciar si es posible su aparición por un error experimental (eliminarlo) o si tal observación podría volver a aparecer (buscar modelos más complejos). en cambio. se debe investigar su procedencia y si se concluye que se ha generado por errores en el muestreo se debe eliminar. 42. Dado que n = 6. 5. 45. Se ha realizado un experimento para estudiar el rendimiento de las pilas en función del tipo de pila. 31. muestra la nube de residuos estandarizados que se obtuvo inicialmente con este experimento. es 1'89 y se acepta la hipótesis de no existencia de datos atípicos. 35. Solución. Cuando no existen valores atípicos y el tamaño muestral es moderado o pequeño. la totalidad de residuos procedentes de los otros tres tipos de pilas se encuentran entre -1 y 1.

Figura 4. Ambas anomalías desaparecen ahora. Subsanado el error se repitió el ajuste del modelo y los nuevos residuos estandarizados se muestran en la Figura 3.3.Un análisis del origen de la décima observación reveló un error en el registro. . Figura 2. Diagrama de dispersión de los residuos. Ya no se detectan observaciones atípicas. los residuos (globalmente) son algo mayores pero la varianza residual es más pequeña. Se había introducido en el ordenador una duración de 285 minutos cuando en la hoja de anotaciones figuraba una duración de 585 minutos. Gráfico de dispersión una vez que se corrigió el error.

Sign up to vote on this title
UsefulNot useful