P. 1
Homogeneidad de los errores. Datos atípicos.

Homogeneidad de los errores. Datos atípicos.

|Views: 11|Likes:

More info:

Published by: Jose Manuel Masanet García on Jul 15, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/14/2014

pdf

text

original

Homogeneidad de los errores. Datos atípicos.

Un dato atípico (outlier) es un registro mayor o menor de lo esperado que se detecta por tener un residuo que es un valor “inusual”, muy grande o muy pequeño en relación con la distribución asociada a los residuos. Dado que los residuos estandarizados rit son una muestra aleatoria de una distribución N(0,1), se verifica que aproximadamente un 68% de los rit deben estar entre -1 y 1, y alrededor del 95% entre -2 y 2 y prácticamente todos entre -3 y 3. Por ello, un residuo estandarizado que diste más de 3 o 4 unidades del 0 (∣r it∣>3 ) se correponde, potencialmente, con una observación atípica. Para chequear la existencia de observaciones atípicas se pueden utilizar diferentes gráficos: el histograma de los rit, el diagrama de cajas múltiple de losrit por niveles del factor tratamiento como se observa en la Figura 1. o el diagrama de dispersión de los puntos {i , r it } .

Figura 1. Gráfico de cajas múltiple de los residuos estandarizados frente al factor. Contrastes no paramétricos acerca de la hipótesis de no existencia de datos atípicos son los siguientes. Contrastes de valores atípicos Cuando el tamaño muestral es moderado (no mayor de 20) y se sospecha la presencia de una única observación atípica, un contraste bastante utilizado se basa en calcular el siguiente estadístico que está tabulado: Qn = max = max

en cambio. Este coeficiente aumenta notablemente al introducir alguna observación muestral que provenga de una distribución de mayor varianza que la del resto de variables de la muestra. 50. resulta más adecuado usar el contraste basado en el coeficiente de apuntamiento muestral. 31. Por un lado. delatan ausencia de normalidad.1). 2. se debe investigar su procedencia y si se concluye que se ha generado por errores en el muestreo se debe eliminar.” Solución. la observación atípica se denomina influyente. es conveniente repetir el análisis estadístico sin la observación atípica y examinar las nuevas conclusiones. muestra la nube de residuos estandarizados que se obtuvo inicialmente con este experimento. contrastar la homogeneidad de dicha muestra”. Solución. Una vez que se ha identificado la presencia de una observación atípica. . Utilizando como distribución aproximada del coeficiente de curtosis estandarizado la de una N(0. Contrastar la hipótesis de que la muestra es homogénea. 42. el experimentador debe enjuiciar si es posible su aparición por un error experimental (eliminarlo) o si tal observación podría volver a aparecer (buscar modelos más complejos).Ejemplo 1. 50. 55. y se acepta la hipótesis de no existencia de datos atípicos. 47. Ejemplo 2. la totalidad de residuos procedentes de los otros tres tipos de pilas se encuentran entre -1 y 1. Ejemplo 3. 49. En este punto. Cuando no existen valores atípicos y el tamaño muestral es moderado o pequeño. En ocasiones las observaciones atípicas son fruto de errores concretos en el proceso de recogida de los datos. Se calcula el CAp = -0'4786 y su estandarizado: CApS = -0'437. 46. 33. la distribución de este estadístico está tabulada. las conclusiones se modifican drásticamente. es 1'89 y se acepta la hipótesis de no existencia de datos atípicos. Si el tamaño muestral es medio o grande. 5. “El número diario de operaciones a corazón abierto en un hospital es una variable aleatoria. en caso contrario. Si el estadístico es significativamente mayor que el punto crítico de la normal se admitirá la presencia valores atípicos. En esta figura se observan dos anomalías relativas. otras veces. el p-valor = 0'67. para α = 0'05. 30. la décima observación genera un residuo de valor -2'77. 45. Dado que n = 6. “Las cuotas de disco ocupado (en Mbytes) para distintos usuarios de una estación de trabajo son: 35. Se ha tomado la siguiente muestra de la misma: 12. la observación puede mantenerse. 46. se debe usar la aproximación por una normal de media cero y varianza 24/n. heterocedasticidad o una incorrecta especificación del modelo. 25. se calcula qn: El punto crítico. En base a ella. 40. 3. Además. Si dichas conclusiones son semejantes a las obtenidas con ella. 35. o se espera que pueda haber más de un dato atípico. 7. 42. 40. por el contrario. Si. La Figura 2. 8. como mucho habrá un dato atípico (quizá el 12). Se ha realizado un experimento para estudiar el rendimiento de las pilas en función del tipo de pila. 47. 45. lo que constituye bastante más que el 68% esperado. En otro caso.

3. Gráfico de dispersión una vez que se corrigió el error. Se había introducido en el ordenador una duración de 285 minutos cuando en la hoja de anotaciones figuraba una duración de 585 minutos. Diagrama de dispersión de los residuos. Figura 4. Ambas anomalías desaparecen ahora. Figura 2. Subsanado el error se repitió el ajuste del modelo y los nuevos residuos estandarizados se muestran en la Figura 3. .Un análisis del origen de la décima observación reveló un error en el registro. los residuos (globalmente) son algo mayores pero la varianza residual es más pequeña. Ya no se detectan observaciones atípicas.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->