Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Identificacion de Valores Atipicos
Identificacion de Valores Atipicos
4/25/2007
Gender
(gnero)
Male
Male
Female
Female
Male
Male
Female
Male
Female
Male
Male
Male
Male
Female
Female
Male
Male
Female
Male
Male
Heart Rate
(ritmo cardiaco)
84
82
65
71
78
72
79
68
64
67
78
78
75
73
77
75
71
72
80
75
Ingreso de Datos
Los datos a analizar consisten de una sola columna numrica con n = 2 o ms observaciones.
Grfica de Aberrantes
Un buen lugar para comenzar cuando se considera la posibilidad de que una muestra de n
observaciones contiene uno o ms valores atpicos es el Grfico de Aberrantes.
Grfica de Aberrantes con Lmites Sigma
Media de la muestra = 98.2492, desviacin estd. = 0.733183
103
4
3
2
1
0
-1
-2
-3
-4
Temperature
101
99
97
95
0
30
60
90
120
150
Nmero de fila
Este grfico muestra cada valor de los datos junto con lneas horizontales en la media muestral
ms y menos 1, 2, 3, y 4 desviaciones estndar. Puntos ms all de 3 sigma, de los cuales hay
uno en el grfico anterior, se considera que son valores atpicos potenciales y dignos de
investigacin adicional.
2006 por StatPoint, Inc.
0.733183
0.74129
0.714878
0.708916
Estimados de Localizacin
Se proporcionan cuatro estadsticas que estiman el centro o localizacin de la poblacin de la
cual fueron muestreados los datos, incluyendo:
1. Media muestral la media aritmtica de la muestra.
2. Mediana muestral el centro o valor medio de la muestra.
3. Media recortada el valor promedio despus de eliminar un porcentaje especfico de las
observaciones menores y mayores.
4. Media Winsorizada el valor promedio despus de sustituir un porcentaje especfico de
las observaciones menores y mayores con los valores ms extremos no incluidos dentro
de ese porcentaje.
Si los datos provienen de una distribucin normal, cada una de las cuatro estadsticas estima la
media poblacional . Sin embargo, las 3 ltimas estadsticas son menos sensibles a la posible
presencia de valores atpicos que la media muestral ordinaria. En el presente ejemplo, hay muy
poca diferencia entre las estimaciones. Aunque no siempre es se el caso.
Estimados de Escala
Tambin hay cuatro estimados de la dispersin de los datos, cada uno de los cuales estima la
desviacin estndar siempre que los datos provengan de una distribucin:
1. Desviacin estndar muestral la desviacin estndar usual.
2006 por StatPoint, Inc.
Intervalos de Confianza
Se presentan intervalos de confianza para la media basados en las usuales media y desviacin
estndar muestrales y tambin usando las estadsticas Winsorizadas. El hecho de que los
intervalos sean tan prximos implica que los valores atpicos no son un gran problema en estos
datos.
Valores Extremos
La seccin media de la tabla muestra las 5 observaciones mayores y las 5 menores en los datos:
Valores Ordenados
Valores Estudentizados
Fila
Valor
Sin Supresin
95
96.3
-2.65859
55
96.4
-2.52219
23
96.7
-2.11302
30
96.7
-2.11302
73
96.8
-1.97663
...
99
99.4
1.56955
13
99.5
1.70594
97
99.9
2.25151
120
100.0
2.3879
15
100.8
3.47903
Valores Estudentizados
Con Supresin
-2.74567
-2.59723
-2.15912
-2.15912
-2.01521
Modificados
Valor-Z MAD
-2.698
-2.5631
-2.1584
-2.1584
-2.0235
1.59096
1.7323
2.30628
2.45231
3.67021
1.4839
1.6188
2.1584
2.2933
3.3725
Las tres columnas de la derecha muestran valores estandarizados o Puntajes Z que pueden
ayudar a identificar valores atpicos. Cada estadstica mide a cuntas desviaciones estndar estn
los valores de los datos del centro de los datos.
Valores Estudentizados Sin Supresin usando la media y la desviacin estndar
muestrales, cada valor de los datos es estandarizado por
ti =
xi x
s
(1)
Estos valores miden el nmero de desviaciones estndar a las que cada valor se encuentra
de la media muestral y corresponde a la escala del eje de la derecha del grfico de valores
atpicos. La prueba de Grubbs, descrita ms adelante, est basada en el valor
Estudentizado ms extremo, que en este caso es igual a 3.479.
ti =
xi x[ i ]
(2)
s[ i ]
Estos valores miden el nmero de desviaciones estndar a las que cada valor se encuentra
de la media muestral cuando ese valor de los datos no se incluye en la muestra. Esto es
similar al clculo de los residuos Estudentizados con supresin empleados en los
procedimientos de regresin. La importancia de eliminar cada observacin antes de
estandarizarla es que un fuerte valor atpico, particularmente en una muestra pequea,
puede tener un impacto tan grande en la media y desviacin estndar muestrales que no
parezca ser inusual (atpico).
Valor Z MAD Modificado - cada valor de los datos es estandarizado por
Mi =
x)
0.6745( xi ~
MAD
(3)
T=
2
n(n 2)t max
2
(n 1) 2 nt max
(4)
r=
x( n ) x( n 1)
(5)
x( n ) x( 2)
r=
x( 2 ) x(1)
(6)
x ( n 1) x(1)
r=
x( n ) x( n 2)
(7)
x( n ) x( 2)
r=
x (3) x(1)
(8)
x ( n 1) x(1)
x( n ) x( n 1) x( 2 ) x(1)
r = max
,
x( n ) x(1) x( n ) x(1)
(9)
El estadstico calculado r se compara entonces con valores crticos en tablas tales como el
Apndice A.3 de Iglewicz y Hoaglin (1993). Para cada prueba, STATGRAPHICS indica si el
resultado es o no estadsticamente significativo a los niveles de 5% y 1%. Un resultado
significativo indica la presencia de la situacin hipottica.
Por ejemplo, eligiendo arbitrariamente las primeras 30 filas del archivo de datos, se muestra la
siguiente tabla:
Prueba al 5%
Significativo
No sig.
Significativo
No sig.
Significativo
Prueba al 1%
No sig.
No sig.
Significativo
No sig.
No sig.
Exclusin de Aberrantes
Los valores de los datos que se determina que son aberrantes pueden ser excluidos grficamente
haciendo clic, con el ratn, sobre los puntos en el Grfico de Aberrantes y luego clic en el botn
Excluir/Inclir en la barra de herramientas del anlisis.
4
3
2
1
0
-1
-2
-3
-4
Temperature
101
99
97
95
0
30
60
90
Nmero de fila
120
150
Los puntos excluidos se marcarn con una X y todas las estadsticas a todo lo largo del
procedimiento se recalcularn sin esos datos. Por ejemplo, la Prueba de Grubbs muestra ahora
un Valor de P muy insignificante para los valores ms extremos en los datos restantes:
Prueba de Grubbs' (asume normalidad)
Estadstico de prueba = 2.75487
Valor-P = 0.676064
Resumen Estadstico
La ventana del Resumen Estadstico calcula un nmero de diferentes estadsticas que
comnmente se usan para resumir una muestra de n observaciones:
Resumen Estadstico para Temperature
Recuento
130
Promedio
98.2492
Desviacin estndar
0.733183
Coef. de variacin
0.746248%
Mnimo
96.3
Mximo
100.8
Rango
4.5
Rango inercuartlico
0.9
Curtosis estandarizada
1.81642
Las estadsticas incluidas por omisin en la tabla se controlan por las definiciones de
configuracin en la ventana Estadsticas de la caja de dilogo Preferencias. Dentro del
procedimiento, se puede cambiar la seleccin usando la Ventana de Opciones. De particular
inters aqu son el sesgo y la curtosis estandarizados. Ambas estadsticas deben estar entre 2 y
+2 si los datos provienen de una distribucin normal. Ya que este es un supuesto de la prueba
para valores atpicos, debera revisar estos valores despus de excluir los valores atpicos.
96
97
98
99
100
101
Temperature
Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el
cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los
datos cuando se ordenan de menor a mayor.
Los bigotes se dibujan desde los extremos de la caja hasta los valores mnimo y
mximo de los datos, a menos que haya valores inusualmente muy alejados de la caja
(a los cuales Tukey llama puntos extremos). Los puntos extremos, que son puntos a
Pruebas de Normalidad
En la ventana Pruebas de Normalidad se realizan varias pruebas formales para normalidad y se
presentan los resultados.
Pruebas de Normalidad
Prueba
Chi-Cuadrado
Estadstico W de Shapiro-Wilk
Puntuacin Z para asimetra
Puntuacin Z para curtosis
Estadstico
54.0154
0.986473
0.0151112
1.64492
Valor-P
0.000424234
0.821435
0.987938
0.0999861
Pequeos valores de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%)
conducen al rechazo de la hiptesis de normalidad.
Las cuatro pruebas, cuyos detalles de dan en la documentacin de Ajuste de Distribuciones
(Datos No Censurados), son las siguientes:
Valor Z para el Sesgo realiza una prueba basada en el sesgo estimado en los datos.
Valor Z para la Curtosis realiza una prueba basada en la curtosis estimada en los
datos.
Excepto por la prueba de chi-cuadrada, cuyo comportamiento puede ser explicado por el hecho
de que los datos se redondearon a la dcima de grado ms cercana, no hay evidencia para
rechazar la hiptesis de que las temperaturas corporales siguen una distribucin normal.
Opciones de Ventana
porcentaje
95
80
50
20
5
1
0.1
96
97
98
99
Temperature
100
101
El eje vertical se escala de tal manera que, si los datos provienen de una distribucin normal, los
puntos debern caer aproximadamente a lo largo de una lnea recta. Para construir el grfico, los
puntos se grafican en las coordenadas
j 0.375
x( j ) , 1
n + 0.25
(10)
= median muestral
= rango intercuartlico / 1.35
2. Ajustando una regresin por mnimos cuadrados de los cuantiles normales de los
valores de los datos ordenados.
= - intercepto / pendiente
(13)
= 1 / pendiente
(14)
Lnea Ajustada: el mtodo usado para ajustar la lnea de referencia a los datos. Si es Usando
Cuartiles, la lnea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente
determinada a partir del rango intercuartlico. Si es Usando Mnimos Cuadrados, la lnea se
ajusta con la regresin por mnimos cuadrados de los cuantiles normales de las estadsticas de
orden. El primer mtodo basado en los cuartiles da ms peso a la forma de los datos cerca del
centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no
seran evidentes usando el mtodo de mnimos cuadrados.
Salvar Resultados
El botn Salvar Resultados en la barra de herramientas permite que se puedan salvar los
siguientes resultados en la hoja de datos:
1. Datos Winsorizados los datos despus de la winsorizacin. El porcentaje
especificado de los valores menores y mayores habr sido reemplazado con los valores
ms extremos no recortados.
2. Banderitas de seleccin una columna que contiene un 0 para los valores que haya
excluido del anlisis manualmente usando la caracterstica Excluir en el Grfica de
Aberrantes, y un 1 para todos los dems valores. En otros procedimientos, ingrese el
nombre de esta columna en el campo Seleccin para excluir del anlisis automticamente
los mismos valores.
3. Valores Estudentizados (sin supresin) los valores estandarizados de los datos
basados en estadsticas muestrales para todos las observaciones.
4. Valores Estudentizados (con supresin) los datos estandarizados basados en la media
y la desviacin estndar calculadas despus de eliminar la observacin.
(15)
T ( ) =
donde
r = n
n r 1
1
(
)
k
x
x
x(i )
+
+
( r +1)
( nr )
n(1 2 )
i =r +2
(16)
k = 1 ( n r ) .
1 nr
x (i ) + r x( r +1) + x( n r )
n i = r +1
TW =
(17)
Sbi
2
S bi =
ui =
i =1
(18)
(1 u )(1 5u )
n
i =1
donde
n ( xi ~
x ) 1 u i2
2
i
2
i
xi ~
x
9 DAM
(19)
Sigma Winsorizada
SW =
nr
2
2
2
n (x (i ) TW ) + r (x( r +1) TW ) + (x( n r ) TW )
i = r +1
(n 2r )(n 2r 1)
(20)
TW t n 2 r 1, / 2
SW
n
(21)