Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4/25/2007
Anlisis de Subconjuntos
Resumen
El procedimiento de Anlisis de Subconjuntos calcular estadsticos para datos en una simple
columna numrica cuando se agrupan en subconjuntos definidos por los identificadores en una
segunda columna. El procedimiento tambin graficar las estadsticas por grupo.
Muestra de Datos:
El archivo 93cars.sf3 contiene informacin de 26 variables para n = 93 fabricantes y modelos de
automviles, tomados de Lock (1993). La tabla de abajo muestra una lista parcial de 4 columnas
de ese archivo:
Captura de Datos
Los datos a ser analizados consisten de una nica columna numrica que contiene n = 2 o ms
observaciones y una columna con identificadores que definen cmo deberan de agruparse los
datos.
Cdigos: columna numrica o no numrica que contiene los identificadores de grupo. Las
estadsticas de resumen sern calculados para cada valor nico en esta columna.
Etiquetas: columna opcional con etiquetas para cada grupo. Si son proporcionadas, las
etiquetas sern asignadas a los grupos de acuerdo con el orden numrico o alfabtico de los
identificadores en la columna Cdigos.
Nmero de observaciones: 93
Nmero de niveles: 6
Diagrama de Dispersin
50
45
MPG Highway
40
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Si existen puntos sobrepuestos significativos debido a valores de datos iguales, los puntos
pueden ser separados al presionar el botn Separar Puntos en la barra de herramientas del
anlisis:
Diagrama de Dispersin
50
MPG Highway 45
40
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Estadsticas de Resumen
El cuadro Estadsticas de Resumen muestra varios estadsticos para las observaciones en cada
grupo:
Estadsticas de Resumen
Datos/Variable: MPG Highway
Desviacin Error
Type Recuento Promedio Estndar Estndar Mnimo Mximo Rango
Compact 16 29.875 2.94109 0.735272 26.0 36.0 10.0
Large 11 26.7273 1.27208 0.383546 25.0 28.0 3.0
Midsize 22 26.7273 2.51058 0.535258 22.0 31.0 9.0
Small 21 35.4762 5.60909 1.224 29.0 50.0 21.0
Sporty 14 28.7857 3.64119 0.973148 24.0 36.0 12.0
Van 9 21.8889 1.45297 0.484322 20.0 24.0 4.0
Total 93 29.086 5.33173 0.552874 20.0 50.0 30.0
Notar que el promedio ms alto por galn corresponde a los carros pequeos, mientras que las
camionetas muestran el menor ahorro de combustible.
2005 by StatPoint, Inc. Subset Analysis - 4
STATGRAPHICS Rev. 4/25/2007
Cuadro de Opciones
Compact
Large
Midsize
Type
Small
Sporty
Van
20 25 30 35 40 45 50
MPG Highway
Se dibuja una caja es dibujada que se extiende desde el cuartil inferior del grupo hasta
el cuartil superior. Este es el intervalo cubierto por la mitad, el 50% de los valores de
los datos cuando se ordenan del ms pequeo al ms grande.
Se dibuja una lnea vertical en la mediana del grupo (el valor de en medio).
Los bigotes son dibujados de las orillas de la caja hasta los valores ms grandes y ms
pequeos de los datos, a menos que existan valores atpicamente lejos de la caja (los
cuales Tukey llama puntos extremos). Los puntos extremos son aquellos puntos con
ms de 1.5 veces el rango intercuartlico (la amplitud de la caja) por arriba o por
debajo de la caja y estn indicados como smbolos puntuales. Cualquier punto ms de
3 veces el rango intercuartlico arriba o debajo de la caja se llama punto extremo
lejano y se indica como smbolo de punto con un signo de suma escrito encima del
punto. Si los puntos extremos estn presentes, los bigotes se dibujan hasta el valor
ms pequeo y ms grande de los datos los cuales no son los puntos extremos.
Para los carros pequeos, hay un punto extremo y un punto extremo lejano. El punto extremo
lejano corresponde a Geo Metro el cual registr 50 millas por galn en el manejo en vas.
Opciones de Cuadro
Compact
Large
Midsize
Type
Small
Sporty
Van
20 25 30 35 40 45 50
MPG Highway
1.25 IQR j
xj
~ z 1 + 1 (1)
1.35 n /2 2
j
Donde IQRj es el rango intercuartlico de la muestra para el j-simo grupo, nj es el tamao del
grupo y z/2 es el valor crtico superior (/2)% de una distribucin normal estndar .
En la grfica de arriba, el corte para las Vans est completamente abajo del corte para cualquier
otro grupo, lo que implica que las vans son significativamente diferentes en comparacin con los
otros vehculos. Para algunos grupos, los cortes parecen doblarse hacia atrs de s mismos. Esto
sucede cuando el corte es tan grande que se extiende ms all del final de la caja.
Tabla de Medias
La Tabla de Medias muestra las medias del grupo calculadas, sus errores estndares e intervalos.
Dependiendo de las especificaciones en el Cuadro de Opciones, los intervalos pueden ser ya sea
intervalos de error estndar dados por:
sj
x j t / 2,n j 1 (3)
nj
Cuadro de Opciones
Grfica de Medias
La Grfica de Medias muestra las medias del grupo junto con las barras de error estndar o
lmites de confianza.
45
40
Media
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Las barras verticales se extienden por arriba y por debajo de las medias del grupo.
Cuadro de Opciones
Grficar: seleccione Puntos para graficar smbolos de puntos en cada grupo de medias y
Lneas para conectar las medias con una lnea slida.
Mostrar Valores: seleccionar esta opcin para graficar los valores de datos individuales a la
izquierda de las medias del grupo.
50
45
40
Mediana
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Cuadro de Opciones
Graficar: seleccione Puntos para graficar smbolos de puntos en cada estadstico de grupo y
Lneas para conectar las estadsticas con una lnea slida.
Guardar Resultados
Los siguientes resultados pueden ser guardados de regreso a las columnas de la hoja de base de
datos: