Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Por Subgrupos
Análisis Por Subgrupos
4/25/2007
Análisis de Subconjuntos
Resumen
El procedimiento de Análisis de Subconjuntos calculará estadísticos para datos en una simple
columna numérica cuando se agrupan en subconjuntos definidos por los identificadores en una
segunda columna. El procedimiento también graficará las estadísticas por grupo.
Muestra de Datos:
El archivo 93cars.sf3 contiene información de 26 variables para n = 93 fabricantes y modelos de
automóviles, tomados de Lock (1993). La tabla de abajo muestra una lista parcial de 4 columnas
de ese archivo:
Captura de Datos
Los datos a ser analizados consisten de una única columna numérica que contiene n = 2 o más
observaciones y una columna con identificadores que definen cómo deberían de agruparse los
datos.
• Códigos: columna numérica o no numérica que contiene los identificadores de grupo. Las
estadísticas de resumen serán calculados para cada valor único en esta columna.
• Etiquetas: columna opcional con etiquetas para cada grupo. Si son proporcionadas, las
etiquetas serán asignadas a los grupos de acuerdo con el orden numérico o alfabético de los
identificadores en la columna Códigos.
Número de observaciones: 93
Número de niveles: 6
Diagrama de Dispersión
50
45
MPG Highway
40
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Si existen puntos sobrepuestos significativos debido a valores de datos iguales, los puntos
pueden ser separados al presionar el botón Separar Puntos en la barra de herramientas del
análisis:
Diagrama de Dispersión
50
MPG Highway 45
40
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Estadísticas de Resumen
El cuadro Estadísticas de Resumen muestra varios estadísticos para las observaciones en cada
grupo:
Estadísticas de Resumen
Datos/Variable: MPG Highway
Desviación Error
Type Recuento Promedio Estándar Estándar Mínimo Máximo Rango
Compact 16 29.875 2.94109 0.735272 26.0 36.0 10.0
Large 11 26.7273 1.27208 0.383546 25.0 28.0 3.0
Midsize 22 26.7273 2.51058 0.535258 22.0 31.0 9.0
Small 21 35.4762 5.60909 1.224 29.0 50.0 21.0
Sporty 14 28.7857 3.64119 0.973148 24.0 36.0 12.0
Van 9 21.8889 1.45297 0.484322 20.0 24.0 4.0
Total 93 29.086 5.33173 0.552874 20.0 50.0 30.0
Notar que el promedio más alto por galón corresponde a los carros pequeños, mientras que las
camionetas muestran el menor ahorro de combustible.
© 2005 by StatPoint, Inc. Subset Analysis - 4
STATGRAPHICS – Rev. 4/25/2007
Cuadro de Opciones
Compact
Large
Midsize
Type
Small
Sporty
Van
20 25 30 35 40 45 50
MPG Highway
• Se dibuja una caja es dibujada que se extiende desde el cuartil inferior del grupo hasta
el cuartil superior. Este es el intervalo cubierto por la mitad, el 50% de los valores de
los datos cuando se ordenan del más pequeño al más grande.
• Se dibuja una línea vertical en la mediana del grupo (el valor de en medio).
• Los bigotes son dibujados de las orillas de la caja hasta los valores más grandes y más
pequeños de los datos, a menos que existan valores atípicamente lejos de la caja (los
cuales Tukey llama puntos extremos). Los puntos extremos son aquellos puntos con
más de 1.5 veces el rango intercuartílico (la amplitud de la caja) por arriba o por
debajo de la caja y están indicados como símbolos puntuales. Cualquier punto más de
3 veces el rango intercuartílico arriba o debajo de la caja se llama punto extremo
lejano y se indica como símbolo de punto con un signo de suma escrito encima del
punto. Si los puntos extremos están presentes, los bigotes se dibujan hasta el valor
más pequeño y más grande de los datos los cuales no son los puntos extremos.
Para los carros pequeños, hay un punto extremo y un punto extremo lejano. El punto extremo
lejano corresponde a Geo Metro el cual registró 50 millas por galón en el manejo en vías.
Opciones de Cuadro
Compact
Large
Midsize
Type
Small
Sporty
Van
20 25 30 35 40 45 50
MPG Highway
⎛ 1.25 IQR j ⎞
xj ± ⎜
~ ⎟ z ⎛⎜1 + 1 ⎞⎟ (1)
⎜ 1.35 n ⎟ α /2⎝ 2⎠
⎝ j ⎠
Donde IQRj es el rango intercuartílico de la muestra para el j-ésimo grupo, nj es el tamaño del
grupo y zα/2 es el valor crítico superior (α/2)% de una distribución normal estándar .
En la gráfica de arriba, el corte para las Vans está completamente abajo del corte para cualquier
otro grupo, lo que implica que las vans son significativamente diferentes en comparación con los
otros vehículos. Para algunos grupos, los cortes parecen doblarse hacia atrás de sí mismos. Esto
sucede cuando el corte es tan grande que se extiende más allá del final de la caja.
Tabla de Medias
La Tabla de Medias muestra las medias del grupo calculadas, sus errores estándares e intervalos.
Dependiendo de las especificaciones en el Cuadro de Opciones, los intervalos pueden ser ya sea
intervalos de error estándar dados por:
sj
x j ± tα / 2,n j −1 (3)
nj
Cuadro de Opciones
Gráfica de Medias
La Gráfica de Medias muestra las medias del grupo junto con las barras de error estándar o
límites de confianza.
45
40
Media
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Las barras verticales se extienden por arriba y por debajo de las medias del grupo.
Cuadro de Opciones
• Gráficar: seleccione Puntos para graficar símbolos de puntos en cada grupo de medias y
Líneas para conectar las medias con una línea sólida.
• Mostrar Valores: seleccionar esta opción para graficar los valores de datos individuales a la
izquierda de las medias del grupo.
50
45
40
Mediana
35
30
25
20
Compact Large Midsize Small Sporty Van
Type
Cuadro de Opciones
Graficar: seleccione Puntos para graficar símbolos de puntos en cada estadístico de grupo y
Líneas para conectar las estadísticas con una línea sólida.
Guardar Resultados
Los siguientes resultados pueden ser guardados de regreso a las columnas de la hoja de base de
datos: