Está en la página 1de 10

STATGRAPHICS – Rev.

4/25/2007

Análisis de Subconjuntos

Resumen
El procedimiento de Análisis de Subconjuntos calculará estadísticos para datos en una simple
columna numérica cuando se agrupan en subconjuntos definidos por los identificadores en una
segunda columna. El procedimiento también graficará las estadísticas por grupo.

StatFolio de Muestra: subset.sgp

Muestra de Datos:
El archivo 93cars.sf3 contiene información de 26 variables para n = 93 fabricantes y modelos de
automóviles, tomados de Lock (1993). La tabla de abajo muestra una lista parcial de 4 columnas
de ese archivo:

Make Model MPG Highway Type


(Armadora) (Modelo) (Avenida MPG) (Tipo)
Acura Integra 31 Small
Acura Legend 25 Midsize
Audi 90 26 Compact
Audi 100 26 Midsize
BMW 535i 30 Midsize
Buick Century 31 Midsize
Buick LeSabre 28 Large
Buick Roadmaster 25 Large
Buick Riviera 27 Midsize
Cadillac DeVille 25 Large
Cadillac Seville 25 Midsize
Chevrolet Cavalier 36 Compact
Chevrolet Corsica 34 Compact
Chevrolet Camaro 28 Sporty
Chevrolet Lumina 29 Midsize
Chevrolet Lumina_APV 23 Van
Chevrolet Astro 20 Van
Chevrolet Caprice 26 Large
Chevrolet Corvette 25 Sporty
Chrylser Concorde 28 Large

© 2005 by StatPoint, Inc. Subset Analysis - 1


STATGRAPHICS – Rev. 4/25/2007

Captura de Datos
Los datos a ser analizados consisten de una única columna numérica que contiene n = 2 o más
observaciones y una columna con identificadores que definen cómo deberían de agruparse los
datos.

• Datos: columna numérica que contiene los datos a ser resumidos.

• Códigos: columna numérica o no numérica que contiene los identificadores de grupo. Las
estadísticas de resumen serán calculados para cada valor único en esta columna.

• Etiquetas: columna opcional con etiquetas para cada grupo. Si son proporcionadas, las
etiquetas serán asignadas a los grupos de acuerdo con el orden numérico o alfabético de los
identificadores en la columna Códigos.

• Selección: selección del subconjunto.

Resumen del Análisis


El Resumen del Análisis muestra el número de observaciones en la columna de los datos y el
número de niveles o grupos dentro de los cuáles los datos han sido divididos.

Análisis de Subgrupo - MPG Highway por Type


Datos/Variable: MPG Highway (miles per gallon in highway driving)
Variable de códigos: Type

Número de observaciones: 93
Número de niveles: 6

© 2005 by StatPoint, Inc. Subset Analysis - 2


STATGRAPHICS – Rev. 4/25/2007
Gráfica de Puntos
La Gráfica de Puntos grafica los valores de los datos por grupo.

Diagrama de Dispersión

50

45
MPG Highway

40

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Si existen puntos sobrepuestos significativos debido a valores de datos iguales, los puntos
pueden ser separados al presionar el botón Separar Puntos en la barra de herramientas del
análisis:

Añadiendo una ligera separación horizontal, los puntos se compensarán aleatoriamente en


dirección horizontal evitando que caiga justo uno encima del otro.

© 2005 by StatPoint, Inc. Subset Analysis - 3


STATGRAPHICS – Rev. 4/25/2007

Diagrama de Dispersión

50

MPG Highway 45

40

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Estadísticas de Resumen
El cuadro Estadísticas de Resumen muestra varios estadísticos para las observaciones en cada
grupo:

Estadísticas de Resumen
Datos/Variable: MPG Highway

Desviación Error
Type Recuento Promedio Estándar Estándar Mínimo Máximo Rango
Compact 16 29.875 2.94109 0.735272 26.0 36.0 10.0
Large 11 26.7273 1.27208 0.383546 25.0 28.0 3.0
Midsize 22 26.7273 2.51058 0.535258 22.0 31.0 9.0
Small 21 35.4762 5.60909 1.224 29.0 50.0 21.0
Sporty 14 28.7857 3.64119 0.973148 24.0 36.0 12.0
Van 9 21.8889 1.45297 0.484322 20.0 24.0 4.0
Total 93 29.086 5.33173 0.552874 20.0 50.0 30.0

La mayoría de las estadísticas caen en alguna de las tres categorías:

1. medidas de tendencia central – estadísticos que caracterizan el “centro” de los datos


como la media muestral o promedio.
2. medidas de dispersión – estadísticos que miden la propagación de los datos tal como la
desviación estándar.
3. medidas de forma – estadísticos que miden la forma de los datos con relación a una
distribución normal, tal como la puntiagudez estandarizada y la curtosis.

Las estadísticas incluidas en la tabla automáticamente se determinan en las especificaciones de la


ventana Stats del cuadro de diálogo Preferencias. Dentro del procedimiento la selección puede
ser modificada usando Opciones de Cuadro. El significado de cada estadístico se describe en la
documentación para el procedimiento de Análisis de una Variable.

Notar que el promedio más alto por galón corresponde a los carros pequeños, mientras que las
camionetas muestran el menor ahorro de combustible.
© 2005 by StatPoint, Inc. Subset Analysis - 4
STATGRAPHICS – Rev. 4/25/2007

Cuadro de Opciones

Seleccione las estadísticas deseadas.

Gráfica de Caja y Bigotes


Este cuadro muestra una gráfica de caja y bigotes para cada grupo de datos.

Gráfica de Caja y Bigotes

Compact

Large

Midsize
Type

Small

Sporty

Van

20 25 30 35 40 45 50
MPG Highway

La gráfica se construye de la siguiente manera:

• Se dibuja una caja es dibujada que se extiende desde el cuartil inferior del grupo hasta
el cuartil superior. Este es el intervalo cubierto por la mitad, el 50% de los valores de
los datos cuando se ordenan del más pequeño al más grande.

• Se dibuja una línea vertical en la mediana del grupo (el valor de en medio).

© 2005 by StatPoint, Inc. Subset Analysis - 5


STATGRAPHICS – Rev. 4/25/2007

• Si se requiere, un signo de suma se coloca donde está la media del grupo.

• Los bigotes son dibujados de las orillas de la caja hasta los valores más grandes y más
pequeños de los datos, a menos que existan valores atípicamente lejos de la caja (los
cuales Tukey llama puntos extremos). Los puntos extremos son aquellos puntos con
más de 1.5 veces el rango intercuartílico (la amplitud de la caja) por arriba o por
debajo de la caja y están indicados como símbolos puntuales. Cualquier punto más de
3 veces el rango intercuartílico arriba o debajo de la caja se llama punto extremo
lejano y se indica como símbolo de punto con un signo de suma escrito encima del
punto. Si los puntos extremos están presentes, los bigotes se dibujan hasta el valor
más pequeño y más grande de los datos los cuales no son los puntos extremos.

Para los carros pequeños, hay un punto extremo y un punto extremo lejano. El punto extremo
lejano corresponde a Geo Metro el cual registró 50 millas por galón en el manejo en vías.

Opciones de Cuadro

• Dirección: la orientación de la gráfica, correspondiente a la dirección de los bigotes.

• Muesca de la Mediana: si se selecciona, un corte en las orillas de la caja en forma de V será


añadido a la gráfica mostrando un intervalo de incertidumbre para cada mediana al nivel de
confianza predeterminado automáticamente por el sistema (establecido en la tabulación
General del cuadro de diálogo Preferencias en el menú Edición). Los cortes se dibujan de tal
manera que si dos de ellos no se sobreponen, existe una diferencia estadística significativa
entre las medianas de los grupos correspondientes.

• Símbolos Valores Aberrantes: si se selecciona, indica la localización de puntos extremos.

• Marca de Media: si se selecciona, muestra la localización de la media muestral así como de


la mediana.

Ejemplo – Gráfica de Caja y Bigotes con Cortes


La siguiente gráfica muestra la adición de los cortes de la mediana en un nivel de confianza del
95%.

© 2005 by StatPoint, Inc. Subset Analysis - 6


STATGRAPHICS – Rev. 4/25/2007

Gráfica de Caja y Bigotes

Compact

Large

Midsize
Type

Small

Sporty

Van

20 25 30 35 40 45 50
MPG Highway

El corte para el j-ésimo grupo cubre el intervalo

⎛ 1.25 IQR j ⎞
xj ± ⎜
~ ⎟ z ⎛⎜1 + 1 ⎞⎟ (1)
⎜ 1.35 n ⎟ α /2⎝ 2⎠
⎝ j ⎠

Donde IQRj es el rango intercuartílico de la muestra para el j-ésimo grupo, nj es el tamaño del
grupo y zα/2 es el valor crítico superior (α/2)% de una distribución normal estándar .

En la gráfica de arriba, el corte para las Vans está completamente abajo del corte para cualquier
otro grupo, lo que implica que las vans son significativamente diferentes en comparación con los
otros vehículos. Para algunos grupos, los cortes parecen doblarse hacia atrás de sí mismos. Esto
sucede cuando el corte es tan grande que se extiende más allá del final de la caja.

Tabla de Medias
La Tabla de Medias muestra las medias del grupo calculadas, sus errores estándares e intervalos.

Tabla de Medias Con Intervalos de Error Estándar


Error Inferior Superior
Código Recuento Media Estándar Límite Límite
Compact 16 29.875 0.735272 29.1397 30.6103
Large 11 26.7273 0.383546 26.3437 27.1108
Midsize 22 26.7273 0.535258 26.192 27.2625
Small 21 35.4762 1.224 34.2522 36.7002
Sporty 14 28.7857 0.973148 27.8126 29.7589
Van 9 21.8889 0.484322 21.4046 22.3732
Total 93 29.086 0.552874 28.5331 29.6389

Dependiendo de las especificaciones en el Cuadro de Opciones, los intervalos pueden ser ya sea
intervalos de error estándar dados por:

© 2005 by StatPoint, Inc. Subset Analysis - 7


STATGRAPHICS – Rev. 4/25/2007
sj
xj ± (2)
nj

O intervalos de confianza dados por:

sj
x j ± tα / 2,n j −1 (3)
nj

Cuadro de Opciones

• Intervalos: tipos de intervalos para incluir en la tabla.

• Nivel de Confianza: niveles de confianza si se muestra Límites de Confianza.

© 2005 by StatPoint, Inc. Subset Analysis - 8


STATGRAPHICS – Rev. 4/25/2007

Gráfica de Medias
La Gráfica de Medias muestra las medias del grupo junto con las barras de error estándar o
límites de confianza.

Gráfica de Medias para MPG Highway


Con Barras de Error Estándar
50

45

40
Media

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Las barras verticales se extienden por arriba y por debajo de las medias del grupo.

Cuadro de Opciones

• Gráficar: seleccione Puntos para graficar símbolos de puntos en cada grupo de medias y
Líneas para conectar las medias con una línea sólida.

• Intervalos: tipos de intervalos para incluir en la gráfica.

• Nivel de Confianza: nivel de confianza si se despliega Límites de Confianza.

• Mostrar Valores: seleccionar esta opción para graficar los valores de datos individuales a la
izquierda de las medias del grupo.

© 2005 by StatPoint, Inc. Subset Analysis - 9


STATGRAPHICS – Rev. 4/25/2007

Gráfica del Rango/Sigma/Mediana


Estas gráficas muestran las medianas del grupo, desviaciones estándares y rangos
respectivamente.

Gráfica de Medianas para MPG Highway

50

45

40
Mediana

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Cuadro de Opciones

Graficar: seleccione Puntos para graficar símbolos de puntos en cada estadístico de grupo y
Líneas para conectar las estadísticas con una línea sólida.

Guardar Resultados

Los siguientes resultados pueden ser guardados de regreso a las columnas de la hoja de base de
datos:

1. Etiquetas – las etiquetas asociadas con cada grupo.


2. Recuento – los tamaños del grupo nj.
3. Promedios, Desviaciones Estándar, etc. – cualquier grupo de estadísticos desplegado en
el cuadro Estadísticos de Resumen.

© 2005 by StatPoint, Inc. Subset Analysis - 10

También podría gustarte