Está en la página 1de 10

STATGRAPHICS Rev.

4/25/2007

Anlisis de Subconjuntos

Resumen
El procedimiento de Anlisis de Subconjuntos calcular estadsticos para datos en una simple
columna numrica cuando se agrupan en subconjuntos definidos por los identificadores en una
segunda columna. El procedimiento tambin graficar las estadsticas por grupo.

StatFolio de Muestra: subset.sgp

Muestra de Datos:
El archivo 93cars.sf3 contiene informacin de 26 variables para n = 93 fabricantes y modelos de
automviles, tomados de Lock (1993). La tabla de abajo muestra una lista parcial de 4 columnas
de ese archivo:

Make Model MPG Highway Type


(Armadora) (Modelo) (Avenida MPG) (Tipo)
Acura Integra 31 Small
Acura Legend 25 Midsize
Audi 90 26 Compact
Audi 100 26 Midsize
BMW 535i 30 Midsize
Buick Century 31 Midsize
Buick LeSabre 28 Large
Buick Roadmaster 25 Large
Buick Riviera 27 Midsize
Cadillac DeVille 25 Large
Cadillac Seville 25 Midsize
Chevrolet Cavalier 36 Compact
Chevrolet Corsica 34 Compact
Chevrolet Camaro 28 Sporty
Chevrolet Lumina 29 Midsize
Chevrolet Lumina_APV 23 Van
Chevrolet Astro 20 Van
Chevrolet Caprice 26 Large
Chevrolet Corvette 25 Sporty
Chrylser Concorde 28 Large

2005 by StatPoint, Inc. Subset Analysis - 1


STATGRAPHICS Rev. 4/25/2007

Captura de Datos
Los datos a ser analizados consisten de una nica columna numrica que contiene n = 2 o ms
observaciones y una columna con identificadores que definen cmo deberan de agruparse los
datos.

Datos: columna numrica que contiene los datos a ser resumidos.

Cdigos: columna numrica o no numrica que contiene los identificadores de grupo. Las
estadsticas de resumen sern calculados para cada valor nico en esta columna.

Etiquetas: columna opcional con etiquetas para cada grupo. Si son proporcionadas, las
etiquetas sern asignadas a los grupos de acuerdo con el orden numrico o alfabtico de los
identificadores en la columna Cdigos.

Seleccin: seleccin del subconjunto.

Resumen del Anlisis


El Resumen del Anlisis muestra el nmero de observaciones en la columna de los datos y el
nmero de niveles o grupos dentro de los cules los datos han sido divididos.

Anlisis de Subgrupo - MPG Highway por Type


Datos/Variable: MPG Highway (miles per gallon in highway driving)
Variable de cdigos: Type

Nmero de observaciones: 93
Nmero de niveles: 6

2005 by StatPoint, Inc. Subset Analysis - 2


STATGRAPHICS Rev. 4/25/2007
Grfica de Puntos
La Grfica de Puntos grafica los valores de los datos por grupo.

Diagrama de Dispersin

50

45
MPG Highway

40

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Si existen puntos sobrepuestos significativos debido a valores de datos iguales, los puntos
pueden ser separados al presionar el botn Separar Puntos en la barra de herramientas del
anlisis:

Aadiendo una ligera separacin horizontal, los puntos se compensarn aleatoriamente en


direccin horizontal evitando que caiga justo uno encima del otro.

2005 by StatPoint, Inc. Subset Analysis - 3


STATGRAPHICS Rev. 4/25/2007

Diagrama de Dispersin

50

MPG Highway 45

40

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Estadsticas de Resumen
El cuadro Estadsticas de Resumen muestra varios estadsticos para las observaciones en cada
grupo:

Estadsticas de Resumen
Datos/Variable: MPG Highway

Desviacin Error
Type Recuento Promedio Estndar Estndar Mnimo Mximo Rango
Compact 16 29.875 2.94109 0.735272 26.0 36.0 10.0
Large 11 26.7273 1.27208 0.383546 25.0 28.0 3.0
Midsize 22 26.7273 2.51058 0.535258 22.0 31.0 9.0
Small 21 35.4762 5.60909 1.224 29.0 50.0 21.0
Sporty 14 28.7857 3.64119 0.973148 24.0 36.0 12.0
Van 9 21.8889 1.45297 0.484322 20.0 24.0 4.0
Total 93 29.086 5.33173 0.552874 20.0 50.0 30.0

La mayora de las estadsticas caen en alguna de las tres categoras:

1. medidas de tendencia central estadsticos que caracterizan el centro de los datos


como la media muestral o promedio.
2. medidas de dispersin estadsticos que miden la propagacin de los datos tal como la
desviacin estndar.
3. medidas de forma estadsticos que miden la forma de los datos con relacin a una
distribucin normal, tal como la puntiagudez estandarizada y la curtosis.

Las estadsticas incluidas en la tabla automticamente se determinan en las especificaciones de la


ventana Stats del cuadro de dilogo Preferencias. Dentro del procedimiento la seleccin puede
ser modificada usando Opciones de Cuadro. El significado de cada estadstico se describe en la
documentacin para el procedimiento de Anlisis de una Variable.

Notar que el promedio ms alto por galn corresponde a los carros pequeos, mientras que las
camionetas muestran el menor ahorro de combustible.
2005 by StatPoint, Inc. Subset Analysis - 4
STATGRAPHICS Rev. 4/25/2007

Cuadro de Opciones

Seleccione las estadsticas deseadas.

Grfica de Caja y Bigotes


Este cuadro muestra una grfica de caja y bigotes para cada grupo de datos.

Grfica de Caja y Bigotes

Compact

Large

Midsize
Type

Small

Sporty

Van

20 25 30 35 40 45 50
MPG Highway

La grfica se construye de la siguiente manera:

Se dibuja una caja es dibujada que se extiende desde el cuartil inferior del grupo hasta
el cuartil superior. Este es el intervalo cubierto por la mitad, el 50% de los valores de
los datos cuando se ordenan del ms pequeo al ms grande.

Se dibuja una lnea vertical en la mediana del grupo (el valor de en medio).

2005 by StatPoint, Inc. Subset Analysis - 5


STATGRAPHICS Rev. 4/25/2007

Si se requiere, un signo de suma se coloca donde est la media del grupo.

Los bigotes son dibujados de las orillas de la caja hasta los valores ms grandes y ms
pequeos de los datos, a menos que existan valores atpicamente lejos de la caja (los
cuales Tukey llama puntos extremos). Los puntos extremos son aquellos puntos con
ms de 1.5 veces el rango intercuartlico (la amplitud de la caja) por arriba o por
debajo de la caja y estn indicados como smbolos puntuales. Cualquier punto ms de
3 veces el rango intercuartlico arriba o debajo de la caja se llama punto extremo
lejano y se indica como smbolo de punto con un signo de suma escrito encima del
punto. Si los puntos extremos estn presentes, los bigotes se dibujan hasta el valor
ms pequeo y ms grande de los datos los cuales no son los puntos extremos.

Para los carros pequeos, hay un punto extremo y un punto extremo lejano. El punto extremo
lejano corresponde a Geo Metro el cual registr 50 millas por galn en el manejo en vas.

Opciones de Cuadro

Direccin: la orientacin de la grfica, correspondiente a la direccin de los bigotes.

Muesca de la Mediana: si se selecciona, un corte en las orillas de la caja en forma de V ser


aadido a la grfica mostrando un intervalo de incertidumbre para cada mediana al nivel de
confianza predeterminado automticamente por el sistema (establecido en la tabulacin
General del cuadro de dilogo Preferencias en el men Edicin). Los cortes se dibujan de tal
manera que si dos de ellos no se sobreponen, existe una diferencia estadstica significativa
entre las medianas de los grupos correspondientes.

Smbolos Valores Aberrantes: si se selecciona, indica la localizacin de puntos extremos.

Marca de Media: si se selecciona, muestra la localizacin de la media muestral as como de


la mediana.

Ejemplo Grfica de Caja y Bigotes con Cortes


La siguiente grfica muestra la adicin de los cortes de la mediana en un nivel de confianza del
95%.

2005 by StatPoint, Inc. Subset Analysis - 6


STATGRAPHICS Rev. 4/25/2007

Grfica de Caja y Bigotes

Compact

Large

Midsize
Type

Small

Sporty

Van

20 25 30 35 40 45 50
MPG Highway

El corte para el j-simo grupo cubre el intervalo

1.25 IQR j
xj
~ z 1 + 1 (1)
1.35 n /2 2
j

Donde IQRj es el rango intercuartlico de la muestra para el j-simo grupo, nj es el tamao del
grupo y z/2 es el valor crtico superior (/2)% de una distribucin normal estndar .

En la grfica de arriba, el corte para las Vans est completamente abajo del corte para cualquier
otro grupo, lo que implica que las vans son significativamente diferentes en comparacin con los
otros vehculos. Para algunos grupos, los cortes parecen doblarse hacia atrs de s mismos. Esto
sucede cuando el corte es tan grande que se extiende ms all del final de la caja.

Tabla de Medias
La Tabla de Medias muestra las medias del grupo calculadas, sus errores estndares e intervalos.

Tabla de Medias Con Intervalos de Error Estndar


Error Inferior Superior
Cdigo Recuento Media Estndar Lmite Lmite
Compact 16 29.875 0.735272 29.1397 30.6103
Large 11 26.7273 0.383546 26.3437 27.1108
Midsize 22 26.7273 0.535258 26.192 27.2625
Small 21 35.4762 1.224 34.2522 36.7002
Sporty 14 28.7857 0.973148 27.8126 29.7589
Van 9 21.8889 0.484322 21.4046 22.3732
Total 93 29.086 0.552874 28.5331 29.6389

Dependiendo de las especificaciones en el Cuadro de Opciones, los intervalos pueden ser ya sea
intervalos de error estndar dados por:

2005 by StatPoint, Inc. Subset Analysis - 7


STATGRAPHICS Rev. 4/25/2007
sj
xj (2)
nj

O intervalos de confianza dados por:

sj
x j t / 2,n j 1 (3)
nj

Cuadro de Opciones

Intervalos: tipos de intervalos para incluir en la tabla.

Nivel de Confianza: niveles de confianza si se muestra Lmites de Confianza.

2005 by StatPoint, Inc. Subset Analysis - 8


STATGRAPHICS Rev. 4/25/2007

Grfica de Medias
La Grfica de Medias muestra las medias del grupo junto con las barras de error estndar o
lmites de confianza.

Grfica de Medias para MPG Highway


Con Barras de Error Estndar
50

45

40
Media

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Las barras verticales se extienden por arriba y por debajo de las medias del grupo.

Cuadro de Opciones

Grficar: seleccione Puntos para graficar smbolos de puntos en cada grupo de medias y
Lneas para conectar las medias con una lnea slida.

Intervalos: tipos de intervalos para incluir en la grfica.

Nivel de Confianza: nivel de confianza si se despliega Lmites de Confianza.

Mostrar Valores: seleccionar esta opcin para graficar los valores de datos individuales a la
izquierda de las medias del grupo.

2005 by StatPoint, Inc. Subset Analysis - 9


STATGRAPHICS Rev. 4/25/2007

Grfica del Rango/Sigma/Mediana


Estas grficas muestran las medianas del grupo, desviaciones estndares y rangos
respectivamente.

Grfica de Medianas para MPG Highway

50

45

40
Mediana

35

30

25

20
Compact Large Midsize Small Sporty Van
Type

Cuadro de Opciones

Graficar: seleccione Puntos para graficar smbolos de puntos en cada estadstico de grupo y
Lneas para conectar las estadsticas con una lnea slida.

Guardar Resultados

Los siguientes resultados pueden ser guardados de regreso a las columnas de la hoja de base de
datos:

1. Etiquetas las etiquetas asociadas con cada grupo.


2. Recuento los tamaos del grupo nj.
3. Promedios, Desviaciones Estndar, etc. cualquier grupo de estadsticos desplegado en
el cuadro Estadsticos de Resumen.

2005 by StatPoint, Inc. Subset Analysis - 10

También podría gustarte