Está en la página 1de 9

STATGRAPHICS – Rev.

9/14/2006

Snapstat: Comparación de Varias Muestras

Resumen
La Comparación de Varias Muestras en SnapStat crea un resumen de una página que
compara dos o más muestras independientes de datos. Incluye pruebas para determinar cuando
hay o no diferencias significativas entre las medias y/o las desviaciones estándar de las
poblaciones sobre las cuales las muestras fueron tomadas. Además, los datos son desplegados
gráficamente usando una gráfica múltiple de dispersión, una gráfica múltiple caja y bigotes, una
gráfica de medias, y una gráfica ANOM. Los cálculos realizados son un subconjunto de los
obtenidos en el procedimiento Comparación de Varias Muestras. Sin embargo, los datos de
salida son preformateados para ser mostrados en una sola página.

StatFolio Muestra: multsamsnapstat.sgp

Datos de muestra:
El archivo tasas de pulsación.sf6 contiene los resultados de un experimento reportado por
Milliken y Johnson (1992) en el cual 78 trabajadores fueron asignados aleatoriamente en seis
grupos. A cada grupo se le dio una tarea a realizar, y se midieron las tasas de pulsación después
de que cada individuo había trabajado en su tarea por una hora. Después de que varios individuos
se retiraron del estudio, los datos finales fueron:

Tarea 1 Tarea 2 Tarea 3 Tarea 4 Tarea 5 Tarea 6


27 29 34 34 28 28
31 28 36 34 28 26
26 37 34 43 26 29
32 24 41 44 35 25
39 35 30 40 31 35
37 40 44 47 30 34
38 40 44 34 34 37
39 31 32 31 34 28
30 30 32 45 26 21
28 25 31 28 20 28
27 29 41 26
27 25 21
34

Las n = 68 medidas finales han sido ordenadas en q = 6 columnas, una para cada grupo de
trabajadores.

Alternativamente, los datos podrían haber sido ordenados en una tabla con todas las tasas de
pulsación de los trabajadores en una sola columna, junto con otra para identificar cual tarea le
fue asignada. Una parte de dicho archivo se muestra a continuación:

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 1


STATGRAPHICS – Rev. 9/14/2006

Trabajador Tasa de Pulsación Tarea


1 27 1
2 31 1
3 26 1
4 32 1
5 39 1
6 37 1
7 38 1
8 39 1
9 30 1
10 28 1
11 27 1
12 27 1
13 34 1
14 29 2
15 28 2
16 37 2
17 24 2
18 35 2
19 40 2
20 40 2
21 31 2
22 30 2
23 25 2
24 29 2
25 25 2
26 34 3
… … …

Cualquier estructura de datos puede ser analizada por el procedimiento Comparación de Varias
Muestras SnapStat. Si la misma información va a ser usada en otros procedimientos tales como
el Modelos Lineales Generales, entonces debería estructurarse de la segunda forma.

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 2


STATGRAPHICS – Rev. 9/14/2006
Entrada de Datos
Cuando se selecciona el procedimiento Comparación de Varias Muestras SnapStat en el menú
principal, el primer cuadro de dialogo desplegado le pide especificar el formato en el cual los
datos han sido ingresados:

• Columna Múltiple de Datos: indica que cada muestra ha sido ordenada en una columna
separada.

• Columna de Datos y Claves: indica que todas las observaciones han sido ordenadas en una
sola columna, acompañada de otra para indicar a que muestra pertenece cada observación.

• Estadísticos de Muestra: indica que las observaciones originales no están disponibles. Sin
embargo, los tamaños de las muestras, las medias muestrales, y las desviaciones estándar de
las muestras han sido colocadas en 3 columnas de la hoja de datos. En este caso, algunas
opciones no estarán disponibles.

Columna Múltiple de Datos


Si los datos han sido ordenados en columnas separadas para cada muestra, entonces los nombres
de las columnas deben ser ingresados en el segundo cuadro de dialogo:

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 3


STATGRAPHICS – Rev. 9/14/2006

• Muestras: dos o mas columnas numéricas que contienen las observaciones, una para cada
muestra.

• Select: subset selection.

Columna de Datos y Claves


Si los datos de todas las muestras han sido ordenados en una sola columna, entonces ingrese el
nombre de la columna y la columna que contiene los identificadores de grupo:

• Datos: columna numérica que contiene las observaciones de todas las muestras.

• Números de Nivel: columna no necesariamente numérica que contiene un identificador para


la muestra correspondiente a cada valor de datos.

• Select: subset selection.

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 4


STATGRAPHICS – Rev. 9/14/2006

Salida
El resultado del procedimiento SnapStat consiste de una página de gráficas y estadísticos
numéricos.

SnapStat: Comparación Varias Muestras


Gráfico de Dispersión

Muestra Recuento Media Sigma 50


Task 1 13 31.9231 4.95751
Task 2 12 31.0833 5.66422 45
Task 3 10 35.8 5.30827
Task 4 10 38 6.59966 40

respuesta
Task 5 12 29.5 6.00757
Task 6 11 28.8182 4.75012 35
68 32.3088 6.24203
30

25

20

Task 1

Task 2
Task 3

Task 4
Task 5

Task 6
Gráfico Caja y Bigotes Tabla ANOVA
Suma de Media
Fuente Cuadrados Gl Cuadrado Razón-F
Task 1 Entre 694.439 5 138.888 4.49
Dentro de 1916.08 62 30.9045
Task 2 Total 2610.51 67
Task 3 Valor-P = 0.0015
Task 4
Contraste de Varianza
Levene's: 0.641611
Task 5
Valor-P = 0.6688
Task 6

20 25 30 35 40 45 50
respuesta

Gráfico de Medias Gráfico de Análisis de Media


Con intervalos LSD del 95.0 Porcentaje Con 95% Límites de Decisión
41 39
UDL=36.38
38 37 CTR=32.31
35 LDL=28.24
35
Media

Media

33
32
31
29 29

26 27
Task 1

Task 2
Task 3

Task 4
Task 5

Task 6

Task 1

Task 2
Task 3

Task 4
Task 5

Task 6

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 5


STATGRAPHICS – Rev. 9/14/2006

Resumen de Estadísticos (parte superior izquierda)


En la parte superior izquierda de la salida se muestra un resumen de estadísticos para cada
muestra de observaciones. La tabla incluye:

1. Total: el numero de observaciones en cada muestra, nj.


2. Media: la tasa de pulsación promedio para los trabajadores en cada una de las 6
tareas, Y j .
3. Sigma: las desviaciones estándar de cada muestra, sj.

Note que el grupo al que se le asigno la Tarea 4 tiene la media y la desviación estándar mas alta.

Grafica de dispersión (parte superior derecha)


En la parte superior derecha de la salida se muestra las observaciones dentro de cada grupo. Esto
parece sugerir que las tasas de pulsación son un poco más altas para los trabajadores asignados a
las tareas 3 y 4.

Grafica Caja y bigotes (parte central izquierda)


En la parte central izquierda de la salida se muestra una gráfica múltiple caja y bigotes. Las
graficas Caja y bigotes se construyen de la siguiente forma:

• Se dibuja un cuadro que va desde el cuartil inferior de la muestra hasta el cuartil superior. Este
es el intervalo cubierto por el 50% de los valores de los datos cuando estos se ordenan del
mayor al menor.

• Se dibuja una línea vertical en la mediana (el valor medio).

• De ser requerido, se coloca un signo mas en la ubicación de la media muestral.

• Se dibujan Bigotes que van desde el inicio del cuadro hasta el valor mayor y menor
de los datos, a menos que haya valores alejados del cuadro (a los cuales Tukey llama
puntos exteriores). Los puntos exteriores, los cuales están a mas de 1.5 veces el
rango intercuartil (ancho de cuadro) por arriba o por abajo del mismo, son indicados
por símbolos de puntos. Si hay puntos ubicados a mas de 3 veces el rango intercuartil
por arriba o por abajo del cuadro, son llamados puntos exteriores lejanos, y son
indicados por símbolos de puntos con un signo más en la parte superior. Si hay puntos
exteriores, los bigotes son dibujados hasta los valores mayor y menor de los datos, los
cuales no son puntos exteriores.

En los datos de la muestra, la variabilidad parece ser similar dentro de cada muestra, aunque las
ubicaciones muestran algunas diferencias. No hay puntos exteriores.

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 6


STATGRAPHICS – Rev. 9/14/2006

Tabla ANOVA y Contraste de varianza (parte central derecha)


La parte central derecha de la salida contiene una tabla de análisis de varianza y un contraste de
varianza.

Tabla ANOVA
Esta tabla divide la variabilidad total entre las n mediciones en dos componentes:

1. Una componente “dentro de grupos”, la cual mide la variabilidad entre las tasas de
pulsación de los trabajadores de una misma tarea.

2. Una componente “entre grupos”, la cual mide la variabilidad entre las tasas de pulsación
de trabajadores de diferentes tareas.

El radio F es de particular importancia, el cual prueba la hipótesis de que las medias resultantes
para todas las muestras es la misma. Formalmente, prueba la hipótesis nula

H0: μ1 = μ2 = ... = μq

contra la hipotesis alternativa

HA: no todas las μj son iguales

Si F es suficientemente grande, la hipótesis nula es rechazada.

El significado estadístico del radio F es mas fácilmente juzgado por su P valor. Si el P valor es
menor que 0.05, la hipótesis nula de las medias iguales es rechazada a un nivel del significancia
del 5%, como en el ejemplo mostrado. Esto no implica que cada media sea significativamente
diferente de las demás. Simplemente muestra que no todas las medias son iguales.

Contraste de varianza
Una de las suposiciones fundamentales del análisis de la varianza es que las varianzas de las
poblaciones de las que se tomaron las muestras son iguales. Se realiza una prueba para probar las
hipótesis:

Hipótesis Nula: todas las σj son iguales

Hipótesis Alternativa: no todas las σj son iguales

Si el P valor de la prueba es pequeño(menor que 0.05 si se trabaja con un nivel del significancia
del 5%), la hipótesis de varianzas iguales es rechazada. La prueba realizada depende de la
selección en la tabla ANOVA/Regresión del cuadro de diálogo Preferencias, accesible desde el
menú Editar.

Para los datos de tasa de pulsación, las medias muestrales son significativamente diferentes, pero
las varianzas muestrales no lo son.

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 7


STATGRAPHICS – Rev. 9/14/2006
Gráfica de Medias (parte inferior izquierda)
Esta gráfica muestra las medias muestrales junto con intervalos de incertidumbre. El tipo de
intervalo graficado depende de las opciones en la tabla ANOVA/Regresión del cuadro de dialogo
Preferencias, accesible desde el menú Editar. El tipo de intervalos que pueden ser seleccionados
son:

• Intervalos de Confianza – despliega intervalos de confianza para las medias de los


grupos usando la componente desviación estándar dentro de grupos:

MS within
Y j ± tα / 2 , n − q (1)
nj

• Intervalos LSD - diseñado para comparar cualquier par de medias con los niveles de
confianza establecidos. Los intervalos son dados por

2M MS within
Yj ± (2)
2 nj

donde M es definida como en las Pruebas de rango múltiple. Esta fórmula también se
aplica a las tres selecciones siguientes.

• Intervalos Tukey HSD - diseñados para comparar todos los pares de medias. El
intervalo de confianza establecido se aplica a toda la familia de parejas de comparación.

• Intervalos de Scheffe - diseñados para comparar todos los contrastes. Usualmente no


relevante aquí.

• Intervalos de Bonferroni - diseñados para comparar una cantidad seleccionada de


contrastes. Los intervalos de Tukey usualmente son mas cerrados.

Gráfica de Análisis de Medias (parte inferior derecha)


Esta grafica construye un diagrama similar al diagrama de control estándar, donde cada media
muestral es graficada junto con una línea central y límites de decisión superior e inferior. La
línea central es ubicada en el promedio general de todas las observaciones Y . Los limites de
decisión son ubicados en

MS within ⎛ q −1⎞
Y ± hn − q ,1−α ⎜⎜ ⎟⎟ (3)
nj ⎝ q ⎠

donde h es un valor critico obtenido de una tabla de distribución multivariada t. El diagrama


evalúa la hipótesis nula de que todas las medias muestrales son iguales a la media general.
Cualquier media que caiga fuera de los límites de decisión indica que la correspondiente muestra
difiere significativamente de la media general.

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 8


STATGRAPHICS – Rev. 9/14/2006
La ventaja de la gráfica ANOM es que muestra rápidamente cuales medias son
significativamente diferentes del promedio de todas las muestras. También lo hace usando un
diagrama con el cual muchos ingenieros y operadores están familiarizados. Es fácil ver del
diagrama anterior que la Tarea 4 tiene una tasa de pulsación significativamente más alta que el
promedio, mientras que las otras medias de las tareas están dentro de los límites de decisión. El
procedimiento es exacto si todos los tamaños de las muestras son iguales y es aproximado si no
difieren demasiado.

© 2005 by StatPoint, Inc. Snapstat : Comparación de Varias Muestras - 9

También podría gustarte