Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Snapstat-Comparación Varias Muestras
Snapstat-Comparación Varias Muestras
9/14/2006
Resumen
La Comparación de Varias Muestras en SnapStat crea un resumen de una página que
compara dos o más muestras independientes de datos. Incluye pruebas para determinar cuando
hay o no diferencias significativas entre las medias y/o las desviaciones estándar de las
poblaciones sobre las cuales las muestras fueron tomadas. Además, los datos son desplegados
gráficamente usando una gráfica múltiple de dispersión, una gráfica múltiple caja y bigotes, una
gráfica de medias, y una gráfica ANOM. Los cálculos realizados son un subconjunto de los
obtenidos en el procedimiento Comparación de Varias Muestras. Sin embargo, los datos de
salida son preformateados para ser mostrados en una sola página.
Datos de muestra:
El archivo tasas de pulsación.sf6 contiene los resultados de un experimento reportado por
Milliken y Johnson (1992) en el cual 78 trabajadores fueron asignados aleatoriamente en seis
grupos. A cada grupo se le dio una tarea a realizar, y se midieron las tasas de pulsación después
de que cada individuo había trabajado en su tarea por una hora. Después de que varios individuos
se retiraron del estudio, los datos finales fueron:
Las n = 68 medidas finales han sido ordenadas en q = 6 columnas, una para cada grupo de
trabajadores.
Alternativamente, los datos podrían haber sido ordenados en una tabla con todas las tasas de
pulsación de los trabajadores en una sola columna, junto con otra para identificar cual tarea le
fue asignada. Una parte de dicho archivo se muestra a continuación:
Cualquier estructura de datos puede ser analizada por el procedimiento Comparación de Varias
Muestras SnapStat. Si la misma información va a ser usada en otros procedimientos tales como
el Modelos Lineales Generales, entonces debería estructurarse de la segunda forma.
• Columna Múltiple de Datos: indica que cada muestra ha sido ordenada en una columna
separada.
• Columna de Datos y Claves: indica que todas las observaciones han sido ordenadas en una
sola columna, acompañada de otra para indicar a que muestra pertenece cada observación.
• Estadísticos de Muestra: indica que las observaciones originales no están disponibles. Sin
embargo, los tamaños de las muestras, las medias muestrales, y las desviaciones estándar de
las muestras han sido colocadas en 3 columnas de la hoja de datos. En este caso, algunas
opciones no estarán disponibles.
• Muestras: dos o mas columnas numéricas que contienen las observaciones, una para cada
muestra.
• Datos: columna numérica que contiene las observaciones de todas las muestras.
Salida
El resultado del procedimiento SnapStat consiste de una página de gráficas y estadísticos
numéricos.
respuesta
Task 5 12 29.5 6.00757
Task 6 11 28.8182 4.75012 35
68 32.3088 6.24203
30
25
20
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Gráfico Caja y Bigotes Tabla ANOVA
Suma de Media
Fuente Cuadrados Gl Cuadrado Razón-F
Task 1 Entre 694.439 5 138.888 4.49
Dentro de 1916.08 62 30.9045
Task 2 Total 2610.51 67
Task 3 Valor-P = 0.0015
Task 4
Contraste de Varianza
Levene's: 0.641611
Task 5
Valor-P = 0.6688
Task 6
20 25 30 35 40 45 50
respuesta
Media
33
32
31
29 29
26 27
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Note que el grupo al que se le asigno la Tarea 4 tiene la media y la desviación estándar mas alta.
• Se dibuja un cuadro que va desde el cuartil inferior de la muestra hasta el cuartil superior. Este
es el intervalo cubierto por el 50% de los valores de los datos cuando estos se ordenan del
mayor al menor.
• Se dibujan Bigotes que van desde el inicio del cuadro hasta el valor mayor y menor
de los datos, a menos que haya valores alejados del cuadro (a los cuales Tukey llama
puntos exteriores). Los puntos exteriores, los cuales están a mas de 1.5 veces el
rango intercuartil (ancho de cuadro) por arriba o por abajo del mismo, son indicados
por símbolos de puntos. Si hay puntos ubicados a mas de 3 veces el rango intercuartil
por arriba o por abajo del cuadro, son llamados puntos exteriores lejanos, y son
indicados por símbolos de puntos con un signo más en la parte superior. Si hay puntos
exteriores, los bigotes son dibujados hasta los valores mayor y menor de los datos, los
cuales no son puntos exteriores.
En los datos de la muestra, la variabilidad parece ser similar dentro de cada muestra, aunque las
ubicaciones muestran algunas diferencias. No hay puntos exteriores.
Tabla ANOVA
Esta tabla divide la variabilidad total entre las n mediciones en dos componentes:
1. Una componente “dentro de grupos”, la cual mide la variabilidad entre las tasas de
pulsación de los trabajadores de una misma tarea.
2. Una componente “entre grupos”, la cual mide la variabilidad entre las tasas de pulsación
de trabajadores de diferentes tareas.
El radio F es de particular importancia, el cual prueba la hipótesis de que las medias resultantes
para todas las muestras es la misma. Formalmente, prueba la hipótesis nula
H0: μ1 = μ2 = ... = μq
El significado estadístico del radio F es mas fácilmente juzgado por su P valor. Si el P valor es
menor que 0.05, la hipótesis nula de las medias iguales es rechazada a un nivel del significancia
del 5%, como en el ejemplo mostrado. Esto no implica que cada media sea significativamente
diferente de las demás. Simplemente muestra que no todas las medias son iguales.
Contraste de varianza
Una de las suposiciones fundamentales del análisis de la varianza es que las varianzas de las
poblaciones de las que se tomaron las muestras son iguales. Se realiza una prueba para probar las
hipótesis:
Si el P valor de la prueba es pequeño(menor que 0.05 si se trabaja con un nivel del significancia
del 5%), la hipótesis de varianzas iguales es rechazada. La prueba realizada depende de la
selección en la tabla ANOVA/Regresión del cuadro de diálogo Preferencias, accesible desde el
menú Editar.
Para los datos de tasa de pulsación, las medias muestrales son significativamente diferentes, pero
las varianzas muestrales no lo son.
MS within
Y j ± tα / 2 , n − q (1)
nj
• Intervalos LSD - diseñado para comparar cualquier par de medias con los niveles de
confianza establecidos. Los intervalos son dados por
2M MS within
Yj ± (2)
2 nj
donde M es definida como en las Pruebas de rango múltiple. Esta fórmula también se
aplica a las tres selecciones siguientes.
• Intervalos Tukey HSD - diseñados para comparar todos los pares de medias. El
intervalo de confianza establecido se aplica a toda la familia de parejas de comparación.
MS within ⎛ q −1⎞
Y ± hn − q ,1−α ⎜⎜ ⎟⎟ (3)
nj ⎝ q ⎠