Está en la página 1de 7

STATGRAPHICS – Rev.

4/25/2007

SnapStat: Comparación de Muestras Pareadas

Resumen
La SnapStat Comparación de Muestras Pareadas crea un resumen en una hoja para comparar
dos columnas de datos numéricos. Calcula estadísticas de resumen e intervalos de confianza para
las diferencias pareadas y presenta un histograma, un gráfico de caja y bigotes, un gráfico de
secuencia en el tiempo, y un gráfico de probabilidad normal. Los cálculos son un subconjunto de
los que realiza el procedimiento Comparación de Muestras Pareadas. Sin embargo, la salida
tiene un formato previo para que se ajuste a una sola hoja.

StatFolio de Ejemplo: pairedsnapstat.sgp

Datos de Ejemplo:
El archivo 93cars.sf3 contiene información de 26 variables para n = 93 marcas (Make) y modelos
(Model) de automóviles, tomada de Lock (1993). La tabla a continuación muestra una lista
parcial de 4 columnas de ese archivo:

Make Model MPG MPG


Highway City
Acura Integra 31 25
Acura Legend 25 18
Audi 90 26 20
Audi 100 26 19
BMW 535i 30 22
Buick Century 31 22
Buick LeSabre 28 19
Buick Roadmaster 25 16
Buick Riviera 27 19
Cadillac DeVille 25 16
Cadillac Seville 25 16
Chevrolet Cavalier 36 25

En este archivo, la unidad experimental es un modelo específico de automóvil. Es de interés


comparar las millas por galón (MPG) alcanzadas por un modelo particular durante su manejo en
carretera (Highway) con desempeño durante su manejo en la ciudad (City).

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 1


STATGRAPHICS – Rev. 4/25/2007

Ingreso de Datos
Los datos a analizar consisten de dos columnas numéricas de observaciones pareadas.

• Muestra 1: columna numérica que contiene el primer valor para cada unidad experimental.

• Muestra 2: columna numérica que contiene el segundo valor para cada unidad experimental.

• Selección: selección de un subgrupo de datos.

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 2


STATGRAPHICS – Rev. 4/25/2007

Salida
La salida de SnapStat es una sola página de gráficos y estadísticas numéricas.

SnapStat: Comparación de Muestras Pareadas


Histograma
Datos/Variable: MPG Highway-MPG City
Recuento = 93 18
Promedio = 6.72043
Desviación Estándar = 1.85546 15
Coeficiente de Variación = 27.6092%
12

frecuencia
Mínimo = 2.0
Máximo = 11.0
Rango = 9.0 9
Rango Intercuartílico = 3.0
Sesgo Estandarizado = -0.686851 6
Curtosis Estandarizada = -1.33445
3

0
0 2 4 6 8 10 12
MPG Highway-MPG City

Gráfico de Caja y Bigotes


Intervalos de confianza del 95%
Diferencia de Medias: 6.72043 +/- 0.382128 [6.3383, 7.10256]
Sigma: [1.62175, 2.1685]

Comparación de Medias
Hipótesis Nula: diferencia = 0
estadístico t = 34.9291
Valor-P Bilateral = 0.0000

Diagnósticos
Valor-P de Shapiro-Wilks = 0.0028
Autocorrelación en Retraso 1 = 0.172553 +/- 0.203239

0 2 4 6 8 10 12
MPG Highway-MPG City

Gráfico Secuencias Cronológicas Gráfico Normal de Probabilidad

12 99.9
MPG Highway-MPG City

99
10
95
8
porcentaje

80
6 50
20
4
5
2
1
0 0.1
0 20 40 60 80 100 0 2 4 6 8 10 12
Fila MPG Highway-MPG City

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 3


STATGRAPHICS – Rev. 4/25/2007
Resumen Estadístico (arriba a la izquierda)
La sección de arriba a la izquierda de la salida muestra un resumen estadístico para las n
diferencias pareadas. La mayoría de las 28 estadísticas disponibles caen en una de tres
categorías:

1. Medidas de tendencia central – estadísticas que caracterizan el “centro” de los datos.


2. Medidas de dispersión – estadísticas que miden la dispersión de los datos.
3. Medidas de forma – estadísticas que miden la forma de los datos con respecto a una
distribución normal.

Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la


ventana Estadísticas de la caja de diálogo Preferencias.

Para los datos de los automóviles, la diferencia promedio entre las millas por galón en el manejo
en carretera versus manejo en ciudad d = 6.72 y la desviación estándar muestral s = 1.86. La
razón de la desviación estándar y la media es el coeficiente de variación CV = 27.61%. Las
diferencias varían entre 2 y 11 en un rango R = 9. La distancia cubierta por mitad central de los
datos (el rango intercuartílico) RIC = 3. El sesgo y la curtosis estandarizados están ambos entre -
2 +2, indicando que las diferencias bien pueden haber provenido de una distribución normal.

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 4


STATGRAPHICS – Rev. 4/25/2007
Histograma de Frecuencias (arriba a la derecha)
La sección Histograma de Frecuencias presenta un diagrama de barras que muestran el número
de diferencias contenidas en intervalos adyacentes, no traslapados. El número de intervalos en
los que los datos se agrupan por omisión se establece con la regla especificada en la pestaña AED
de la caja de diálogo de Preferencia en el menú Editar.

El histograma en el gráfico anterior usa la regla “10log10(n)”, que da un número relativamente


grande de barras comparado con la regla de Sturges.

Gráfico de Caja y Bigotes (centroizquierda)


La sección central izquierda de la salida muestra un gráfico de caja y bigotes. Este gráfico se
construye de la siguiente forma:

• Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el
cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los
datos cuando se ordenan de menor a mayor.

• Se dibuja una línea vertical en la mediana (el valor de en medio).

• Si se solicita, un signo de más se coloca en el lugar de la media muestral.

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 5


STATGRAPHICS – Rev. 4/25/2007
• Los bigotes se dibujan desde los extremos de la caja hasta las diferencias pareadas
máxima y mínima, a menos que haya valores inusualmente muy alejados de la caja (a
los cuales Tukey llama puntos extremos). Los puntos atípicos, que son puntos a más
de 1.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de la
caja, se indican por símbolos de señalamiento. Cualesquiera puntos a más de 3 veces
el rango intercuartílico por arriba o por debajo de la caja se les llama puntos extremos
lejanos, y se indican por símbolos de señalamiento con signos de más superpuestos
por arriba de ellos. Si hay presentes puntos aberrantes (extremos o extremos lejanos),
los bigotes se dibujan a los valores máximo y mínimo que no sean puntos aberrantes.

El gráfico anterior, la media se encuentra ligeramente a la izquierda de la mediana debido al gran


redondeo en los datos originales.

Intervalos de Confianza y Diagnósticos (right center)


La tabla en la sección central derecha muestra intervalos de confianza para la media y la
desviación estándar de la población de diferencias pareadas. Los intervalos de confianza al 95%
se construyen de tal manera que, en repetidos muestreos, 95% de tales intervalos contendrán el
verdadero valor del parámetro que se estima. También puede ver un intervalo de confianza como
especificando el “margen de error” de la misma forma como se enuncia cuando se hace una
encuesta de opinión. En el ejemplo anterior, aunque la diferencia media en la muestra fue 6.72, la
diferencia media en la población de la cual los datos fueron muestreados bien puede diferir de
esa estimación por 0.38 en cualquier dirección.

También incluye una prueba t de la hipótesis de que la diferencia media es igual a 0. Un Valor de
P pequeño, como en el ejemplo anterior (menor de 0.05 si se trabaja al nivel de significancia del
5%), lleva a la conclusión de que la diferencia media es significativamente diferente de cero.

Los diagnósticos prueban dos importantes supuestos sobre los datos:

1. Normalidad – La prueba de Shapiro-Wilks prueba la hipótesis nula de que las


diferencias provienen de una distribución normal. Valores de P menores que 0.05
conducen al rechazo de esa hipótesis al nivel de significancia del 5%. Para los datos
del ejemplo, el pequeño valor de P indica que las diferencias posiblemente no son una
muestra de una distribución normal.

2. Independencia – La prueba de autocorrelación de retraso 1 prueba el supuesto de que


las diferencias son independientes buscando correlación entre filas consecutivas en el
archivo de datos. La estadística de autocorrelación va de –1 a 1 y debe ser cercana a 0
si los datos son independientes. En la salida se incluye un intervalo de confianza para
la autocorrelación. Si el intervalo de confianza contiene al 0, como sucede para los
datos de la muestra, no hay razón alguna para rechazar la hipótesis de independencia.

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 6


STATGRAPHICS – Rev. 4/25/2007
Gráfico de Secuencias Cronológicas (abajo a la izquierda)
El gráfico en la esquina inferior izquierda muestra las diferencias pareadas versus el número de
fila. Si los datos se colectaron en el tiempo, puede usar este gráfico para buscar tendencias u
otras características interesantes.

Gráfico de Probabilidad Normal (abajo a la derecha)


La esquina inferior derecha contiene un gráfico de probabilidad normal. Este gráfico se
construye de tal manera que, si los datos provienen de una distribución normal, los puntos caerán
aproximadamente a lo largo de una línea recta. Para ayudar a determinar que tan cerca los
puntos corresponden a una línea recta, se puede superponer una línea de referencia en el gráfico.
Con base en las definiciones de configuración en la pestaña AED de la caja de diálogo
Preferencias del menú Editar, la línea puede ajustarse:

1. Usando cuartiles – se usan la mediana y los cuartiles para determinar la media y la


desviación estándar y con ello la localización de la línea.
2. Usando mínimos cuadrados – la línea se ajusta por regresión de mínimos cuadrados.

El primer método es menos sensible a puntos atípicos que el segundo.

Las diferencias muestrales difieren bastante de la línea ajustada, particularmente en el extremo


superior, lo que implica que la población de la que provienen las diferencias probablemente
tenga una cola superior más corta que la de una distribución normal.

Cálculos
Las fórmulas usadas en este procedimiento, junto con descripciones más detalladas para cada
técnica, se encuentran en los siguientes documentos:

1. Prueba de Shapiro-Wilks – Ajuste de Distribuciones (Datos No Censurados)


2. Autocorrelación de Retraso 1 – Métodos Descriptivos (Análisis de Series de Tiempo)
3. Todas las demás estadísticas y gráficos – Análisis de Una Variable

© 2005 by StatPoint, Inc. SnapStat: Comparación de Muestras Pareadas - 7

También podría gustarte