SnapStat-Análisis de Una Muestra

STATGRAPHICS – Rev.
4/25/2007
SnapStat: Análisis de Una Muestra
Resumen
La SnapStat Análisis de Una Muestra crea un resumen en una hoja de una sola columna de
datos numéricos. Calcula estadísticas de resumen e intervalos de confianza, prueba normalidad
en los datos, y calcula la autocorrelación entre observaciones sucesivas. Las gráficas incluyen un
histograma, un gráfico de caja y bigotes, un gráfico de secuencia en el tiempo, y un gráfico de
probabilidad normal. Los cálculos son un subconjunto de los que realiza el procedimiento
Análisis de una Variable. Sin embargo, la salida tiene un formato previo para que se ajuste a una
sola hoja.
StatFolio de Ejemplo: onesamsnapstat.sgp
Datos de Ejemplo:
El archivo bodytemp.sf3 contiene datos que describen la temperatura corporal y el ritmo cardiaco
de una muestra de n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive
(www.amstat.org/publications/jse/jse_data_archive.html) y originalmente apareció en el Journal
of the American Medical Association. A continuación se muestran las primeras 20 hileras del
archivo.
Temperature Gender Heart Rate

(temperatura) (género) (ritmo cardiaco)
98.4 Male 84
98.4 Male 82
98.2 Female 65
97.8 Female 71
98 Male 78
97.9 Male 72
99 Female 79
98.5 Male 68
98.8 Female 64
98 Male 67
97.4 Male 78
98.8 Male 78
99.5 Male 75
98 Female 73
100.8 Female 77
97.1 Male 75
98 Male 71
98.7 Female 72
98.9 Male 80
99 Male 75
© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 1

STATGRAPHICS – Rev. 4/25/2007
Ingreso de Datos
Los datos a analizar consisten de una sola columna numérica con n = 2 o más observaciones.
• Datos : columna numérica que contiene los datos a resumir.
• Selección: selección de un subgrupo de datos.

Salida
La salida de SnapStat es una sola página de gráficos y estadística numéricas.
SnapStat: Análisis de Una Muestra

Histograma
Datos/Variable: Heart Rate
Recuento = 130 18
Promedio = 73.7615
Desviación Estándar = 7.06208 15
Coeficiente de variación = 9.5742%
12
frecuencia
Mínimo = 57.0
Máximo = 89.0
Rango = 32.0 9
Rango intercuartílico = 10.0
Sesgo Estándar = -0.830188 6
Curtosis Estándar = -1.07762
3
0
55 65 75 85 95
Heart Rate
Gráfico de Caja y Bigotes

Intervalos de confianza del 95%
Media: 73.7615 +/- 1.22547 [72.5361, 74.987]
Sigma: [6.29539, 8.0432]
Diagnósticos
Valor-P de Shapiro-Wilks = 0.1382
Autocorrelación en Retraso 1 = -0.0987189 +/- 0.171901
55 65 75 85 95
Heart Rate
Gráfico Secuencias Cronológicas Gráfico de Probabilidad Normal
95 99.9
99
85 95
porcentaje
Heart Rate
80
75 50
20
65 5
1
55 0.1
0 30 60 90 120 150 55 65 75 85 95
Fila Heart Rate

Resumen Estadístico (arriba a la izquierda)
La sección de arriba a la izquierda de la salida muestra un resumen estadístico para las n
observaciones. La mayoría de las 28 estadísticas disponibles caen en una de tres categorías:
1. Medidas de tendencia central – estadísticas que caracterizan el “centro” de los datos.

2. Medidas de dispersión – estadísticas que miden la dispersión de los datos.
3. Medidas de forma – estadísticas que miden la forma de los datos con respecto a una
distribución normal.
Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la

ventana Estadísticas de la caja de diálogo Preferencias.
Para los datos de ritmo cardiaco, la media muestral x = 73.76 y la desviación estándar s = 7.06.
El cociente de la desviación estándar entre la media es el coeficiente de variación CV = 9.57%.
Los datos varían entre 57 y 89 con un rango R = 32. La distancia cubierta por la mitad central de
los datos (el rango intercuartílico) RIC = 10. El sesgo y la curtosis estandarizados están ambos
entre -2 y +2, indicando que los datos bien pueden provenir de una distribución normal.

Histograma de Frecuencias (arriba a la derecha)
La sección Histograma de Frecuencias presenta un diagrama de barras que muestran el número
de observaciones contenidas en intervalos adyacentes, no traslapados. El número de intervalos en
los que los datos se agrupan por omisión se establece con la regla especificada en la pestaña AED
de la caja de diálogo de Preferencia en el menú Editar.
El histograma en el gráfico anterior usa la regla “10log10(n)”, que da un número relativamente

grande de barras comparado con la regla de Sturges.
Gráfico de Caja y Bigotes (centroizquierda)

La sección central izquierda de la salida muestra un gráfico de caja y bigotes. Este gráfico se
construye de la siguiente forma:
• Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el
cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los
datos cuando se ordenan de menor a mayor.
• Se dibuja una línea vertical en la mediana (el valor de en medio).
• Si se solicita, un signo de más se coloca en el lugar de la media muestral.

• Los bigotes se dibujan desde los extremos de la caja hasta los valores mínimo y
máximo de los datos, a menos que haya valores inusualmente muy alejados de la caja
(a los cuales Tukey llama puntos extremos). Los puntos atípicos, que son puntos a
más de 1.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de
la caja, se indican por símbolos de señalamiento. Cualesquiera puntos a más de 3
veces el rango intercuartílico por arriba o por debajo de la caja se les llama puntos
extremos lejanos, y se indican por símbolos de señalamiento con signos de más
superpuestos por arriba de ellos. Si hay presentes puntos aberrantes (extremos o
extremos lejanos), los bigotes se dibujan a los valores máximo y mínimo que no sean
puntos aberrantes.
El gráfico anterior para los datos de ritmo cardiaco es muy simétrico. El signo de más para la
media se encuentra muy cerca de la línea para la mediana, mientras que los bigotes son
aproximadamente de igual longitud. No hay puntos aberrantes.
Intervalos de Confianza y Diagnósticos (centroderecha)

La tabla en la sección central derecha muestra intervalos de confianza para la media y la
desviación estándar de la población de la que los datos fueron muestreados. Los intervalos de
confianza al 95% se construyen de tal manera que, en repetidos muestreos, 95% de tales
intervalos contendrán el verdadero valor del parámetro que se estima. También puede ver un
intervalo de confianza como especificando el “margen de error” de la misma forma como se
enuncia cuando se hace una encuesta de opinión. En el ejemplo anterior, aunque el ritmo
cardiaco promedio en la muestra fue de 73.76 la media en la población de la cual los datos
fueron muestreados bien puede diferir de esa estimación por 1.23 en cualquier dirección.
Los diagnósticos prueban dos importantes supuestos sobre los datos:
1. Normalidad – La prueba de Shapiro-Wilks prueba la hipótesis nula de que los datos

provienen de una distribución normal. Valores de P menores que 0.05 conducen al
rechazo de esa hipótesis al nivel de significancia del 5%. Para los datos del ritmo
cardiaco, no hay razón para rechazar la idea de que los datos provengan de una
distribución normal, ya que P está muy por arriba de 0.05.
2. Independencia – La prueba de autocorrelación de retraso 1 prueba el supuesto de que

los datos son independientes buscando correlación entre observaciones consecutivas
en el archivo de datos. La estadística de autocorrelación va de –1 a 1 y debe ser
cercana a 0 si los datos son independientes. En la salida se incluye un intervalo de
confianza para la autocorrelación. Si el intervalo de confianza contiene al 0, como
sucede para los datos del ritmo cardiaco, no hay razón alguna para rechazar la
hipótesis de independencia.
Gráfico de Secuencias Cronológicas (abajo a la izquierda)

El gráfico en la esquina inferior izquierda muestra los datos versus el número de fila. Si los datos
se colectaron en el tiempo, puede usar este gráfico para buscar tendencias u otras características
interesantes.

Gráfico de Probabilidad Normal (abajo a la derecha)

La esquina inferior derecha contiene un gráfico de probabilidad normal. Este gráfico se
construye de tal manera que, si los datos provienen de una distribución normal, los puntos caerán
aproximadamente a lo largo de una línea recta. Para ayudar a determinar que tan cerca los
puntos corresponden a una línea recta, se puede superponer una línea de referencia en el gráfico.
Con base en las definiciones de configuración en la pestaña AED de la caja de diálogo
Preferencias del menú Editar, la línea puede ajustarse:
1. Usando cuartiles – se usan la mediana y los cuartiles para determinar la media y la

desviación estándar y con ello la localización de la línea.
2. Usando mínimos cuadrados – la línea se ajusta por regresión de mínimos cuadrados.
El primer método es menos sensible a puntos aberrantes que el segundo.
Los datos de ritmo cardiaco corresponden muy cercanamente con la línea ajustada, lo que
implican que no hay un alejamiento significativo de una distribución normal.
Cálculos
Las fórmulas usadas en este procedimiento, junto con descripciones más detalladas para cada
técnica, se encuentran en los siguientes documentos:
1. Prueba de Shapiro-Wilks – Ajuste de Distribuciones (Datos No Censurados)

2. Autocorrelación de Retraso 1 – Métodos Descriptivos (Análisis de Series de Tiempo)
3. Todas las demás estadísticas y gráficos – Análisis de Una Variable

SnapStat-Análisis de Una Muestra

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

SnapStat-Análisis de Una Muestra

Cargado por

Copyright:

Formatos disponibles

STATGRAPHICS – Rev.

SnapStat: Análisis de Una Muestra

StatFolio de Ejemplo: onesamsnapstat.sgp

Temperature Gender Heart Rate

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 1

• Datos : columna numérica que contiene los datos a resumir.

• Selección: selección de un subgrupo de datos.

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 2

SnapStat: Análisis de Una Muestra

Gráfico de Caja y Bigotes

Gráfico Secuencias Cronológicas Gráfico de Probabilidad Normal

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 3

1. Medidas de tendencia central – estadísticas que caracterizan el “centro” de los datos.

Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 4

El histograma en el gráfico anterior usa la regla “10log10(n)”, que da un número relativamente

Gráfico de Caja y Bigotes (centroizquierda)

• Se dibuja una línea vertical en la mediana (el valor de en medio).

• Si se solicita, un signo de más se coloca en el lugar de la media muestral.

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 5

Intervalos de Confianza y Diagnósticos (centroderecha)

Los diagnósticos prueban dos importantes supuestos sobre los datos:

1. Normalidad – La prueba de Shapiro-Wilks prueba la hipótesis nula de que los datos

2. Independencia – La prueba de autocorrelación de retraso 1 prueba el supuesto de que

Gráfico de Secuencias Cronológicas (abajo a la izquierda)

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 6

Gráfico de Probabilidad Normal (abajo a la derecha)

1. Usando cuartiles – se usan la mediana y los cuartiles para determinar la media y la

El primer método es menos sensible a puntos aberrantes que el segundo.

1. Prueba de Shapiro-Wilks – Ajuste de Distribuciones (Datos No Censurados)

© 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 7

También podría gustarte