Manual Past 2 PDF

9/10/2020 Manual de referencia
Página 1
PASADO
Estadísticas paleontológicas
Versión 4.03
Manual de referencia
Martillo de Øyvind
Museo de Historia Natural
Universidad de oslo
ohammer@nhm.uio.no
de 1999 -2020
https://translate.googleusercontent.com/translate_f 1/278
Página 2
Contenido
¡Bienvenido al PASADO! .................................................. .................................................. ...................... 11
Instalación ................................................. .................................................. .......................................... 12
Inicio rápido ................................................ .................................................. ........................................... 13
¿Cómo exporto gráficos? .................................................. .................................................. ............. 13
¿Cómo organizo los datos en grupos ? .................................................. .............................................. 13
La hoja de cálculo y el menú Editar ............................................ .................................................. ....... 14
Ingresando datos ................................................ .................................................. ................................... 14
Seleccionar áreas ................................................ .................................................. ................................. 14
Mover una fila o una columna ............................................ .................................................. .................. 14
Renombrar filas y columnas .............................................. .................................................. ............ 15
Aumentando el tamaño de la matriz ............................................ .................................................. ........... 15
Cortar, copiar, pegar ............................................. .................................................. .................................. 15
Eliminar ................................................. .................................................. ........................................... 15
Colores y símbolos de filas .............................................. .................................................. .................... 15
Seleccionar tipos de datos para columnas y especificar grupos ......................................... ........................ 15
Eliminar filas / columnas no informativas ............................................. ................................................. dieciséis
Transponer ................................................. .................................................. ....................................... dieciséis
Columnas agrupadas a multivar .............................................. .................................................. ........... dieciséis
Filas agrupadas para multivar .............................................. .................................................. ................. 17
Observaciones a la tabla de contingencia .............................................. .................................................. ... 17
Apilar filas agrupadas en columnas ............................................. .................................................. ...... 17
Pares de valores a matriz .............................................. .................................................. ......................... 17
Muestras a eventos (UA a RASC) .......................................... .................................................. ............ 17
Eventos a muestras (RASC a UA) .......................................... .................................................. ............ 18
Cargando y guardando datos .............................................. .................................................. .................... 18
Página 3
Importando datos desde Excel .............................................. .................................................. ................. 19
Lectura y escritura de archivos Nexus ............................................. .................................................. ......... 19
Mostrador ................................................. .................................................. ........................................... 19
Menú Transformar ................................................ .................................................. .................................. 20
Logaritmo ................................................. .................................................. ....................................... 20
Restar media ................................................ .................................................. ................................. 20
Eliminar tendencia ................................................ .................................................. .................................. 20
Porcentaje de fila ................................................ .................................................. ............................... 20
Longitud de normalización de fila ............................................... .................................................. ....................... 20
Box-Cox ............................................... .................................................. ............................................. 21
Transformaciones de datos composicionales ............................................... .................................................. ........ 21
Quitar tamaño de distancias .............................................. .................................................. .............. 23
Puntos de referencia, ajuste de Procusto .............................................. .................................................. ............ 24
Monumentos, montaje de Bookstein .............................................. .................................................. ............. 24
Proyecto al espacio tangente AÚN NO EN EL PASADO 3 ......................................... ........................................... 25
Eliminar el tamaño de los puntos de referencia AÚN NO EN LOS ÚLTIMOS 3 ......................................... .................................... 25
Transformar hitos ................................................ .................................................. ...................... 25
Interpolación regular ................................................ .................................................. ...................... 25
Evaluar expresión ................................................ .................................................. ......................... 26
Menú de gráfico ................................................ .................................................. ............................................ 27
Grafico ................................................. .................................................. .............................................. 27
Gráfico XY ................................................ .................................................. ........................................... 28
Gráfico XY con barras de error ............................................. .................................................. .................... 29
Histograma ................................................. .................................................. ....................................... 30
Gráfico de barras / diagrama de caja ............................................. .................................................. .............................. 31
Gráfico circular ................................................ .................................................. ........................................... 33
Gráfico apilado ................................................ .................................................. ................................... 34
3
Página 4
Percentiles ................................................. .................................................. ...................................... 36
Gráfico de probabilidad normal ............................................... .................................................. .................... 37
Ternario ................................................. .................................................. ........................................... 38
Gráfico de burbujas ................................................ .................................................. ...................................... 39
Gráfico de matriz ................................................ .................................................. ....................................... 40
Parcela de mosaico ................................................ .................................................. ...................................... 41
Carta de radar ................................................ .................................................. ...................................... 42
Gráfico polar ................................................ .................................................. ......................................... 43
Gráfico de red ................................................ .................................................. ................................... 44
Gráfico de dispersión / burbuja / línea 3D ........................................... .................................................. .................. 45
Trazado de superficie 3D ............................................... .................................................. ................................. 46
Gráfica de superficie paramétrica 3D .............................................. .................................................. ................ 47
Menú univariante ................................................ .................................................. .................................. 48
Resumen estadístico ................................................ .................................................. .......................... 48
Pruebas de una muestra .............................................. .................................................. ............................... 51
Prueba t de una muestra para una media dada μ 0 (paramétrica) ..................................... ................................. 51
Prueba de rango con signo de Wilcoxon de una muestra para la mediana M dada (no paramétrica) ... 52
Pruebas de caso único .............................................. .................................................. ................................ 52
Proporción binomial ................................................ .................................................. .................... 53
Pruebas de dos muestras .............................................. .................................................. .............................. 54
Prueba t y pruebas relacionadas para medias iguales .......................................... ............................................. 54
Prueba F para varianzas iguales ............................................. .................................................. ............... 56
Prueba de Mann-Whitney para medianas iguales ........................................... .............................................. 57
Prueba de la mediana de Mood para medianas iguales ............................................ ............................................ 58
Prueba de Kolmogorov-Smirnov para distribuciones iguales ........................................... .............................. 58
Prueba de Anderson-Darling para distribuciones iguales ........................................... .................................... 60
Prueba Epps-Singleton para distribuciones iguales ........................................... ........................................ 61
Página 5
Coeficiente de variación (prueba de Fligner-Kileen) ......................................... ........................................ 61
Pruebas F y t a partir de parámetros ............................................ .................................................. ............. 63
Pruebas pareadas de dos muestras ( t , signo, Wilcoxon) ...................................... ............................................... 64
Pruebas de varias muestras .............................................. .................................................. .......................... 66
ANOVA unidireccional .............................................. .................................................. ........................... 66
Kruskal-Wallis ............................................... .................................................. ............................... 69
Pruebas de medidas repetidas de varias muestras ("ANOVA bloqueado") ...................................... ................. 72
Pruebas post-hoc por pares de Tukey ............................................ .................................................. ...... 73
Prueba de Friedman ................................................ .................................................. .............................. 73
ANOVA bidireccional .............................................. .................................................. ............................... 76
ANOVA bidireccional sin replicación ............................................ .................................................. 79
ANOVA bidireccional de medidas repetidas ............................................ .................................................. 80
Tabla de correlaciones ................................................ .................................................. ............................. 82
Correlación intraclase ................................................ .................................................. ....................... 85
Pruebas de normalidad ................................................ .................................................. ................................ 87
Tabla de contingencia (chi 2, etc.) .......................................... .................................................. ................. 90
Prueba de Cochran-Mantel-Haenszel ............................................ .................................................. ............ 92
Riesgo / probabilidades ............................................... .................................................. .......................................... 94
Proporción única ................................................ .................................................. ............................. 96
Intervalos de confianza de proporciones múltiples .............................................. ........................................... 97
Razón de recuentos intervalo de confianza ... .................................................. ... 98
Combinar errores ................................................ .................................................. .............................. 101
Menú multivar ................................................ .................................................. ................................... 102
Componentes principales ................................................ .................................................. .................... 102
Coordenadas principales ................................................ .................................................. ..................... 106
MDS no métrico .............................................. .................................................. .............................. 107
Análisis de correspondencia ................................................ .................................................. ............... 109
Página 6
Análisis de correspondencia sin tendencia ............................................... ................................................ 111
Correspondencia canónica ................................................ .................................................. ............ 112
Seriación ................................................. .................................................. ....................................... 113
Análisis factorial CABFAC ............................................... .................................................. ................... 114
Análisis discriminante ................................................ .................................................. ..................... 115
PLS de dos bloques .............................................. .................................................. .................................. 117
Análisis de redundancia (RDA) ............................................. .................................................. .............. 118
Análisis de conglomerados ................................................ .................................................. .............................. 119
Vecino uniéndose ................................................ .................................................. .......................... 121
Agrupación de K-medias .............................................. .................................................. .......................... 122
Normalidad multivariante ................................................ .................................................. .................. 123
Caja M ................................................ .................................................. .......................................... 124
MANOVA ................................................. .................................................. ...................................... 126
ANOSIM unidireccional .............................................. .................................................. ............................ 127
PerMANOVA unidireccional .............................................. .................................................. ..................... 128
ANOSIM bidireccional .............................................. .................................................. ............................ 130
ANOSIM bidireccional sin replicación ............................................ ................................................ 130
PERMANOVA bidireccional .............................................. .................................................. .................... 131
Prueba de Mantel y prueba de Mantel parcial ............................................ .................................................. .. 132
SENCILLO ................................................. .................................................. ......................................... 134
Hotelling emparejado ................................................ .................................................. ............................. 135
Técnica analógica moderna ............................................... .................................................. ............. 136
Mínimos cuadrados parciales promediados ponderados (WA-PLS) ........................................ ............................... 138
Índices de similitud y distancia .............................................. .................................................. ........ 141
Estadísticas de secuencia genética ............................................... .................................................. .................. 148
Menú modelo ................................................ .................................................. ...................................... 149
Lineal, bivariado ............................................... .................................................. .............................. 149
Página 7
Lineal, multivariante (uno independiente, n dependiente) ........................................ ............................ 153
Lineal, múltiple (uno dependiente, n independiente) ........................................ .................................. 154
Lineal, multivariante múltiple (m independiente, n dependiente) ....................................... ................. 155
Modelo lineal generalizado ............................................... .................................................. .............. 156
Regresión polinomial ................................................ .................................................. ................... 158
No lineal ................................................. .................................................. ...................................... 159
Lineal ................................................. .................................................. ........................................ 159
Cuadrático ................................................. .................................................. .................................. 159
Poder................................................. .................................................. ........................................ 160
Exponencial ................................................. .................................................. ............................... 160
Von Bertalanffy ................................................ .................................................. .......................... 160
Michaelis-Menten ............................................... .................................................. ...................... 160
Logística ................................................. .................................................. ...................................... 160
Gompertz ................................................. .................................................. .................................. 161
Gaussiano ................................................. .................................................. ................................... 161
Regresión sinusoidal ................................................ .................................................. ..................... 162
Suavizar spline ................................................ .................................................. ........................... 164
LOESS alisado ................................................ .................................................. ........................... 165
Análisis de mezcla ................................................ .................................................. ............................ 166
Modelos de abundancia ................................................ .................................................. ........................ 168
Empaque de especies (gaussiano) ............................................. .................................................. ............... 170
Espiral logarítmica ................................................ .................................................. .......................... 171
Modelado de puntos de cambio ................................................ .................................................. .................. 172
Menú de diversidad ................................................ .................................................. .................................. 174
Índices de diversidad ................................................ .................................................. ............................. 174
Riqueza de cuadrantes ................................................ .................................................. ........................... 177
Diversidad beta ................................................ .................................................. ................................. 180
Página 8
Distinción taxonómica ................................................ .................................................. ................. 182
Rarefacción individual ................................................ .................................................. .................... 184
Ejemplo de rarefacción (tau de Mao) ............................................ .................................................. ......... 187
Análisis SHE ................................................ .................................................. ................................... 188
Prueba de permutación de diversidad ............................................... .................................................. ............. 189
Prueba t de diversidad ............................................... .................................................. ................................ 190
Perfiles de diversidad ................................................ .................................................. ............................ 191
Menú de series de tiempo ............................................... .................................................. ............................... 192
Periodograma simple ................................................ .................................................. ...................... 192
Análisis espectral REDFIT ............................................... .................................................. ................. 193
Análisis espectral multitaper ............................................... .................................................. ........... 195
Transformada de Walsh ................................................ .................................................. ........................... 196
Transformada de Fourier de corta duración ............................................. .................................................. ........... 197
Transformada wavelet ................................................ .................................................. ........................ 198
Ondas para espaciado desigual .............................................. .................................................. ......... 200
Espectro de eventos puntuales ............................................... .................................................. ................... 201
Autocorrelación ................................................. .................................................. ............................ 203
Autoasociación ................................................. .................................................. ............................ 204
Correlación cruzada ............................................... .................................................. ............................ 206
Correlograma de Mantel (y periodograma) ............................................ ............................................. 207
Prueba de ejecuciones ................................................ .................................................. ........................................ 209
Prueba de tendencia de Mann-Kendall ............................................. .................................................. .................. 210
ARMA (y análisis de intervención) ............................................ .................................................. ..... 211
Modelo de aislamiento (forzamiento solar) ............................................ .................................................. ........ 213
Eventos puntuales ................................................ .................................................. ................................... 214
Cadena de Markov ................................................ .................................................. ................................. 216
Suavizadores simples ................................................ .................................................. .......................... 217
Página 9
Filtro FIR ................................................ .................................................. ......................................... 218
Conversión de fecha / hora .............................................. .................................................. ...................... 221
Menú geométrico ................................................ .................................................. ............................. 222
Direcciones (una muestra) ............................................. .................................................. ................... 222
Direcciones (dos muestras) ............................................. .................................................. .................. 225
Correlación circular ................................................ .................................................. ........................ 227
Datos esféricos (una muestra) ............................................ .................................................. .............. 228
Análisis de patrón de puntos - vecinos más cercanos ............................................ ....................................... 230
Análisis del patrón de puntos K de Ripley ............................................. .................................................. ...... 232
Análisis de correlación de longitud ............................................... .................................................. ............. 234
Análisis mínimo del árbol de expansión .............................................. .................................................. ....... 235
Alineaciones de puntos ................................................ .................................................. ............................ 237
Recuentos de cuadrantes ................................................ .................................................. .............................. 238
Autocorrelación espacial (I de Moran) ............................................ .................................................. ... 239
Gridding (interpolación espacial) ............................................. .................................................. ........ 241
Alometría multivariante AÚN NO EN LOS ÚLTIMOS 3 ........................................... .......................................... 244
PCA de puntos de referencia 2D (deformaciones relativas) .......................................... .................................................. .245
Splines de placa delgada para puntos de referencia 2D ........................................... .................................................. ... 246
Regresión lineal de puntos de referencia 2D ............................................. .................................................. ... 246
Análisis de componentes alométricos comunes para puntos de referencia 2D ........................................... ............... 247
PCA de puntos de referencia 3D .............................................. .................................................. ....................... 248
Regresión lineal de puntos de referencia 3D ............................................. .................................................. ... 248
Análisis de componentes alométricos comunes para puntos de referencia 3D ........................................... ............... 248
Distancia desde puntos de referencia (2D o 3D) AÚN NO EN LOS ÚLTIMOS 3 ..................................... ........................... 250
Todas las distancias desde los puntos de referencia (EDMA) TODAVÍA NO EN EL PASADO 3 ...................................... ....................... 250
Editar líneas / polígonos de referencia ............................................. .................................................. ........... 250
Análisis de forma elíptica de Fourier .............................................. .................................................. ......... 251
Página 10
Análisis de forma de Hangle Fourier .............................................. .................................................. ......... 252
Transformación de coordenadas ................................................ .................................................. ........... 253
Mapa de calles abierto ............................................... .................................................. ............................ 254
Menú de estratigrafía ................................................ .................................................. ............................. 255
Asociaciones unitarias ................................................ .................................................. ...................... 255
Escala de clasificación ............................................... .................................................. ............................... 260
Optimización restringida (CONOP) ............................................. .................................................. .. 262
Intervalos de confianza de rango ............................................... .................................................. ............ 263
Intervalos de confianza de rango libre de distribución ............................................ ...................................... 264
Carta estratigráfica ................................................ .................................................. ......................... 265
Secuencias de comandos ................................................. .................................................. ............................................ 267
Estructura del idioma ................................................ .................................................. ........................ 267
La ventana de salida ............................................... .................................................. ........................ 273
Accediendo a la hoja de cálculo Pasado principal ............................................. ................................................ 274
Operaciones de matrices y vectores .............................................. .................................................. ........... 275
Funciones matemáticas escalares ............................................... .................................................. ..................... 275
E / S de archivo .............................................. .................................................. ............................................. 276
Operaciones de cadena ................................................ .................................................. ........................... 277
Otras funciones ................................................ .................................................. ............................. 279
Llamar a funciones dll (solo Windows) ........................................... .................................................. .. 279
Bibliotecas y clases ............................................... .................................................. ....................... 281
Formas y componentes ............................................... .................................................. .................. 281
10
Página 11
¡Bienvenido al PASADO!
Este programa fue diseñado originalmente como una continuación de PALSTAT, un paquete de software para
análisis de datos paleontológicos escrito por PD Ryan, DAT Harper y JS Whalley (Ryan et al. 1995 ).
A través del desarrollo continuo durante más de veinte años, PAST se ha convertido en un
paquete de estadísticas utilizado no solo por los paleontólogos, sino en muchos campos de las ciencias de la vida, ciencias de la tierra,
ingeniería y economía.
Se encuentran más explicaciones de muchas de las técnicas implementadas junto con historias de casos.
en el libro “Paleontological Data Analysis” (Hammer & Harper 2005).
Si tiene preguntas, informes de errores, sugerencias de mejoras u otros comentarios, estaremos

feliz de saber de ti. Contáctenos en ohammer@nhm.uio.no . Para informes de errores, recuerde enviarnos
los datos utilizados, guardados de PAST, junto con una descripción completa de las acciones que conducen a
el problema.
Se encuentra la última versión de Past, junto con la documentación y un enlace a la lista de correo Past.
a
http://folk.uio.no/ohammer/past
Agradecemos que cite PAST en publicaciones científicas. La referencia oficial es Hammer et al.
(2001).
Referencias
Martillo, Ø. & Harper, DAT 2006. Análisis de datos paleontológicos. Blackwell.
Hammer, Ø., Harper, DAT y PD Ryan, 2001. PASADO: Paquete de software de estadísticas paleontológicas
para la educación y el análisis de datos. Palaeontologia Electronica 4 (1): 9pp.
Harper, DAT (ed.). 1999. Paleobiología numérica. John Wiley & Sons.
11
Pagina 12
Instalación
Ventanas
Simplemente descargue el archivo 'Past4.zip' (comprimido) y colóquelo en cualquier lugar de su disco duro. Haciendo doble clic en el
archivo iniciará el programa. Windows considerará esto una violación de la seguridad y le preguntará si confía
el proveedor de software. Si desea utilizar el programa, deberá responder afirmativamente.
Le sugerimos que cree una carpeta llamada 'pasado' en cualquier lugar de su disco duro y coloque todos los archivos en este
carpeta.
La falta de instalación "formal" de Windows es intencionada y permite la instalación sin administrador.

privilegios.
Mac
Para Mac, descargue el paquete 'dmg'. Debe permitir que el sistema instale aplicaciones que no sean de
AppStore o desarrolladores identificados:
• Ir a Preferencias del sistema

• Elija seguridad y privacidad
• Haga clic en el pequeño candado (abajo a la izquierda) y escriba su contraseña
• Seleccione En cualquier lugar en la opción "Permitir descargas de aplicaciones".
• Ejecute Past.dmg (haga clic en el archivo).
Luego, restaure las opciones de seguridad en Mac App Store o Mac App o desarrolladores identificados.
12
Página 13
Inicio rápido
El pasado se explica hasta cierto punto por sí mismo, pero un par de funciones importantes son un poco difíciles de encontrar:
¿Cómo exporto gráficos?

Para calidad de publicación, guarde el gráfico en SVG o PDF
formato vectorial. Haga clic en el botón "Configuración de gráficos" junto al
gráfico. En la ventana de preferencias del gráfico, haga clic en "Exportar
botón de imagen "(flecha a la derecha). Puede abrir archivos SVG en
Adobe Illustrator, Corel Draw o el programa gratuito Inkscape.
Los archivos SVG son compatibles con la mayoría de los navegadores web y pueden
colocado directamente en una página web.
También puede exportar la imagen en formatos de mapa de bits (JPG, TIF

etc.), pero la calidad es menor y no se puede editar fácilmente
gráfico. O puede copiar y pegar la imagen como mapa de bits
haciendo clic en el botón "Copiar" debajo del gráfico.
¿Cómo organizo los datos en grupos ?

Esto requiere una columna de grupo separada, con un identificador de grupo para cada fila. En el ejemplo (1) hay
es una columna de grupo "Litología", con dos grupos LS y MS. Para especificar que "Litología" es un grupo
columna, primero seleccione el cuadro "Atributos de columna" encima de la hoja de cálculo. Esto mostrará dos extra
filas en la parte superior de la hoja de cálculo (2). Luego, haga clic varias veces en la celda "Tipo" de la columna del grupo,
para que aparezca un menú en el que seleccione "Grupo" (3). Luego haga clic en otro lugar para actualizar, y puede
anule la selección de "Atributos de columna" si lo desea. La columna del grupo ahora debería estar marcada con una G (4).
1) 2)
3) 4)
13
Página 14
La hoja de cálculo y el menú Editar

PAST tiene una interfaz de usuario similar a una hoja de cálculo. Los datos se ingresan como una matriz de celdas, organizadas en filas
(horizontalmente) y columnas (verticalmente).
Ingresando datos
Para ingresar datos en una celda, haga clic en la celda con el mouse y escriba los datos. Las células también pueden ser
navegado usando las teclas de flecha. Se puede ingresar cualquier texto en las celdas, pero la mayoría de las funciones esperan
números. Tanto la coma (,) como el punto decimal (.) Se aceptan como separadores decimales.
Los datos de ausencia / presencia se codifican como 0 o 1, respectivamente. Cualquier otro número positivo será
interpretado como presencia. Las matrices de ausencia / presencia se pueden mostrar con cuadrados negros para las presencias
marcando la casilla 'Modo cuadrado' sobre la matriz.
Los datos de la secuencia genética se codifican utilizando C, A, G, T y U (también se aceptan minúsculas).
Los datos que faltan se codifican con signos de interrogación ('?'). A menos que el soporte para datos faltantes sea específicamente
indicado en la documentación de una función, la función no manejará correctamente los datos faltantes , así que
Cuidado.
La convención en PAST es que los elementos ocupan filas y columnas de variables. Tres braquiópodos
Por tanto, los individuos pueden ocupar las filas 1, 2 y 3, con sus longitudes y anchuras en las columnas A y B.
El análisis de conglomerados siempre agrupará elementos , es decir, filas. Para el análisis de asociaciones en modo Q, muestras
Por lo tanto, los (sitios) deben ingresarse en filas, mientras que los taxones (especies) están en columnas. Para cambiar
entre el modo Q y el modo R, las filas y columnas se pueden intercambiar fácilmente utilizando la función Transpose
operación.
Seleccionar áreas
La mayoría de las operaciones en PASADO solo se llevan a cabo en el área de la matriz que ha seleccionado
(marcado). Si intenta ejecutar una función que espera datos y no se ha seleccionado ningún área, obtendrá
un mensaje de error.
• Se selecciona una fila haciendo clic en la etiqueta de la fila (columna más a la izquierda).
• Una columna se selecciona haciendo clic en la etiqueta de la columna (fila superior).
• Se seleccionan varias filas seleccionando la etiqueta de la primera fila, luego Mayús-clic (haciendo clic con
la tecla Mayús hacia abajo) en las etiquetas de filas adicionales.
• Varias columnas se marcan de manera similar al presionar Mayús y hacer clic en las etiquetas de columna adicionales.
• También puede seleccionar filas o columnas disjuntas haciendo ctrl-clic.
• La matriz completa se puede seleccionar haciendo clic en la esquina superior izquierda de la matriz (el gris vacío
celda) o eligiendo 'Seleccionar todo' en el menú Editar.
• Se pueden seleccionar áreas más pequeñas dentro de la matriz haciendo clic y presionando Mayús y haciendo clic.
Mover una fila o una columna
Seleccione el botón 'Arrastrar filas / columnas' en el cuadro 'Modo clic'. Ahora se puede mover una fila o una columna
simplemente haciendo clic en la etiqueta y arrastrándola a la nueva posición.
14
Página 15
Cambiar el nombre de filas y columnas
Cuando comienza PAST, las filas están numeradas del 1 al 99 y las columnas están etiquetadas de la A a la Z. Para su propia
referencia, y para un etiquetado adecuado de los gráficos, debe dar a las filas y columnas más descriptivas
pero nombres cortos.
Seleccione la opción 'Atributos de fila' encima de la hoja de cálculo para ver una columna editable de la fila
nombres. Seleccione la opción 'Atributos de columna' para ver una fila editable de los nombres de las columnas.
Aumentando el tamaño de la matriz
De forma predeterminada, PAST tiene 99 filas y 26 columnas. Si necesita más, puede agregar filas o columnas
seleccionando "Insertar más filas" o "Insertar más columnas" en el menú Editar. Las filas / columnas serán
insertado antes del área marcada, o en la parte inferior / derecha si no se selecciona ningún área. Al cargar grandes
Los archivos de datos, filas y / o columnas se agregan automáticamente según sea necesario.
Cortar, copiar, pegar
Las funciones de cortar, copiar y pegar se encuentran en el menú Editar. Puede cortar / copiar datos del PASADO
hoja de cálculo y pegar en otros programas, por ejemplo, Word y Excel. Asimismo, datos de otros
los programas se pueden pegar en PASADO; estos deben tener un formato de texto separado por tabuladores.
Antes de pegar, seleccione la celda superior izquierda del área de la hoja de cálculo en Pasado en la que desea pegar. Tomar
tenga cuidado de no pegar en los campos de atributos de fila y columna posiblemente ocultos, a menos que lo desee.
Eliminar
La función de eliminar (menú Editar) le permite eliminar las filas o columnas seleccionadas de la
hoja de cálculo. El área eliminada no se copia en el búfer de pasta.
Colores y símbolos de filas
A cada fila se le puede asignar un color y un símbolo (punto, cruz, cuadrado, etc., o imagen definida por el usuario). Estas
se utilizará en diagramas de dispersión y otros diagramas. Seleccione la opción 'Atributos de fila' para editar las filas y
colores individualmente, o use la función 'Colores / símbolos de fila' para configurar todas las filas seleccionadas simultáneamente
(opcionalmente basado en el grupo, ver más abajo).
Seleccionar tipos de datos para columnas y especificar grupos
A cada columna se le puede asignar un tipo de datos utilizando el modo 'Atributos de columna'. Seleccione la 'Columna
cuadro de atributos sobre la hoja de cálculo. Luego haga clic en la celda 'Tipo' de la columna varias veces para
abre un pequeño menú donde se puede seleccionar el tipo de datos. Los tipos de datos son los siguientes:
Sin especificar (-)
Este es el tipo de datos predeterminado.
15
Página 16
Ordinal, nominal o binario
Solo es necesario especificar uno de estos tipos si desea utilizar medidas mixtas de similitud / distancia.
Grupo
En una columna de grupo, puede ingresar identificadores para grupos de datos. Puede usar números enteros o cadenas como
como 'machos' y 'hembras' (sin los apóstrofes). Esto permitirá polígonos o elipses basados en grupos
en diagramas de dispersión. También se requiere una columna de grupo para muchos análisis, como MANOVA. Está
Se recomienda tener filas en el mismo grupo que consecutivas. Algunos análisis (por ejemplo, ANOVA bidireccional)
requieren dos o más columnas de grupo.
Tenga en cuenta que, a diferencia de las versiones anteriores de Past, no existen vínculos automáticos entre colores, símbolos y
grupos. Si desea utilizar diferentes colores y / o símbolos para diferentes grupos, puede configurar el
columna de grupo primero y luego use la función 'Colores / símbolos de fila' en el menú Editar para asignar
colores / símbolos en consecuencia.
Cuerda
Hasta ahora, este tipo solo se usa en el módulo de carta estratigráfica, para especificar nombres de períodos, zonas
etc.
Eliminar filas / columnas no informativas
Las filas o columnas pueden ser poco informativas, especialmente con respecto a los análisis multivariados. Tales filas
y las columnas deben considerarse para su eliminación. Se pueden buscar y eliminar varios tipos:
Filas o columnas con solo ceros, filas o columnas con solo datos faltantes ('?'), Filas o columnas
con solo una celda distinta de cero (singletons), filas o columnas con valores constantes (varianza cero).
Transponer
La función Transponer, en el menú Editar, intercambiará filas y columnas. Esto se utiliza, por ejemplo, para
cambiar entre el modo R y el modo Q en análisis de conglomerados, análisis de componentes principales y
seriación.
Columnas agrupadas a multivar
Convierte de un formato con elementos multivariados presentados en grupos consecutivos de N columnas al

Formato anterior con un elemento por fila y todas las variaciones a lo largo de las columnas. Para N = 2, dos muestras y
anuncio de cuatro variables, la conversión es de
a1b1a2b2
c1d1c2d2
a1b1c1d1
a2b2c2d2
dieciséis
Página 17
Filas agrupadas para multivar
Convierte de un formato con elementos multivariados presentados en grupos consecutivos de N filas al
Formato anterior con un elemento por fila y todas las variaciones a lo largo de las columnas. Para N = 2, dos muestras y
anuncio de cuatro variables, la conversión es de
a1b1
c1d1
a2b2
c2d2
a1b1c1d1
a2b2c2d2
Observaciones a la tabla de contingencia

Espera dos columnas de datos. Cada fila es una observación. Cada columna contiene categorías codificadas como
números, por ejemplo, hombres = 0, mujeres = 1 en la primera columna; Europeo = 1, Africano = 3, Asiático = 5 en el segundo
columna. Se cuentan las ocurrencias de diferentes combinaciones, dando una tabla de contingencia que puede
ser analizados con el módulo 'Tabla de contingencia' (menú Univariante).
Apilar filas agrupadas en columnas
Apila grupos horizontalmente a lo largo de columnas. Esto puede ser útil, por ejemplo, para realizar estadísticas univariadas.
en pares de columnas entre grupos.
Pares de valores a la matriz
Muy similar a “Observaciones a la tabla de contingencia”. Espera dos columnas de datos, números o
instrumentos de cuerda. Cada fila es una observación. Cada columna contiene categorías, por ejemplo, Europa, África, Asia en el
primera columna; Perros, gatos, zorros en la segunda columna. Las ocurrencias de diferentes combinaciones son
contados, dando una matriz de datos completa, en este caso con localidades en columnas y taxones en filas.
Muestras a eventos (UA a RASC)
Dada una matriz de datos de ocurrencias de taxones en un número de muestras en un número de secciones, como se utiliza
por el módulo de Asociaciones Unitarias, esta función convertirá cada sección en una sola fila con
órdenes de eventos (FAD, LAD o ambos) según lo esperado por el módulo de escala de clasificación. Eventos vinculados (en el
misma muestra) recibirán la misma clasificación.
17
Página 18
Eventos a muestras (RASC a UA)
Espera una matriz de datos con secciones / pozos en filas y taxones en columnas, con valores FAD y LAD en
columnas alternas (es decir, dos columnas por taxón). Se convierte a las asociaciones unitarias
formato de presencia / ausencia con secciones en grupos de filas, muestras en filas y taxones en columnas.
Cargar y guardar datos
La función 'Abrir' está en el menú Archivo. También puede arrastrar un archivo desde el escritorio al PAST
ventana. PAST utiliza un formato de archivo de texto para facilitar la importación desde otros programas (por ejemplo, Word), de la siguiente manera:
La celda superior izquierda debe contener dos puntos (:). Las celdas están separadas por tabuladores. Hay dos filas superiores con datos.
tipos y nombres de columnas, y tres columnas de la izquierda con colores, símbolos y nombres de filas. Aquí hay un
ejemplo:
: - - - Grupo
Lento Medicina Rápido Especies
Negro Punto norte 4 2 3 0
Negro Punto Sur 4 3 7 0
rojo Punto Oeste 18 24 33 1
rojo Punto Este 10 6 7 1
Se pueden agregar campos adicionales opcionales al final del archivo:
<imagen n> Nombre de archivo

Especifica un nombre de archivo de imagen que se utilizará para el símbolo 'Imagen n', n = 1 a 8.
Además de este formato, Past también puede detectar y abrir archivos en los siguientes formatos:
• Sobresalir; solo la primera hoja de trabajo y solo el formato .XLS, no .XLSX.

• Nexus (ver más abajo), popular en sistemática.
• Formato TPS desarrollado por Rohlf. Los campos de referencia, contornos, curvas, id, escala y comentario
son compatibles, otros campos se ignoran.
• NTSYS. No se admiten varias tablas y árboles. El archivo debe tener la extensión '.nts'.
• Formato de secuencia molecular FASTA, especificación simplificada según NCBI.
• Formato de secuencia molecular PHYLIP. El archivo debe tener la extensión '.phy'.
• Formato de secuencia molecular de Arlequin. Para los datos de genotipo, los dos haplotipos son
concatenados en una fila. No se admiten todas las opciones.
• Formato BioGraph para bioestratigrafía (formato SAMPLES o DATUM). Si un segundo archivo con el
mismo nombre pero se encuentra la extensión '.dct', se incluirá como un diccionario BioGraph.
• Formato RASC para bioestratigrafía. Debe abrir el archivo .DAT y el programa espera
correspondientes archivos .DIC y .DEP en el mismo directorio.
• Formato CONOP para bioestratigrafía. Debe abrir el archivo .DAT (archivo de registro) y el programa
espera los archivos .EVT (evento) y .SCT (sección) correspondientes en el mismo directorio.
Si no se reconoce el archivo, se supone que es un archivo de texto general con valores separados por blanco
espacio, tabulaciones o comas. A continuación, el programa le preguntará sobre el formato del archivo.
18
Página 19
Importando datos desde Excel
Hay varias formas de obtener datos de Excel a Past.
• Copie desde Excel y péguelo en PASADO. Asegúrese de hacer clic (seleccionar) en la celda superior izquierda donde
los datos deben colocarse en Pasado antes de pegar. Esto dependerá de si la fila o la columna
los atributos están incluidos en los datos.
• Abra el archivo Excel de PAST (solo .XLS, no .XLSX)
• Guardar como texto separado por tabulaciones en Excel. El archivo de texto resultante se puede abrir en PASADO.
Leer y escribir archivos Nexus
El formato de archivo Nexus es utilizado por muchos programas de sistemática. PASADO puede leer y escribir los datos
(matriz de caracteres) bloque del formato Nexus. Se admiten datos intercalados. Además, si tienes
realizó un análisis de parsimonia y la ventana 'Análisis de parsimonia' está abierta, todos los árboles más cortos
escribirse en el archivo Nexus para su posterior procesamiento en otros programas (por ejemplo, MacClade o Paup). Nota
que no todas las opciones de Nexus son compatibles actualmente.
Mostrador
Una función de contador está disponible en el menú Editar para usar, por ejemplo, en el microscopio al contar
microfósiles de diferentes taxones. Debe seleccionarse una sola fila (muestra). La ventana del mostrador se abrirá
con un número de contadores, uno para cada columna seleccionada (taxón). Los contadores se inicializarán
con las etiquetas de las columnas y los recuentos ya presentes en la hoja de cálculo. Al cerrar el mostrador
ventana, se actualizarán los valores de la hoja de cálculo.
Cuente hacia arriba (+) o hacia abajo (-) con el mouse, o hacia arriba con las teclas 0-9 y az (solo los primeros 36 contadores).
Las barras representan abundancia relativa. Se proporciona un registro de eventos en el extremo derecho: desplácese hacia arriba y hacia abajo
con el mouse o las teclas de flecha. Una retroalimentación auditiva opcional tiene un tono específico para cada contador.
19
Página 20
Transformar menú
Estas rutinas someten sus datos a operaciones matemáticas. Esto puede resultar útil para resaltar
características en sus datos, o como un paso previo al procesamiento necesario para algunos tipos de análisis.
Logaritmo
La función Log en el menú Transformar log transforma sus datos usando el logaritmo en base 10. Si el
Los datos contienen valores cero o negativos, puede ser necesario agregar una constante (por ejemplo, 1) antes de log-
transformando (use Evaluar Expresión x + 1).
Esto es útil, por ejemplo, para comparar su muestra con una distribución logarítmica normal o para ajustar a una
modelo exponencial. Además, los datos de abundancia con unos pocos taxones muy dominantes pueden transformarse logarítmicamente en
para reducir el peso de esos taxones.
Se admiten datos faltantes.
Restar media
Esta función resta la media de la columna de cada una de las columnas seleccionadas. Los medios no pueden ser
calculado por filas.
Se admiten valores faltantes.
Eliminar tendencia
Esta función elimina cualquier tendencia lineal de un conjunto de datos (dos columnas con pares XY o una columna
con valores de Y). Esto se hace restando una línea de regresión lineal de los valores de Y. La eliminación de la
La tendencia puede ser una operación útil antes de los análisis de series de tiempo, como análisis espectral, auto- y
correlación cruzada y ARMA.
Porcentaje de fila
Todos los valores convertidos al porcentaje de la suma de la fila. Se admiten valores faltantes.
Fila normalizar la longitud
Todos los valores divididos por la norma euclidiana de la fila. A esto a veces se le llama transformación de acordes.
20
Página 21
Box-Cox
La transformación Box-Cox es una familia de transformaciones de poder con el propósito de hacer que los datos x
distribuido más normalmente. La transformación tiene un parámetro λ :
⎧X λ - 1
│ λ ≠0
y=⎨ λ
│ λ =
⎩
⎩ en X 0
Si el valor de entrada más pequeño es cero o negativo (lo que invalidaría la transformación), una constante es
agregado a todos los datos de manera que el valor mínimo de entrada sea 1.
El valor predeterminado del parámetro se calcula maximizando la función de probabilidad logarítmica:
norte
λ = - norte
L () en σˆ λ + (λ - 1 ) ∑en Xyo ,
2
2 yo= 1
donde σ 2 λ es la varianza de los datos transformados. Este valor óptimo puede ser cambiado por el usuario,
limitado al rango -4 ≤ λ ≤ 4.
Transformaciones de datos composicionales
Los datos multivariados que suman una constante por diseño, como los porcentajes que suman 100, se denominan
datos de composición (Aitchison 1986). Dichos datos contienen correlaciones "falsas" porque como un valor
aumenta, los demás tendrán que disminuir. Algunos análisis y pruebas multivariados como PCA pueden ser
afectado negativamente por esto. Past incluye tres transformaciones de uso común que se pueden aplicar a
datos de composición antes de un análisis posterior.
Los datos deben tener el formato multivariado habitual, con variables en columnas y elementos en filas. los
los valores de cada fila deben sumar una constante, por ejemplo, 1 o 100. No se permiten valores negativos, y
los datos faltantes no son compatibles.
Logística aditiva (ALR)
Los datos de entrada (una fila) son un vector x con N dimensiones

1
alr () = [ln , ⋯, en ]
Ese último elemento es igual a cero, lo que muestra que los datos transformados tienen dimensión N -1. Como el
ALR se calcula con respecto al último elemento x N , puede ser una buena idea colocar un
variable con valores altos en la última columna.
21
Página 22
Centro de logratio (CLR)
1
clr () = [ln , ⋯, en ]
g () g ()
donde g ( x ) es la media geométrica del vector de datos. Esto es equivalente a una transformación de registro simple
seguido de la resta de la media.
Relación logarítmica isométrica (ILR)
La transformada de logratio isométrica fue introducida por Egozcue et al. (2003). Tiene algo bueno
propiedades teóricas, pero los resultados son difíciles de interpretar porque las variables transformadas son
combinaciones complicadas de las variables originales.
Definir una matriz H 0 con dimensiones N x N , con unos en la primera fila y cada fila posterior j
que contiene j -1 unos seguidos por el valor - ( j -1) en la diagonal seguido de ceros:
1 1 1 1 ⋯ 1
1 −1 0 0 ⋯ 0
1 1 −2 0 ⋯ 0
=
1 1 1 −3 ⋯ 0
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
[1 1 1 1 ⋯ - (- 1)]
Luego, normalice cada fila a la longitud unitaria. Esto le da a la llamada Helmert matriz H de orden N .
Quite la primera fila de unos, dando una matriz V ( N -1) x N (teníamos esa primera fila allí solo para hacer la
conexión a la matriz de Helmert). Finalmente, aplique la logratio central a los datos y multiplique previamente con
- V para obtener el ilr:
ilr () = - clr ()
El signo negativo se incluye solo para reproducir los resultados del paquete compositivo en R. También
tenga en cuenta que R define la matriz de Helmert como la transpuesta de H anterior.
El vector de datos transformado tiene dimensiones N -1. La última columna N está llena de ceros como referencia,
y no debe incluirse en un análisis posterior.
Tratamiento de valores cero
Las tres transformaciones implican la transformación logarítmica de los datos originales, por lo que los valores cero no se pueden transformar
directamente. El pasado trata los valores cero siguiendo la ecuación (6) de Martin-Fernandez et al. (2003):
si = 0
={
(1 - ) si > 0
22
Página 23
Aquí, δ es un valor pequeño, que se aproxima al límite de detección inferior de las mediciones. Este valor
el usuario puede configurarlo en el cuadro "Umbral cero" (predeterminado 0.01). La z es el número de ceros en el
vector de datos original, mientras que c es la suma total, calculada a partir de los datos (por ejemplo, 100 para los porcentajes).
Referencias
Aitchison J. 1986. El análisis estadístico de datos composicionales . Chapman y Hall.
Egozcue, JJ, Pawlowsky-Glahn, V., Mateu-Figueras, G. y Barcelo-Vidal, C. 2003. Logística isométrica

transformaciones para el análisis de datos composicionales. Geología matemática 35: 279-300.
Martin-Fernandez, JA, Barceló-Vidal, C., Pawlowsky-Glahn, V. 2003. Tratando con ceros y faltantes
valores en conjuntos de datos de composición utilizando imputación no paramétrica. Geología matemática 35: 253-
278.
Quitar el tamaño de las distancias
Intenta eliminar el componente de tamaño de un conjunto de datos multivariados de distancias medidas

(ejemplares en filas, variables en columnas). Hay tres métodos disponibles.
• El método isométrico de Burnaby proyecta el conjunto de distancias medidas en un espacio ortogonal

al primer componente principal. El método de Burnaby puede (¡o no!) Eliminar el tamaño isométrico
a partir de los datos, para un mayor análisis de datos "sin tamaño". Tenga en cuenta que la implementación en PASADO
no centra los datos dentro de los grupos, asume que todas las muestras (filas) pertenecen a una
grupo.
• El método alométrico de Burnaby transformará los datos antes de la proyección, por lo que es posible
eliminando también de los datos la variación de forma alométrica dependiente del tamaño.
• Coeficientes alométricos de estimaciones alométricas vs. estándar con respecto a un estándar
(referencia) medida L como la longitud total (Elliott et al. 1995). Esta variable estándar
debe colocarse en la primera columna. Cada columna adicional se retrocede a la primera
columna después de la transformación logarítmica, dando una pendiente (coeficiente alométrico) b para esa variable. Un
La medición ajustada se calcula a partir del valor original M como
segundo
⎛L ⎞
METRO
adj.
= METRO
│
│ ││.
⎝L ⎠
Referencia
Elliott, NG, K. Haskard y JA Koslow 1995. Análisis morfométrico del reloj anaranjado ( Hoplostethus
atlanticus ) frente al talud continental del sur de Australia. Journal of Fish Biology 46: 202-220.
23
Página 24
Hitos, Procusto apropiado
Transforma las coordenadas de sus puntos medidos en coordenadas Procrustes. También hay una opción de menú.
para las coordenadas de Bookstein. Los especímenes van en diferentes filas y puntos de referencia a lo largo de cada fila. Si usted tiene
tres muestras con cuatro puntos de referencia en 2D, sus datos deben tener el siguiente aspecto:
x1 y1 x2 y2 x3 y3 x4 y4
x1 y1 x2 y2 x3 y3 x4 y4
x1 y1 x2 y2 x3 y3 x4 y4
Para 3D, los datos serán similares, pero con columnas adicionales para z .
Los datos de referencia en este formato podrían analizarse directamente con los métodos multivariados en PAST, pero
Se recomienda estandarizar a las coordenadas de Procrustes eliminando la posición, el tamaño y la rotación. UN
se logra una mayor transformación a residuos de Procrustes (coordenadas espaciales tangentes aproximadas)
seleccionando 'Restar media' en el menú Editar. Primero debe convertir a coordenadas Procrustes, luego
a los residuos de Procrustes.
La opción "Girar al eje principal" coloca el resultado en una orientación estándar para mayor comodidad.
La opción "Mantener tamaño" agrega un paso final en el que las formas se reducen a su centroide original.
Tamaños.
Dryden & Mardia ofrece una descripción detallada de Procrustes y las coordenadas espaciales tangentes.
(1998). Los algoritmos para el ajuste de Procrustes son de Rohlf & Slice (1990) (2D) y Dryden & Mardia
(1998) (3D). Cabe señalar que para 2D, el algoritmo iterativo de Rohlf y Slice (1990) a menudo da
resultados ligeramente diferentes del algoritmo directo de Dryden y Mardia (1998). El pasado usa el primero en
para seguir el "estándar de la industria".
Los datos faltantes son compatibles, pero solo mediante la sustitución del promedio de columnas, que quizás no sea muy
significativo.
Referencias
Dryden, IL y KV Mardia 1998. Análisis estadístico de formas. Wiley.
Rohlf, FJ & Slice, D. 1990. Extensiones del método Procrustes para la superposición óptima de
puntos de referencia. Zoología sistemática 39: 40-59.
Monumentos, montaje de Bookstein
El accesorio Bookstein tiene una función similar al accesorio Procrustes, pero simplemente estandariza el tamaño, la rotación y
escala forzando los dos primeros puntos de referencia en las coordenadas (0,0) y (1,0). No es de uso común
hoy. El ajuste de Bookstein solo se implementa para 2D.
24
Página 25
Proyecto al espacio tangente AÚN NO EN EL PASADO 3
Después del ajuste de Procrustes o Bookstein, algunos procedimientos estadísticos se llevan a cabo idealmente en la tangente
coordenadas espaciales proyectadas (por lo general, no hay ninguna diferencia, ¡pero no nos cites en eso!).
Con d el número de dimensiones yp el número de puntos de referencia, la proyección es
X = ′ IX ( dp
- XX
t
C
). c
Aquí, X es la matriz n x dp de n especímenes, X 'es la matriz transformada, I la matriz identidad dp x dp ,

y X c la configuración media (consenso) como un vector fila de elementos dp .
Eliminar el tamaño de los puntos de referencia AÚN NO EN EL PASADO 3

La opción 'Eliminar tamaño de puntos de referencia' en el menú Transformar le permite eliminar el tamaño
dividir todos los valores de coordenadas por el tamaño del centroide para cada espécimen (las coordenadas de Procrustes también son
normalizado con respecto al tamaño).
Véase Dryden y Mardia (1998), pág. 23-26.
Referencia
Transformar puntos de referencia
Permite la rotación de la nube de puntos en pasos de 90 grados y volteo de arriba a abajo o de izquierda a derecha
(espejo), principalmente por conveniencia de trazado. La operación de espejo puede ser útil para reducir
Datos de referencia bilateralmente simétricos, por Procrustes ajustando la mitad izquierda a una versión reflejada del
mitad derecha (y, opcionalmente, promediar las dos).
Solo para coordenadas 2D.
Interpolación regular
Interpola una serie de tiempo o transecto muestreados irregularmente (posiblemente multivariante) en una
espaciado, como requieren muchos métodos para el análisis de series de tiempo. Los valores de x deben estar en el primer
columna seleccionada. Estos serán reemplazados por una serie que aumentará regularmente. Todos los seleccionados adicionales
las columnas se interpolarán correspondientemente. Deben tenerse en cuenta los peligros de la interpolación.
Puede especificar el número total de puntos interpolados o el nuevo espaciado de puntos. Cuatro
Hay disponibles métodos de interpolación. La interpolación antialiasing usa un filtro sinc (FIR) de 50 puntos
con una ventana de Hamming, filtrado de paso bajo a la mitad de la nueva frecuencia de muestreo (promediado para
muestreo) para reducir el aliasing al reducir el muestreo.
25
Página 26
Evaluar expresión
Esta poderosa característica permite operaciones matemáticas flexibles en la matriz de datos seleccionada. Cada
Se evalúa la celda seleccionada y el resultado reemplaza el contenido anterior. Una expresión matemática
debe introducirse, que puede incluir cualquiera de los operadores +, -, *, /, ^ (potencia) y mod (módulo). también
soportados son corchetes (), y las funciones abs, atan, asin, cos, sin, exp, ln, sqrt, sqr, round y
trunc.
También se definen los siguientes valores:
• x (el contenido de la celda actual)

• l (la celda de la izquierda si existe, de lo contrario 0)
• r (la celda de la derecha)
• u (la celda de arriba o arriba)
• d (la celda de abajo o abajo)
• mean (el valor medio de la columna actual)
• min (el valor mínimo)
• max (el valor máximo)
• n (el número de celdas en la columna)
• yo (el índice de fila)
• j (el índice de la columna)
• aleatorio (número aleatorio uniforme de 0 a 1)
• normal (número aleatorio gaussiano con media 0 y varianza 1).
• integral (suma acumulada de la columna actual)
• stdev (desviación estándar de la columna actual)
• sum (suma total de la columna actual)
Además, se puede hacer referencia a otras columnas utilizando el nombre de la columna precedido por '%', por ejemplo
%UN.
Ejemplos:
sqrt (x) Reemplaza todos los números con sus raíces cuadradas.
(x-mean) / stdev Normalización de la desviación estándar y media, en columnas
x-0.5 * (max + min) Centra los valores alrededor de cero
(u + x + d) / 3 Suavizado de media móvil de tres puntos
xu Diferencia de primer orden
Llena la columna con los números de fila (requiere celdas no vacías, como todas
yo
ceros)
Genera un período de una función sinusoidal en una columna (requiere no vacíos
pecado (2 * 3,14159 * i / n)
células)
Número aleatorio de una distribución normal, con media de 10 y estándar
5 * normal + 10
desviación de 5.
26
Página 27
Menú de trama
Grafico
Traza una o más columnas como gráficos separados. También es posible mostrar cada fila, en lugar de cada
columna, como un gráfico separado, con la opción "Trazar filas". Las coordenadas x se establecen automáticamente en
1,2,3, ...
Hay seis estilos de trazado disponibles: línea, puntos, línea con puntos, barras, pasos y tallos (líneas verticales).
La opción 'Etiquetas de fila' establece las etiquetas del eje x en los nombres de fila apropiados.
La opción "Log Y" transforma los valores en log-base 10. Para valores <= 0, el valor del log se establece en 0.
La secuencia se puede suavizar con una media móvil de 3 puntos.
Los valores faltantes se ignoran.
27
Página 28
Gráfico XY
Traza uno o más pares de columnas que contienen pares de coordenadas x / y. La opción 'log Y' log-transforms
sus valores Y (los valores cero o negativos se establecen en 0). La curva también se puede suavizar usando 3 puntos
media móvil.
Se pueden representar elipses de concentración del 95% en la mayoría de los gráficos de dispersión en PAST, como las puntuaciones de PCA, CA,
DCA, PCO y NMDS. El cálculo de estas elipses asume una distribución normal bivariada. Ellos
estimar una región donde se espera que caiga el 95% de los puntos de población, es decir, no son de confianza
regiones para la media.
Los cascos convexos también se pueden dibujar en los diagramas de dispersión, para mostrar las áreas ocupadas por puntos de
Colores diferentes'. El casco convexo es el polígono convexo más pequeño que contiene todos los puntos.
El árbol de expansión mínima es el conjunto de líneas con una longitud total mínima que conecta todos los puntos. En el
Módulo gráfico XY, se utilizan longitudes euclidianas en 2D.
Los puntos con valores perdidos en X y / o Y no se tienen en cuenta.
28
Página 29
Gráfico XY con barras de error
Como gráfico XY, pero espera cuatro columnas (o un múltiplo), con valores de error x, y, x y error y. Simétrico
las barras de error se dibujan alrededor de cada punto, con la mitad de ancho como se especifica. Si un valor de error se establece en cero o
falta, la barra de error correspondiente no se dibuja.
Los puntos con valores perdidos en X y / o Y no se tienen en cuenta.
29
Página 30
Histograma
Traza histogramas (distribuciones de frecuencia) para una o más columnas. El número de contenedores es predeterminado
establecido en un número "óptimo" (la regla de la etapa cero de Wand 1997):
h = 49,3 min (s, Coeficiente

349,1 )norte
-
intelectual
31
donde s es la desviación estándar de la muestra y IQ el rango intercuartílico. El número de contenedores puede ser
cambiado por el usuario. Cuando se seleccionan dos columnas, se pueden trazar como un bihistograma, es decir
Histogramas de “imagen especular” que se comparan fácilmente.
Los intervalos de confianza del 95% opcionales para los recuentos de contenedores se calculan con Clopper-Pearson
método (consulte el módulo "Proporción única" para obtener detalles computacionales).
La opción "Ajustar normal" dibuja un gráfico con una distribución normal ajustada (estimación paramétrica, no
Mínimos cuadrados).
La estimación de la densidad del kernel es un estimador suave del histograma. PAST utiliza un kernel gaussiano con
rango según la regla dada por Silverman (1986):
h = min9.0 (CI )norte.

-
34,1, 51
Los valores faltantes se eliminan.
Referencias
Silverman, BW 1986. Estimación de densidad para estadísticas y análisis de datos. Chapman y Hall.
Wand, MP 1997. Elección basada en datos del ancho del contenedor del histograma. Estadístico estadounidense 51: 59-64.
30
Página 31
Gráfico de barras / diagrama de caja
Gráfica de barras, gráfica de caja, gráfica de media y bigotes o gráfica de fluctuación para una o varias columnas (muestras) de
datos univariados. Alternativamente, puede utilizar una columna de grupo. Los valores faltantes se ignoran.
Gráfico de barras
Para cada muestra, el valor medio se muestra con una barra. Además, opcionalmente se pueden mostrar "bigotes".
El intervalo de bigotes puede representar un uno sigma o un intervalo de confianza del 95% (1,96 sigma) para el
estimación de la media (basada en el error estándar), o un intervalo de concentración de un sigma o del 95%
(basado en la desviación estándar).
Diagrama de caja
Para cada muestra, los cuartiles del 25 al 75 por ciento se extraen usando un cuadro. La mediana se muestra con un
línea horizontal dentro de la caja. Los valores mínimos y máximos se muestran con líneas horizontales cortas.
("bigotes").
Si la casilla "Valores atípicos" está marcada, se utiliza otra convención de diagrama de caja. Los bigotes se extraen del
la parte superior de la caja hasta el punto de datos más grande, menos de 1,5 veces la altura de la caja desde la caja (el
"valla interior superior") e igualmente debajo de la caja. Los valores fuera de las vallas interiores se muestran como
círculos, los valores superiores a 3 veces la altura de la caja desde la caja (las "vallas exteriores") se muestran como
estrellas.
La opción "Muescas" visualiza un intervalo de confianza aproximado del 95% para la mediana.
Los métodos de cuartiles (redondeo o interpolación) se describen en "Percentiles" a continuación.
Gráfico de media y bigotes
Similar al gráfico de barras, pero sin la barra, que muestra la media como un punto con bigotes para el estándar
error, desviación estándar o intervalos del 95%.
Gráfico de jitter
Cada valor se representa como un punto. Para mostrar los puntos superpuestos con mayor claridad, se pueden desplazar utilizando un
valor de "jitter" aleatorio controlado por un control deslizante.
Trama de violín
El diagrama de violín muestra un diagrama de densidad de kernel ("histograma continuo") para cada muestra. La trama varía
desde el valor mínimo al máximo. Opcionalmente se puede mostrar un diagrama de caja (descrito arriba) en
parte superior del violín.
31
Página 32
Gráfico de barras Diagrama de caja
Diagrama de violín con diagrama de caja
32
Página 33
Gráfico circular
Traza un gráfico circular o un gráfico de anillos a partir de una sola columna de datos o hasta cinco columnas para varios
gráficos. Un sector se puede enfatizar por "explosión":
33
Página 34
Gráfico apilado
Se pueden trazar una o más filas de datos como gráfico de barras apiladas o gráfico de áreas apiladas. Cada barra
representa una fila y los datos a lo largo de las columnas se trazan de forma acumulativa. La opción 'Porcentaje'
convierte a porcentajes del total de la fila, de modo que todas las barras tengan la misma altura (100%).
Los datos que faltan se tratan como cero.
Gráfico de áreas apiladas con opción de porcentaje, ejes volteados
34
Página 35
35
Página 36
Percentiles
Para cada percentil p , grafique el valor y de manera que el p por ciento de los puntos sea menor que y . Dos
Se incluyen los métodos populares. Para un percentil p , el rango se calcula de acuerdo con k = p (n + 1) / 100,
y el valor que corresponde a ese rango tomado. En el método de redondeo, k se redondea al
entero más cercano, mientras que en el método de interpolación, los rangos no enteros son manejados por
interpolación entre los dos rangos más cercanos.
36
Página 37
Gráfico de probabilidad normal
Gráficos de probabilidad normal (QQ normal) para una o más columnas de datos. Una distribución normal
trazar en línea recta. A modo de comparación, se da una línea de regresión RMA, junto con la probabilidad
Trazar el coeficiente de correlación.
(se dieron tres grupos en este ejemplo)
Las medianas estadísticas de orden normal se calculan como N ( i ) = G ( U ( i )), donde G es la inversa de la
función de distribución normal acumulativa y U son las medianas estadísticas de orden uniforme:
⎧ 1 - nU), ( yo= 1
│
iU ) ( = ⎨yo- .0 3175 (norte+ 365,0 ) yo= , ... 3,2norte
-1
│
ni=
1 norte
⎩ 5,0
37
Página 38
Ternario
Gráfico ternario para tres columnas de datos, que normalmente contienen proporciones de composiciones. Un color
También se puede mostrar un mapa de densidad de puntos (calculado con un método de densidad de kernel). Si una cuarta columna
se incluye, se mostrará utilizando una representación de burbuja o como un mapa de color / escala de grises.
Se eliminan las filas con valores faltantes en cualquier columna. Cuando se usa la opción de mapa de color, las filas con
sólo la cuarta variable que falta se incluye en el gráfico pero no contribuye al mapa.
38
Página 39
Gráfico de burbujas
Trazar datos 3D (tres columnas) mostrando el tercer eje como tamaño de los discos. Los valores negativos no son
mostrado. Seleccione "Restar mín." Para restar el valor más pequeño del tercer eje de todos los valores; esto forzará
los datos sean positivos. El control deslizante "Tamaño" escala las burbujas en relación con el radio de la unidad en la escala del eje x.
Se eliminan las filas con valores faltantes en cualquier columna.
39
Página 40
Gráfico de matriz
Gráfico bidimensional de la matriz de datos, utilizando una escala de grises con blanco para el valor más bajo, negro para
más alto, o una escala de colores. Incluye contorno. Úselo para obtener una descripción general de una matriz de datos grande.
Los valores que faltan se trazan como espacios en blanco (permitiendo huecos y límites que no son cuadrados).
40
Página 41
Parcela de mosaico
Muestra proporciones en una tabla de contingencia de dos o tres factores como áreas de rectángulos. Un bidireccional
La tabla se puede dar como una matriz de datos simple o con dos columnas de grupo y una sola columna de datos (hay
debe haber exactamente una fila para cada combinación de niveles de grupo). Los anchos de columna reflejarán la columna
totales y las alturas de las filas reflejarán los totales de las filas. La interpretación de una tabla de contingencia de tres factores
(especificado con tres columnas de grupo) es un poco más complicado; consulte a continuación el estándar
Ejemplo de “Titanic”, descrito, por ejemplo, en la página de Wikipedia sobre parcelas de mosaico.
41
Página 42
Gráfico de radar
Para visualizar datos multivariados. Se trazará un gráfico de radar (polígono) para cada fila de los datos.
En el siguiente ejemplo, los datos constaban de dos filas (P34 y P26) y seis columnas (variables). los
las líneas de la cuadrícula pueden ser polígonos (gráfico de radar) o círculos (gráfico polar).
El módulo también aceptará una sola columna de datos.
Otro uso de este módulo es para visualizar datos circulares o cíclicos como la actividad animal a través de 24
horas o luz solar durante 12 meses.
Los valores faltantes se tratan como cero.
42
Página 43
Gráfico polar
Esta gráfica acepta coordenadas polares, con ángulos en grados en la primera columna y valores de radio en la
segunda columna. De forma predeterminada, se supone que los ángulos van en sentido antihorario desde el este (ver figura). Por
Al marcar "Convención geográfica", se supone que los ángulos van en el sentido de las agujas del reloj desde el norte.
43
Página 44
Gráfico de red
Este módulo traza redes (gráficos), con nodos (filas en la hoja de cálculo) conectados por bordes. Tú
puede especificar la red con una matriz de adyacencia en la hoja de cálculo (solo el triángulo inferior necesita
que debe darse). En esta matriz, un 1 en la fila i , columna j implica un borde desde el nodo i al nodo j . Todas las demás celdas
debe ser cero. Para este tipo de datos de entrada, debe seleccionar "Similitud definida por el usuario" como similitud
índice. También puede especificar similitudes distintas de 1 para el grosor de borde variable (ver más abajo).
Alternativamente, puede trazar una red que muestre similitudes entre filas, utilizando su matriz de datos sin procesar
y cualquier medida de similitud o distancia que elija. A continuación, puede elegir un límite de similitud (en
porcentaje) para controlar el número de aristas incluidas. El corte de cero por ciento dará una conexión
(completa) red con bordes entre todos los pares de nodos; el cincuenta por ciento mostrará solo bordes
entre nodos que son más del 50% similares.
La “Escala de nodos por no. Bordes "opción establecerá el diámetro de los nodos proporcional al número de
bordes conectados a él. La "Escala de bordes por similitud" establecerá el grosor de los bordes proporcional a
la similitud.
Los nodos se pueden organizar en un círculo, o se pueden colocar con el Fruchterman-Reingold

algoritmo (1991). Usando una posición de inicio aleatoria, este algoritmo producirá un nuevo diseño cada
tiempo, así que haga clic en "Redibujar" varias veces hasta que obtenga un resultado agradable.
Referencia
Fruchterman, TMJ y Reingold, EM 1991. Dibujo gráfico por colocación dirigida por fuerza. Software:
Práctica y experiencia 21: 1129–1164.
44
Página 45
Gráfico de dispersión / burbuja / línea 3D
Requiere tres o cuatro columnas de datos. Para tres columnas, los datos se representan como esferas de tamaño fijo.
con las coordenadas xyz dadas. Una cuarta columna opcional se muestra como tamaños de burbujas. los
el sistema de coordenadas es diestro, con el eje z vertical (positivo hacia arriba). Se pueden agregar palos a
enfatizar las posiciones en el plano xy. Seleccione el cuadro 'Líneas' para dibujar líneas entre los puntos.
45
Página 46
Gráfico de superficie 3D
Gráfico de paisaje tridimensional de una matriz de datos de valores de elevación. Los colores se asignan según
a la altura, y / o la superficie se puede sombrear en gris utilizando un modelo de iluminación. La exageración vertical es
ajustable. Los valores que faltan se reemplazan por el promedio. Los datos del ejemplo siguiente son los
lo mismo que para el diagrama de matriz anterior.
46
Página 47
Gráfico de superficie paramétrico 3D
Traza una superficie paramétrica 3D dada como una matriz de triples xyz. Esta matriz normalmente se generará
por un guión. Considere, por ejemplo, el siguiente script Past, escribiendo un helicoide parabólico en el
hoja de cálculo:
tamaño de tabla (10, 400);

para i: = 1 a 100 comience
phi: = 4 * 2 * pi * (i-1) / 100;
z: = 0,2 * phi * phi;
para j: = 1 a 8 comience
r: = phi * (j-1) / 7;
x: = r * cos (phi);
y: = r * sin (phi);
tableout (j-1, (i-1) * 3, x);
tableout (j-1, (i-1) * 3 + 1, y);
tableout (j-1, (i-1) * 3 + 2, z);
fin;
fin;
47
Página 48
Menú univariante
Resumen estadístico
Esta función calcula un número de estadísticos descriptivos básicos para una o más muestras de univariante
datos. Las muestras se pueden dar en una o más columnas separadas o con una sola columna de datos y un
columna de grupo. Cada muestra debe tener al menos 3 valores. Las columnas pueden tener diferentes números de
valores.
Se muestran los siguientes números para cada muestra:
N: El número de valores n en la muestra
Min : El valor mínimo
Max : El valor máximo
Media : La estimación de la media, calculada como
∑X
X=
yo
norte
48
Página 49
Std. error : El error estándar de la estimación de la media, calculado como
s
SE x =
norte
donde s es la estimación de la desviación estándar (ver más abajo).
Varianza : La varianza muestral, calculada como
s =
2 1
-1
∑ (-xxyo )
2
norte .
Estar. dev. : La desviación estándar de la muestra, calculada como
1
s=
-1
∑ (-xxyo )
2
norte .
Mediana : La mediana de la muestra. Para n impar, el valor dado tal que hay igualmente
muchos valores arriba y abajo. Para n par, el promedio de los dos valores centrales.
25 prcntil : El 25 º percentil, es decir, el valor dado de tal manera que 25% de la muestra está por debajo de, 75%
encima. Se utiliza el método de "interpolación" (ver gráfico de percentiles más arriba).
75 prcntil : El 75 º percentil, es decir, el valor dado de tal manera que 75% de la muestra está por debajo de, 25%
encima. Se utiliza el método de "interpolación" (ver gráfico de percentiles más arriba).
Asimetría : La asimetría de la muestra, cero para una distribución normal, positiva para una cola a la derecha.
Calculado como
= norte ∑ (xxyo - )3
GRAMO
(1-( norte
- )2⎛
1 3
) norte 1 ⎞
│
│ -1
∑ (xxyo - )2 │
│
⎝ norte ⎠ .
Tenga en cuenta que hay varias versiones de esto: el pasado usa la misma ecuación que SPSS
y Excel. Pueden producirse resultados ligeramente diferentes con otros programas, especialmente para
tamaños de muestra pequeños.
Curtosis : La curtosis muestral, cero para una distribución normal. Calculado como
=
nn( + 1 ) ∑ (xx - )
yo
4
-3
(norte
- 1)
2
GRAMO
2 4
https://translate.googleusercontent.com/translate_f ⎛ ⎞ 48/278
(norte
- 1 ) norte
( - 2 ) norte
( - 3) ⎛
│
│
1
∑ (xxyo - )2 ⎞
│
│ (norte
- 2 ) norte
(- ) 3
-1
⎝ norte ⎠ .
Una vez más, Past usa la misma ecuación que SPSS y Excel.
Geom. media : la media geométrica, calculada como

(xx ) n . Los logaritmos se utilizan internamente.
Xnorte
/1
21 Λ
49
Página 50
Coeff.var : Coeficiente de variación, o relación entre la desviación estándar y la media, en porcentaje:
1
s -1
∑ (X yo
- X )2
norte
CV = ∙ 100 = ∙ 100
X X
Bootstrapping
La selección de bootstrapping calculará los límites inferior y superior para intervalos de confianza del 95%, utilizando el
número especificado de réplicas de bootstrap. Los intervalos de confianza para los valores mínimo y máximo no son
dado, porque se sabe que el bootstrapping no funciona bien para estas estadísticas. Tres bootstrap diferentes
métodos están disponibles (cf. Davison y Hinkley 1997):
Simple (básico) :
La estadística estimada de la muestra original es t . Las estimaciones simuladas de R bootstrap

las réplicas son t 1 * , t 2 * ,…, T R * . Para un IC del 95%, establecemos el error de una cola α = 0.025. Lo simple (o básico)
CI de arranque es entonces
[2 tt- *
(R + 11) (- α ) 2, tt-
*
(R + 1 )α ].
Para garantizar subíndices con valores enteros, los valores de R como 999, 9999 o 99999 son convenientes.
Percentil :
Una estimación aún más simple:
[t (*
R+
1
)α
,
*
]
t (R +11) (- α ) .
BCa (método de percentil ajustado) :
Este es un método complejo, pero algo más preciso que el bootstrap simple y porcentual.
Estime un factor de corrección de sesgo (llamado z en algunos textos):
⎛ tt* < ⎞
│ r │
{}
w = -Φ
1
│ + │,
⎝ ⎠
⎝ R 1 ⎠
donde Φ es la función normal acumulativa y | ∙ | es el número de elementos del conjunto. Tenga en cuenta que usamos
estrictamente menor que, a diferencia de algunas fuentes. Luego calcule un factor de corrección de sesgo:
50
Página 51
∑ (tt )
norte
3
- yo
- -
un=
=1
yo
,
3
⎛ norte
6 │∑ tt- yo - ( - )
2 ⎞
│
2
⎝yo= 1 ⎠
donde t -i es la estadística calculada con el valor i eliminado (jackknifed), y - t es la media de la

valores jackknifed. Con estos valores para w y una , valores de punto final de CI ajustado de cómputo
⎛ w - 96,1 ⎞
un1 = Φ │
│w + - │
⎝ ( 96,1 ) ⎠│
-
1 Washington
⎛ w + 96,1 ⎞
un2 = Φ │
│w + │,
⎝ - ( + )
96,1 ⎠│
1 Washington
donde 1,96 es el cuantil aproximado de la distribución normal correspondiente a un IC del 95% (el
el valor real utilizado es 1,959964). El intervalo de confianza de arranque es
[t (
*
R + 1 )un1 ,
*
t (R +1 )un . 2
]
No se utiliza interpolación si el índice no es un número entero.
Datos faltantes: compatible con la eliminación.
Pruebas de una muestra
Prueba si una sola muestra (una sola columna de datos) proviene de una población con un
a menudo hipotético, medio o mediano. Por ejemplo, ¿hay una serie de valores de isótopos de oxígeno del mar
conchas (muestra única) igual que la composición promedio del agua de mar (media dada)? El valor de prueba dado
debe escribirse. Además, las pruebas de un solo caso se utilizan para probar si un solo valor proviene de
la misma población que la muestra dada.
Prueba t de una muestra para una media dada μ 0 (paramétrica)
La media de la muestra y la desviación estándar se estiman como se describe anteriormente en Estadísticas univariadas.
El intervalo de confianza del 95% para la diferencia de medias se basa en el error estándar de la
estimación de la media y distribución t . Se supone una distribución normal. Con s la estimación de
la desviación estándar de la muestra, el intervalo de confianza es
⌈ s s ⌉
│X - μ 0 - t (α - )
1,2norte , X - μ 0 + t (α - )
1,2norte │.
⌊ norte ⌋
norte
51
Página 52
Aquí, t tiene n -1 grados de libertad y 1- α = 0,95 para un intervalo de confianza del 95%.
La prueba t tiene hipótesis nula
H 0 : Las muestras se toman de una población con media μ 0 .
La estadística de prueba es
X- μ0
t= .
s
norte
Prueba de rango con signo de Wilcoxon de una muestra para la mediana M dada (no paramétrica)
La prueba de Wilcoxon de una muestra tiene hipótesis nula
H 0 : La muestra es tomada de una población con mediana M .
Todos los valores iguales a M son eliminados primero por el programa. Entonces los valores absolutos de las diferencias
| d i | están clasificados ( R i ), con rangos medios asignados para empates. La suma de rangos para pares donde d i es positivo
es W + . La suma de los rangos de los pares donde d i es negativo es W - . La estadística de prueba informada es
W = máx. ( W + , W - )
(tenga en cuenta que hay varias otras versiones equivalentes de esta prueba, que informan otras estadísticas).
Para valores grandes de n (digamos n > 10), la aproximación muestra grande de p se puede utilizar. Esto depende de lo normal
distribución del estadístico de prueba W :
nn) 1 +(
)( =
NOSOTROS
4
∑ -F 3
Fgramo
nn() +( 121 norte
+ )
gramo
WVar() = -
gramo
24 48 .
El último término es una corrección para empates, donde f g es el número de elementos en empate g . La z resultante es
informado, junto con el valor de p .
Para n <13, se calcula un valor p exacto mediante la enumeración completa de todas las reasignaciones posibles
(hay 2 n de ellos, es decir, 4096 para n = 12). Este es el valor p preferido , si está disponible.
Pruebas de caso único
Las pruebas de caso único tienen hipótesis nula
H 0 : El valor único dado y se toma de la misma población que la muestra dada.
52
Página 53
Se supone una distribución normal. A menudo se utiliza una prueba z simple para este propósito, y también la proporciona
Pasado. Sin embargo, la prueba z es inexacta porque asume que las desviaciones media y estándar son
dados exactamente, mientras que en realidad se estiman a partir de la muestra. Por lo tanto, Past también proporciona una
prueba t modificada (Sokal y Rohlf 1995; Crawford y Howell 1998):
xy-
t=
+1
norte
s
norte
con s la desviación estándar de la muestra y n -1 grados de libertad.
Proporción binomial
Espera datos binarios (0 o distintos de cero) en la muestra dada. La proporción de no cero en la muestra.
se compara con la proporción dada, y también se informan los intervalos de confianza.
La misma prueba se proporciona en el módulo de proporción única, pero no hay una columna de datos binarios
requerido, sólo la proporción observada.
Referencias
Crawford, JR & Howell, DC 1998. Comparación de la puntuación de la prueba de un individuo con las normas derivadas de
pequeñas muestras. El neuropsicólogo clínico 12: 482-486.
Sokal, RR y Rohlf, JF 1995. Biometry . WH Freeman, San Francisco.
53
Página 54
Pruebas de dos muestras
Varias estadísticas y pruebas clásicas para comparar dos muestras univariadas, como se da en dos
columnas. También es posible especificar los dos grupos usando una sola columna de valores y un
columna Grupo adicional. Los datos faltantes no se tienen en cuenta.
prueba t y pruebas relacionadas para medias iguales
Estadísticas de muestra
Las medias y las variaciones se estiman como se describe anteriormente en Estadísticas univariadas. El 95%
El intervalo de confianza para la media se basa en el error estándar para la estimación de la media, y
la distribución t . Se supone una distribución normal. Con s la estimación de la desviación estándar, el
el intervalo de confianza es
⌈ s s ⌉
│tx - (α - )
1,2norte , tx + (α - )
1,2norte │
⌊ norte ⌋.
norte
Aquí, t tiene n -1 grados de libertad y 1- α = 0,95 para un intervalo de confianza del 95%.
El intervalo de confianza del 95% para la diferencia entre las medias acepta tamaños de muestra desiguales:
[tyx- - (α , 2df ) s re , tyx- + (α , 2df )s ]

,
D
54
Página 55
dónde
SSE = ∑ (xx - )yo

2
+ ∑ (y yo
- y) 2
df = (norte
1
- 1 ) +( norte
2
- )1
MSE = SSE / df
2
nh =
1
+
1 norte1 norte
2
2 MSE
s re =
norte
h .
El intervalo de confianza se calcula para la media más grande menos la más pequeña, es decir, el centro del IC
siempre debe ser positivo. El intervalo de confianza para la diferencia de medias también se estima mediante
bootstrapping (bootstrap simple), con el número dado de réplicas (por defecto 9999).
prueba t
La prueba t tiene hipótesis nula
H 0 : Las dos muestras se toman de poblaciones con medias iguales.
La prueba t asume distribuciones normales y varianzas iguales.
A partir del error estándar s D de la diferencia de las medias dadas anteriormente, el estadístico de prueba es
yx-
t=
s re .
Prueba t de varianza desigual
La prueba t de varianza desigual también se conoce como prueba de Welch. Se puede utilizar como alternativa al
prueba t básica cuando las varianzas son muy diferentes, aunque se puede argumentar que probar la diferencia en
los medios en este caso son cuestionables. La estadística de prueba es
yx-
t=
Var ( nx) + Var ( Nueva
) 2 York
1 .
El número de grados de libertad es
55
Página 56
2
⌈ Var ( X) Var ( y ) ⌉
│ + │
⌊ norte norte ⌋
df =
1 2
[Var ( nx) ][
2
) 2 ]York
2
1
+ Var ( Nueva
1
-1
norte -1
norte
2 .
Prueba de permutación de Monte Carlo
La prueba de permutación para la igualdad de medias utiliza la diferencia absoluta de medias como estadística de prueba.
Esto es equivalente a usar el estadístico t . La prueba de permutación no es paramétrica con pocas
supuestos, pero se supone que las dos muestras son iguales en distribución si la hipótesis nula es
cierto. El usuario puede establecer el número de permutaciones. El poder de la prueba está limitado por el
tamaño de la muestra: la significancia al nivel de p <0.05 solo se puede lograr para n > 3 en cada muestra.
Prueba de permutación exacta
Como la prueba de permutación de Monte Carlo, pero se calculan todas las posibles permutaciones. Solo disponible si
la suma de los dos tamaños de muestra es menor que 27.
Prueba F para varianzas iguales
56
Página 57
La prueba F tiene hipótesis nula
H 0 : Las dos muestras se toman de poblaciones con igual varianza.
Se supone una distribución normal. El estadístico F es la relación entre la varianza mayor y la menor. los
La significación es de dos colas, con n 1 y n 2 grados de libertad.
Las pruebas de Monte Carlo y de permutación exacta en el estadístico F se calculan como para la prueba t anterior.
Prueba de Mann-Whitney para medianas iguales
La prueba U de Mann-Whitney de dos colas (Wilcoxon) se puede utilizar para probar si las medianas de dos
las muestras independientes son diferentes. Es una prueba no paramétrica y no asume normal
distribución, pero asume una distribución de forma igual en ambos grupos. La hipótesis nula es
H 0 : Las dos muestras se toman de poblaciones con medianas iguales.
Para cada valor en la muestra 1, cuente el número de valores en la muestra 2 que son más pequeños que él (empates
contar 0.5). El total de estos recuentos es el estadístico de prueba U (a veces llamado T ). Si el valor de U es
más pequeño cuando se invierte el orden de las muestras, este valor se elige en su lugar (se puede mostrar que
U 1 + U 2 = norte 1 norte 2 ).
El programa calcula una aproximación asintótica ap basada en la distribución normal (dos

tailed), que solo es válido para n grandes . Incluye una corrección de continuidad y una corrección por empates:
57
Página 58
-
nnU +
5.02
z=
21
⎛ ⎞
nnnn
21
│
│
3
- - ∑F 3
gramo
│
- Fgramo
│
⎝ gramo ⎠
12 nn( - )1
donde n = n 1 + n 2 y f g es el número de elementos en el lazo g .
También se proporciona un valor de Monte Carlo basado en el número dado de permutaciones aleatorias (predeterminado 9999)
- el propósito de esto es principalmente como un control sobre el valor asintótico.
Para n 1 + n 2 <= 30 (por ejemplo, 15 valores en cada grupo), se da un valor p exacto , basado en todos los grupos posibles
asignaciones. Si está disponible, utilice siempre este valor exacto. Para muestras más grandes, el asintótico
la aproximación es bastante precisa.
Prueba de la mediana de Mood para medianas iguales
La prueba de la mediana es una alternativa a la prueba de Mann-Whitney para medianas iguales. La prueba de la mediana tiene
baja potencia y, por lo tanto, suele ser preferible la prueba de Mann-Whitney. Sin embargo, puede haber casos
con valores atípicos fuertes en los que la prueba de Mood's puede funcionar mejor.
La prueba simplemente cuenta el número de valores en cada muestra que están por encima o por debajo de los valores agrupados.
mediana, produciendo una tabla de contingencia 2x2 que se prueba con una prueba estándar de chi-cuadrado con dos
grados de libertad, sin la corrección de Yate.
Prueba de Kolmogorov-Smirnov para distribuciones iguales
La prueba de Kolmogorov-Smirnov es una prueba no paramétrica para la distribución igual global de dos variables univariadas.
muestras. En otras palabras, no prueba específicamente la igualdad de media, varianza o cualquier otra
parámetro. La hipótesis nula es H 0 : Las dos muestras se toman de poblaciones con igual
distribución.
58
Página 59
En la versión de la prueba proporcionada por Past, ambas columnas deben representar muestras. No puedes probar un
muestra contra una distribución teórica (prueba de una muestra).
El estadístico de prueba es la diferencia absoluta máxima entre los dos valores acumulativos empíricos.
funciones de distribución:
re = max xSxS () -
norte 1 norte
2
()
X
El algoritmo se basa en Press et al. (1992), con significancia estimada según Stephens (1970).
Definir la función
Q Kansas()
λ = 2 ∑ () j-1 - 2 j 22λ
-1 mi
j=1 .
Con N e = N 1 N 2 / ( N 1 + N 2 ), la significancia se calcula como
Qp= ([ norte+ 12.0 +

Kansas mi 11,0 DN
mi
] ).
La prueba de permutación utiliza 10,000 permutaciones. Utilice el valor p de permutación para N <30 (o en general).
Referencias
Press, WH, Teukolsky, SA, Vetterling, WT & Flannery, BP 1992. Recetas numéricas en C. 2 nd
edición. Prensa de la Universidad de Cambridge.
Stephens, MA 1970. Uso de Kolmogorov-Smirnov, Cramer-von Mises y estadísticas relacionadas

sin mesas extensas. Revista de la Royal Statistical Society, Serie B 32: 115-122.
59
Página 60
Prueba de Anderson-Darling para distribuciones iguales
La prueba de Anderson-Darling es una prueba no paramétrica para la distribución global igual de dos variables univariadas
muestras. Es una alternativa a la prueba de Kolmogorov-Smirnov.
Con dos muestras x 1 .. x n y y 1 .. y m , el tamaño de la muestra combinada es N = n + m . El estadístico de prueba A 2

N es
calculado según Pettitt (1976):
−1
1 ( -) 2
2= ∑
(-)
=1
donde M i es el número de x menor o igual que el i ésimo más pequeño en la muestra combinada.
Esta estadística se transforma en una estadística llamada Z según Scholz y Stephens (1987). Para nuestro caso
con k = 2 muestras, calcule la varianza del estadístico de la siguiente manera:
1 1
= +
−1
1
ℎ=∑
=1
−2 −1
1
=∑∑
(-)
=1 = +1
= 2 (4 - 6) + (10 - 6) - 4 + 6 = 4 - 6 + (10 - 6)
= 4 (2 - 4) + 16ℎ + (2 - 14ℎ - 4) - 8ℎ + 4 - 6 = 12 + 8ℎ - 22 + (2 - 14ℎ - 4)
= 4 (6ℎ + 2 - 2) + 2 (4ℎ - 4 + 6) + (2ℎ - 6) + 4ℎ = 36ℎ + 4 + (2ℎ - 6)
= 4 (2ℎ + 6) - 8ℎ = 6
3 +2++
2=
(- 1) (- 2) (- 3)
2- 1
=
El valor p se calcula por interpolación y extrapolación en la Tabla 1 ( m = 1) de Scholz & Stephens

(1987), utilizando una curva ajustada al modelo de von Bertalanffy. La aproximación es bastante precisa para p ≤0.25.
Para p > 0,25, los valores de p se estiman utilizando un ajuste polinómico a los valores obtenidos por permutación. Una p
También se proporciona el valor basado en la permutación de Monte Carlo con N = 999.
Referencias
Pettitt, AN 1976. Estadístico de rango Anderson-Darling de dos muestras. Biometrika 63: 161-168.
Scholz, FW & Stephens, MA 1987. Pruebas de Anderson-Darling de muestra K. Revista del americano
Asociación de Estadística 82: 918–924.
60
Página 61
Prueba de Epps-Singleton para distribuciones iguales

La prueba de Epps-Singleton (Epps y Singleton 1986; Goerg y Kaiser 2009) es una prueba no paramétrica para
distribución equitativa general de dos muestras univariadas. Normalmente es más poderoso que el
Prueba de Kolmogorov-Smirnov y, a diferencia de la Kolmogorov-Smirnov, también se puede utilizar para
(es decir, ordinal) datos. La hipótesis nula es H 0 : Las dos muestras se toman de poblaciones con igual
distribución.
Las matemáticas detrás de la prueba Epps-Singleton son complicadas. La prueba se basa en el Fourier
transformada de la función de distribución empírica, llamada función característica empírica (ECF).
El ECF se genera para cada muestra y se muestrea en dos puntos (t 1 = 0.4 yt 2 = 0.8, estandarizado para
el rango semi-intercuartílico agrupado). El estadístico de prueba W 2 se basa en la diferencia entre
dos ECF muestreados, estandarizados por sus matrices de covarianza. Una corrección de muestra pequeña a W 2 es
se aplica si ambos tamaños de muestra son inferiores a 25. El valor p se basa en la distribución chi-cuadrado. por
más detalles, véanse Epps y Singleton (1986) y Goerg y Kaiser (2009).
Referencias
Epps, TW & Singleton, KJ 1986. Una prueba ómnibus para el problema de dos muestras utilizando el método empírico
función característica. Journal of Statistical Computation and Simulation 26: 177-203.
Goerg, SJ & Kaiser, J. 2009. Prueba no paramétrica de distribuciones: las dos muestras de Epps-Singleton
prueba utilizando la función característica empírica. The Stata Journal 9: 454-465.
Coeficiente de variación (prueba de Fligner-Kileen)
Este módulo prueba el mismo coeficiente de variación en dos muestras.
61
Página 62
El coeficiente de variación (o variación relativa) se define como la relación entre la desviación estándar y la
media en porcentaje, y se calcula como:
1
s ∙ -1
∑ (X yo
- X )2
norte
CV = 100 = ∙ 100
X X .
Los intervalos de confianza del 95% se estiman mediante bootstrap (bootstrap simple), con el
número de réplicas (por defecto 9999).
La hipótesis nula si la prueba estadística es:
H 0 : Las muestras se tomaron de poblaciones con el mismo coeficiente de variación.
Si la p (normal) dada es menor que 0.05, se puede rechazar un coeficiente de variación igual. Donnelly y
Kramer (1999) describe el coeficiente de variación y revisa una serie de pruebas estadísticas para
comparación de dos muestras. Recomiendan la prueba Fligner-Killeen (Fligner & Killeen 1976), ya que
implementado en el pasado. Esta prueba es poderosa y relativamente insensible a la distribución. los
se informan las siguientes estadísticas:
T: El estadístico de prueba de Fligner-Killeen, que es una suma de las posiciones clasificadas transformadas de la
muestra más pequeña dentro de la muestra combinada (ver Donnelly & Kramer 1999 para más detalles).
E ( T ): El valor esperado para t .
z: El estadístico z, basado en T , Var ( T ) y E ( T ). Tenga en cuenta que esta es una aproximación de muestra grande.
p: El valor p (H 0 ). Se dan los valores de una cola y de dos colas. Por la alternativa
hipótesis de diferencia en cualquier dirección, se debe utilizar el valor de dos colas. Sin embargo,
La prueba de Fligner-Killeen se ha utilizado para comparar la variación dentro de una muestra de fósiles con
variación dentro de una especie moderna estrechamente relacionada, para probar múltiples especies fósiles (Donnelly
Y Kramer 1999). En este caso, la hipótesis alternativa podría ser que CV es mayor en el fósil
población, si es así, se puede utilizar una prueba de una cola para aumentar la potencia.
La captura de pantalla anterior reproduce el ejemplo de Donnelly & Kramer (1999), mostrando que el
La variación relativa dentro de Australopithecus afarensis es significativamente mayor que en Gorilla gorilla . Esta
podría indicar que A. afarensis representa varias especies.
Referencias
Donnelly, SM & Kramer, A. 1999. Pruebas para múltiples especies en muestras fósiles: una evaluación y
comparación de pruebas para igual variación relativa. Revista estadounidense de antropología física 108: 507-
529.
Fligner, MA y Killeen, TJ 1976. Dos pruebas de muestra sin distribución para escala. Revista del americano
Asociación de Estadística 71: 210-213.
62
Página 63
Pruebas F y t de parámetros
A veces, las publicaciones no brindan los datos, sino valores para el tamaño de la muestra, la media y la varianza de dos
muestras. Estos se pueden ingresar manualmente usando la opción 'F yt de parámetros' en el menú. Esta
módulo no utiliza ningún dato de la hoja de cálculo.
63
Página 64
Pruebas pareadas de dos muestras ( t , signo, Wilcoxon)
Tres pruebas estadísticas (una paramétrica, dos no paramétricas) para dos muestras (columnas) de univariante
datos. Los puntos de datos están emparejados, lo que significa que los dos valores de cada fila están asociados. por
Por ejemplo, la prueba podría ser la longitud del brazo izquierdo frente al derecho en varias personas, o la
diversidad en verano frente a invierno en varios sitios. Controlar un "factor de molestia" (persona, sitio)
de esta forma aumenta la potencia de la prueba. La hipótesis nula es:
H 0 : La media ( prueba t ) o mediana (prueba de signos, prueba de Wilcoxon) de la diferencia es cero.
Todos los valores de p reportados son de dos colas.
prueba t
Probar una diferencia de medias igual a cero utilizando la prueba t estándar para una muestra de las diferencias.
Con d i = x i - y i , tenemos
s =
1 (
∑ -ddyo )
2
-1
norte ,
re
t=
ns .
Hay n -1 grados de libertad. Esta prueba asume una distribución normal de las diferencias.
64
Página 65
La versión exacta de la prueba calcula todas las posibles reasignaciones de grupo dentro de pares. Es solo
calculado para menos de 23 pares.
Prueba de signos
La prueba de signo (binomial) simplemente cuenta el número de casos n 1 donde x i > y i y n 2 donde y i > x i . los
se informa el número máximo ( n 1 , n 2 ). El valor p es exacto, calculado a partir de la distribución binomial. los
La prueba de signos puede tener menor potencia que las otras pruebas emparejadas, pero hace pocas suposiciones.
Prueba de rango con signo de Wilcoxon
Una prueba de rango no paramétrica que no asume una distribución normal. La hipótesis nula es no
cambio mediano (sin diferencia).
Todas las filas con diferencia cero son eliminadas primero por el programa. Entonces los valores absolutos de la
diferencias | d i | están clasificados ( R i ), con rangos medios asignados para empates. La suma de rangos por parejas donde
d i es positivo es W + . La suma de los rangos de los pares donde d i es negativo es W - . La estadística de prueba informada es
W = máx. ( W + , W - )
(tenga en cuenta que hay varias otras versiones equivalentes de esta prueba, que informan otras estadísticas).
Para valores grandes de n (digamos n > 10), la aproximación muestra grande de p se puede utilizar. Esto depende de lo normal
distribución del estadístico de prueba W :
nn) 1 +(
)( =
NOSOTROS
4
() +( + )
∑ -F 3
gramo Fgramo
WVar() = nn 121 norte - gramo
24 48 .
El último término es una corrección para empates, donde f g es el número de elementos en empate g . La z resultante es
informado, junto con el valor de p .
El valor de significación de Monte Carlo se basa en 99,999 reasignaciones aleatorias de valores a columnas,
dentro de cada par. Este valor será prácticamente idéntico al valor p exacto .
Para n <23, se calcula un valor p exacto mediante la enumeración completa de todas las reasignaciones posibles
(hay 2 n de ellos, es decir, más de cuatro millones para n = 22). Este es el valor p preferido , si está disponible.
Datos faltantes: respaldado por la eliminación de la fila.
sesenta y cinco
Página 66
Pruebas de varias muestras
ANOVA unidireccional y pruebas de Kruskal-Wallis para la igualdad de medias o medianas entre varios
muestras univariadas, dadas en columnas separadas. También es posible especificar los grupos utilizando un único
columna de valores y una columna de grupo adicional. Los datos que faltan son compatibles con la eliminación .
ANOVA unidireccional
ANOVA de una vía (análisis de varianza) es un procedimiento estadístico para probar la hipótesis nula de que
se toman varias muestras univariadas de poblaciones con la misma media. Las muestras son
se supone que está cerca de la distribución normal y tiene variaciones similares. Si los tamaños de muestra son iguales,
estos dos supuestos no son críticos. Si los supuestos se violan en gran medida, el método no paramétrico
En su lugar, debe utilizarse la prueba de Kruskal-Wallis.
Tabla ANOVA
La suma de cuadrados entre grupos viene dada por:
SS bg = ∑ xn ( - XT
gramo gramo
)
2
gramo ,
donde n g es el tamaño del grupo g , y las medias son el grupo y la media total. La suma entre grupos
de cuadrados tiene un df bg asociado , el número de grupos menos uno.
66
Página 67
La suma de cuadrados dentro de los grupos es
SS wg = ∑∑ -(xx yo
)2
gramo
gramo yo
donde los x i son los del grupo g . La suma del cuadrado dentro de los grupos tiene un df wg asociado , el total
número de valores menos el número de grupos.
Los cuadrados medios entre y dentro de los grupos están dados por
SS bg
MS =
bg
df bg
SS wg
MS =wg
df wg
Finalmente, el estadístico de prueba F se calcula como
em
F =
bg
em wg
El valor p se basa en F con grados de libertad df bg y df wg .
Efectos aleatorios (Modelo II) ANOVA
Para ANOVA unidireccional, la tabla ANOVA, el valor F y el valor p son los mismos para efectos fijos y
ANOVA de efectos aleatorios, por lo que puede utilizar los resultados para cualquier tipo de ANOVA. Si su diseño es del
tipo de efectos aleatorios (es decir, los niveles de factor se toman al azar de una población más grande en lugar de
corregido por experimento), entonces también debe informar la varianza dada debido a errores aleatorios y
la varianza debida a la diferencia entre grupos (puede volverse negativa):
2 = MS wg
MS bg - MS wg
2=
donde n es el tamaño de la muestra para cada grupo en el caso de un diseño equilibrado. Para un diseño desequilibrado, configure
na
2
1 ∑
0 = (∑ - )
-1 ∑
=1
donde G es el número de grupos. El coeficiente de correlación intraclase ICC da la proporción de

varianza debida a diferencias de grupo:
2
=
2+ 2
67
Página 68
Omega al cuadrado
El omega al cuadrado es una medida del tamaño del efecto, que varía de 0 a 1:
SS bg - df em
ω2 = bg wg
.
SS total + em wg
A partir de esta ecuación, el valor puede volverse negativo. Se fuerza a cero en tales casos.
Prueba de Levene
Prueba de Levene para homogeneidad de varianza (homocedasticidad), es decir, si las varianzas son iguales a
asumido por ANOVA, también se da. Se incluyen dos versiones de la prueba. La prueba de Levene original es
basado en los medios. Esta versión tiene más potencia si las distribuciones son normales o al menos simétricas.
La versión basada en medianas tiene menos potencia, pero es más robusta para distribuciones no normales. Nota
que esta prueba se puede utilizar también para sólo dos muestras, dando una alternativa a la prueba F para dos
muestras descritas anteriormente.
ANOVA de varianza desigual (Welch)
Si la prueba de Levene es significativa, lo que significa que tiene varianzas desiguales, puede usar la prueba desigual
varianza (Welch) de ANOVA, con los valores F , df y p dados.
Análisis de residuos
La pestaña "Residuos" muestra las propiedades de los residuales, con el fin de evaluar algunos supuestos de
ANOVA como distribución normal y homocedástica de residuos.
Se da la prueba de Shapiro-Wilk para distribución normal, junto con varios gráficos comunes de
Residuos (probabilidad normal, residuos frente a medias de grupo e histograma).
68
Página 69
Pruebas post-hoc por pares de Tukey
Si el ANOVA muestra una desigualdad significativa de las medias ( p pequeña ), puede continuar estudiando la
tabla de comparaciones por pares "post-hoc", basada en la prueba de Tukey-Kramer. La gama estudentizada
El estadístico Q se da en el triángulo inferior izquierdo de la matriz, y las probabilidades p (igual) en la parte superior.
derecho.
XL - X S
Q = ,
em wg
norte
donde X L es la media más grande y X S la más pequeña de las dos muestras que se comparan. Si las dos muestras
los tamaños no son iguales, su media armónica se utiliza para n . Su importancia se estima según
Copenhaver y Holanda (1988), con grados de libertad df wg . También hay una opción para usar el
método ligeramente menos preciso de Lund y Lund (1983) que se utilizó en versiones anteriores de Past.
Kruskal-Wallis
La prueba de Kruskal-Wallis es un ANOVA no paramétrico, que compara las medianas de varias variables univariadas
grupos (dados en columnas). También se puede considerar como una extensión de múltiples grupos de la Mann-
Prueba de Whitney (Zar 1996). No asume una distribución normal, pero asume la misma forma
distribución para todos los grupos. La hipótesis nula es
H 0 : Las muestras se toman de poblaciones con medianas iguales.
69
Página 70
El estadístico de prueba H se calcula de la siguiente manera:
2
12 ⎛ T gramo ⎞
│- 3(norte
+ )1
H = │
│∑ │
nn) 1 +( ⎝ gramonorte
⎠
gramo
,
donde n g es el número de elementos del grupo g , n es el número total de elementos y T g es la suma

de rangos en el grupo g .
El estadístico de prueba H c se ajusta por empates:
H
HC = ,
∑F 3
yo
- Fyo
1-
yo
nn -
3
donde f i es el número de elementos en tie i .
Con G el número de grupos, el valor p se aproxima de H c usando la distribución de chi-cuadrado

con G -1 grados de libertad. Esto es menos exacto si cualquier n g <5.
Pruebas post-hoc por pares de Mann-Whitney
Los valores p de la prueba por pares de Mann-Whitney se dan para todos los N p = G ( G -1) / 2 pares de grupos. El asintótico
Se utiliza la aproximación descrita en el módulo de Mann-Whitney. Si las muestras son muy pequeñas, puede
En su lugar, será útil ejecutar la prueba exacta disponible en ese módulo. Hay cuatro vistas diferentes disponibles para
la mesa simétrica:
1. Valores p brutos , significancia no corregida: los valores p de cada prueba individual por pares,
marcado en rosa si p <0,05, no corregido para pruebas múltiples.
70
Página 71
2. Valores p brutos , significación secuencial de Bonferroni: los valores p de cada individuo por pares
las pruebas se muestran sin corregir para pruebas múltiples. La importancia (marca rosa) se evalúa mediante
evaluando primero el valor p más pequeño , con la corrección de Bonferroni para N p pares. Si es significativo
( pN p <0.05) el siguiente valor p más pequeño es significativo si p ( N p -1) <0.05, etc.
3. Valores p corregidos por Bonferroni : Los valores mostrados son p '= pN p . Marcado como significativo si
p '<0,05.
4. U de Mann-Whitney : las estadísticas de la prueba.
Post-hoc de Dunn
La prueba post hoc de Dunn (Dunn 1964) es una prueba por pares que a menudo se lleva a cabo después de un Kruskal-
Prueba de Wallis. Es una alternativa a la pareja Mann-Whitney.
Con T g la suma de los rangos dentro del grupo g de la prueba de Kruskal-Wallis, calcule para cada grupo el
rango promedio:
T gramo
=
T gramo .
norte
gramo
Para comparar dos grupos A y B, calcule el estadístico z
T UN - T segundo
z AB =
σ AB
│nn( + 1) ∑ Fyo Fyo │⎛ 1

⎛ 3
- ⎞
⎞
σ AB = │ - yo
││ + 1 │.
12 (norte
- 1) │⎝norte
│ │
│ 12 UN norte
⎠
segundo
⎝ ⎠
Aquí, n es el tamaño total de la muestra y f i el número de elementos en tie i , como en la prueba de Kruskal-Wallis.
Ver pares de Mann-Whitney anteriormente para las diversas opciones en la mesa de salida (prima p valores, prima p
valores con Bonferroni secuencial, valores p corregidos de Bonferroni y los estadísticos z ).
Referencias
Copenhaver, MD, Holanda, B. 1988. Cálculo de la distribución del máximo studentizado

Estadística de rango con aplicación a pruebas de significancia múltiple de efectos simples. Revista de estadística
Computación y simulación 30: 1-15.
Dunn, OJ 1964. Comparaciones múltiples utilizando sumas de rango. Technometrics 6: 241-252.
Lund, RE, Lund, JR 1983. Algoritmo AS 190: Probabilidades y cuantiles superiores para los estudiantes
rango. Revista de la Real Sociedad de Estadística C 32: 204-210.
Zar, JH 1996. Análisis bioestadístico. 3 rd ed. Prentice Hall.
71
Página 72
Pruebas de medidas repetidas de varias muestras ("ANOVA bloqueado")
En ANOVA de medidas repetidas, los valores de cada fila son observaciones sobre el mismo "tema". Repetido-
medidas ANOVA es la extensión de la prueba t pareada a varias muestras. Cada columna (muestra) debe
contienen el mismo número de valores.
No se admiten los valores faltantes.
El procedimiento comienza como el ANOVA unidireccional de muestras independientes anterior. En breve,
SS bg = ∑ xn( gramo
- XT )
2
,
gramo
donde n es el tamaño de la muestra. El df bg asociado es el número de grupos menos uno.
SS wg = ∑∑ -(xx yo
)
2
gramo
gramo yo
donde los x i son los del grupo g . El df wg asociado es el número total de valores menos el
número de grupos.
La suma de cuadrados entre sujetos es
SS sub = -(
∑ xxn )
2
yo T ,
yo
72
Página 73
donde el yo x son medias del sujeto i en todos los grupos. El sub df asociado es el número de sujetos
menos uno.
El error SS es simplemente SS wg - SS sub , con df error = df wg - df sub .

Los cuadrados medios son entonces la suma de los cuadrados divididos por sus respectivos grados de libertad:
SS bg
MS =
bg
df bg
SS wg
MS =wg
df wg
SS sub
=
MS sub
df sub
em error
= SS error .
df error
Finalmente, la relación F es MS bg / MS error , con grados de libertad de error df bg y df .
Además de la prueba F paramétrica , también se proporciona una prueba de permutación con 9999 permutaciones aleatorias.
Pruebas post-hoc por pares de Tukey
Las comparaciones por pares "post-hoc" se basan en la prueba de Tukey. El estadístico Q de rango estudentizado
se da en el triángulo inferior izquierdo de la matriz y las probabilidades p (igual) en la parte superior derecha.
X L - XS
Q = ,
em error
norte
donde X L es la media más grande y X S la más pequeña de las dos muestras que se comparan. Hay error de df
grados de libertad.
Prueba de Friedman
La prueba de Friedman es una prueba no paramétrica de igualdad de medianas en varias medidas repetidas
grupos univariados. Puede considerarse como la versión no paramétrica del ANOVA de medidas repetidas,
o la versión de medidas repetidas de la prueba de Kruskal-Wallis.
73
Página 74
La prueba de Friedman sigue a Bortz et al. (2000). La estadística de prueba básica es
k
12
χ 2
= ∑T 2
- ) kn
1 (3 + ,
knk) 1 +(
j
j =1
donde n es el número de filas, k el número de columnas y T j las sumas de las columnas de la tabla de datos.
El valor de χ 2 se corrige luego por empates (si los hay):
χ 2
=
χ Corbata
2
( )
metro
1
1-
)∑ tt
-
knk(
3
2
-1 =1
yo
yo yo
donde m es el número total de grupos de vínculos y t i son los números de valores en cada grupo de vínculos.
Para k = 2, se recomienda utilizar una de las pruebas emparejadas (por ejemplo, prueba de signo o de Wilcoxon) en su lugar. por
conjuntos de datos pequeños donde k = 3 y n <10, o k = 4 y n <8, el valor de χ 2 corregido por empate se busca en una tabla
de valores p "exactos" . Cuando se da, este es el valor p preferido .
El valor p asintótico (usando la distribución χ 2 con k -1 grados de libertad) es bastante preciso para
conjuntos de datos más grandes. Se calcula a partir de una versión con corrección de continuidad de χ 2 :
kn( + 1)⎞2
k
⎛
S = ∑ │⎝T j
- │
⎠
j =1 2
( - 1) S( - 1)
χ 2
= 12 kn
2
kn
3
(
- k +24
.
)
74
Página 75
Este valor de χ 2 también se corrige para empates usando la ecuación anterior.
Las pruebas post hoc se realizan mediante Wilcoxon simple por pares, exacto para n <20, asintótico para n > = 20. Estas pruebas
tienen mayor potencia que la prueba de Friedman.
Referencia
Bortz, J., Lienert, GA y Boehnke, K. 2000. Verteilungsfreie Methoden in der Biostatistik. 2ª ed.
Saltador.
75
Página 76
ANOVA bidireccional
ANOVA bidireccional (análisis de varianza) prueba las hipótesis nulas de que varias muestras univariadas tienen
la misma media en cada uno de los dos factores A y B, y que no hay dependencias (interacciones)
entre factores. Se supone que las muestras están cerca de la distribución normal y tienen similares
variaciones. Si los tamaños de las muestras son iguales, estos dos supuestos no son críticos. El análisis predeterminado es
un diseño bloqueado de efecto fijo (el caso más habitual). También hay una opción para el bloqueo de efectos aleatorios.
ANOVA bidireccional y ANOVA bidireccional anidado de efecto fijo. No existe un término de interacción para el
diseño anidado.
Se necesitan tres columnas: Una columna de grupo (establezca el tipo de datos en Grupo con 'Atributos de columna') con
los niveles del factor A, una columna de grupo con los niveles del factor B y una columna del correspondiente
valores medidos.
El algoritmo utiliza medios ponderados para diseños no balanceados.
Suma total de cuadrados:
SS T = ∑ (-xx yo
)
2
,
yo
asumido todos los puntos. Los grados de libertad asociados df T es el número total de valores menos uno.
Suma de cuadrados dentro del grupo:
76
Página 77
SS wg = ∑∑∑ -(xx yo gg21

),
2
gramogramo
1 2 yo
donde x i son los del grupo (nivel) g 1 para el primer factor y g 2 para el segundo factor, y
la media se toma dentro de la misma combinación de grupos. El df wg asociado es el número total de valores
menos el producto del número de grupos y columnas.
La suma de cuadrados entre grupos SS bg = SS T - SS wg se puede dividir en tres, a saber:
Factor A, Factor B y términos de interacción.
SS UN = norte (xxyo
UN∑ -
) 2
,
yo
donde la suma está por encima de los niveles del factor A, y las dos medias son la media del nivel y la media total,
respectivamente. N A es el número de niveles de A. Los grados de libertad son df A = N A - 1. De manera similar, para
Factor B:
= norte
SS segundo ∑ -X j
segundo
( X )
2
donde ahora la suma está por encima de los niveles del factor B. Los grados de libertad son df B = N B - 1.
La interacción suma de cuadrados es SS AxB = SS bg - SS A - SS B , con df AxB = ( N A - 1) ( N B - 1) grados de

libertad.
Los cuadrados medios MS son la suma de los cuadrados divididos por sus respectivos grados de libertad.
Finalmente, las razones F son
F A = MS A / MS wg
F B = MS B / MS wg
F AxB = MS AxB / MS wg
Efectos aleatorios
El ANOVA de efectos aleatorios se calcula como ANOVA de efectos fijos, excepto
F A = MS A / MS AxB
F B = MS B / MS AB .
Para ANOVA de efectos aleatorios, los componentes de la varianza se calculan de la siguiente manera (solo para
diseño, donde n es el tamaño de la muestra para cada combinación de niveles):
var (A) = (MS A - var (err) - n var (AxB)) / ( n N B )
var (B) = (MS B - var (err) - n var (AxB)) / ( n N A )
77
Página 78
var (AxB) = (MS AxB - var (err)) / n
var (err) = MS wg
Gráfica de medias
La gráfica de medias es un dispositivo gráfico simple, tradicionalmente utilizado para ver los efectos de factores y
su interacción para un ANOVA bidireccional. Las medias se muestran con los niveles A o B
en el eje x, y los otros niveles como líneas separadas:
Pruebas post-hoc de Tukey
Las pruebas post-hoc de Tukey están disponibles para los dos factores principales y para todas las interacciones sin factores de confusión.
Para los factores principales, el estadístico Q de rango estudentizado se da en el triángulo inferior izquierdo de la matriz,
y las probabilidades p (igual) en la esquina superior derecha. La prueba de interacción utiliza el valor "k ajustado",
teniendo en cuenta el número de comparaciones sin factores de confusión, hasta 7 niveles en cada factor. Para mayor
número de niveles no se ajusta el valor k.
Valores perdidos : las filas con valores perdidos se eliminan.
78
Página 79
ANOVA bidireccional sin replicación
ANOVA bidireccional para probar la hipótesis nula de que varias muestras univariadas tienen la misma media
en cada uno de los dos factores. Este módulo espera solo una observación para cada combinación de niveles
para los dos factores. El formato de datos de entrada es una tabla donde los primeros niveles de factor ingresan en filas, y
el segundo nivel de factor en columnas, por ejemplo, una tabla de resultados de laboratorio veterinario:
No hay término de interacción.
Las ecuaciones las proporciona Irlanda (2010), págs. 130-131.
Referencia
Irlanda, CR 2010. Estadísticas experimentales para la agricultura y la horticultura. CABI, 352 págs.
79
Página 80
ANOVA bidireccional de medidas repetidas
Se necesitan tres columnas de datos: Una columna de grupo (establezca el tipo de datos en Grupo con 'Atributos de columna')
con los niveles del factor A, una columna de grupo con los niveles del factor B, una columna de grupo con
identificadores para los casos (sujetos) y una columna de los valores medidos correspondientes.
Cada asignatura debe tener exactamente una entrada para cada combinación de niveles. Por lo tanto, si tiene M
niveles para el factor A, niveles N para los sujetos del factor B y S , necesita exactamente M x N x S filas en total.
Otra funcionalidad es similar al módulo ANOVA bidireccional descrito anteriormente.
¡Los datos faltantes no son compatibles!
Datos de ejemplo formateados para ANOVA de medidas repetidas bidireccionales.
80
Página 81
ANCOVA unidireccional
Pruebas ANCOVA (análisis de covarianza) para la igualdad de medias para varios grupos univariados, ajustadas
para la covarianza con otra variante. ANCOVA se puede comparar con ANOVA, pero tiene el agregado
característica que para cada grupo, la varianza que puede explicarse por una covariable "molestia" especificada ( x ) es
remoto. Este ajuste puede aumentar sustancialmente la potencia de la prueba.
El programa espera dos o más pares de columnas, donde cada par (grupo) es un conjunto de x - y correlacionados
datos (las medias se comparan para y , mientras que x es la covariable). El siguiente ejemplo usa tres pares
(grupos) a, by c.
La pestaña Gráfico presenta un gráfico de dispersión y líneas de regresión lineal para todos los grupos. El tipo ANOVA
La tabla de resumen contiene suma de cuadrados, etc. para las medias ajustadas (efecto entre grupos) y
error ajustado (dentro de los grupos), junto con una prueba F para las medias ajustadas. Una prueba F para
También se da la igualdad de las pendientes de regresión (según lo asumido por el ANCOVA). En el ejemplo, igual
las medias ajustadas en los tres grupos pueden rechazarse ap <0,05. La igualdad de pendientes no se puede rechazar
( p = 0,74).
La pestaña Grupos proporciona las estadísticas de resumen para cada grupo (media, media ajustada y regresión
Pendiente).
Los supuestos incluyen pendientes de regresión lineal similares para todos los grupos, distribuciones normales, similares
varianza y tamaños de muestra.
Datos que faltan : x - Y pares, ya sea con X o Y que faltan no son considerados.
81
Página 82
Tabla de correlaciones
Se requieren dos o más columnas. Se presenta una matriz con las correlaciones entre todos los pares de
columnas. En el formato de tabla 'Estadística \ p (uncorr)', los valores de correlación se dan en el triángulo inferior
de la matriz, y las probabilidades de dos colas de que las columnas no estén correlacionadas se dan en la
Superior. Están disponibles pruebas y coeficientes paramétricos y no paramétricos.
Datos faltantes : respaldado por la eliminación por pares, excepto para la correlación parcial que usa el valor medio
imputación.
R lineal (Pearson)
La r de Pearson es el coeficiente de correlación paramétrica más utilizado. Es dado por
∑ (yyxx- ) ( yo yo
- )
r = .
yo
∑ (xx - ) ( yo
2
aayo - ) 2
yo
La significancia se calcula usando una prueba t de dos colas con n -2 grados de libertad y
-2
norte
rt= .
1- r
2
D y rs de Spearman
El coeficiente de correlación de rango y orden de Spearman (no paramétrico) es el coeficiente de correlación lineal
( R de Pearson ) de las filas. Siguiendo a Press et al. (1992) se calcula como
82
Página 83
∑ (F ) ∑ (gramo )│
6 ⌈ 1 1 ⌉
1- │re + - Fk + - gramo
3 3
- norte
norte
3
⌊ 12
k
12
metro metro
⌋
rs =
k metro
.
⎛
│ ∑ (F - Fk ⎞⎛
k
3
││
) ∑ (gramo )⎞│
- gramo3
metro metro
│1 - k
││1 - metro
│
│
3
- norte ││
norte
3
- norte │
norte
⎝ ⎠⎝ ⎠
Aquí, D es la diferencia de la suma al cuadrado de los rangos (rangos intermedios para empates):
norte
re = ∑ (R yo
- S yo)2 .
yo= 1
Los f k son el número de empates en el k- ésimo grupo de empates entre los R i y los g m son los números de
lazos en el m ésimo grupo de lazos entre los S i .
Para n > 9, la probabilidad de r s distinto de cero (de dos colas) se calcula usando una prueba t con n -2 grados de
libertad:
-2
norte
rt= .
1 - rs
s 2
Para n pequeños, esta aproximación es inexacta, y para n <= 9 el programa cambia

automáticamente a una prueba exacta. Esta prueba compara la r s observada con los valores obtenidos de todos
posibles permutaciones de la primera columna.
La prueba asintótica en D está estrechamente relacionada con la prueba en r s (ver Press et al. 1992). Se calcula para
todo n (sin prueba exacta para n pequeña ).
Tau de Kendall
Este coeficiente de correlación no paramétrico no es de uso muy común. Se calcula de acuerdo con
Press et al. (1992). Se consideran todos los posibles pares N ( N -1) / 2 de puntos de datos bivariados. Si dos pares
tienen la misma dirección en x como en la y ( x y y tanto disminución, o ambos aumento), se llaman
concordante . Si no, son discordantes . Un empate en las x se llama un extra-x , y un empate en las y se llama
un extra-y . Se descartan los pares con empates en ambas variables. El número de parejas en las cuatro categorías.
se cuenta. Luego,
τ = concordante - discordante
.
concordante + discordante + extray concordante + discordante + extrax
La prueba asintótica se basa en que la tau de Kendall es aproximadamente normal, con media cero y
+
τ = 4 norte10 .
var ()
9 NN( - ) 1
83
Página 84
Correlación poliserial
Esta correlación solo se lleva a cabo si la segunda columna está formada por enteros con un rango menor que
100. Está diseñado para correlacionar una variable continua / de intervalo normalmente distribuida (primera columna)
con una variable ordinal (segunda columna) que agrupa una variable distribuida normalmente. Por ejemplo, el
la segunda columna podría contener los números 1-3 codificados para "pequeño", "mediano" y "grande". Allí
normalmente sería más "medio" que los valores "pequeños" o "grandes" debido a la normalidad subyacente
distribución de tamaños.
El pasado utiliza el algoritmo de dos pasos de Olsson et al. (mil novecientos ochenta y dos). Esto es más preciso que su "ad hoc"
estimador, y casi tan preciso como el algoritmo ML multivariante completo. El algoritmo de dos pasos fue
elegido debido a la velocidad, lo que permite una prueba de permutación (pero solo para N <100; aún no en el pasado 3). por
N mayor, la prueba asintótica dada (prueba de razón logarítmica) es precisa.
Correlación lineal parcial
Usando esta opción, para cada par de columnas, la correlación lineal se calcula mientras se controlan todos
las columnas restantes. Por ejemplo, con tres columnas A, B, C se controla la correlación AB
C; AC está controlado por B; BC se controla para A. La correlación lineal parcial se puede definir como el
correlación de los residuos después de la regresión sobre la variable de control. El significado es
estimado con una prueba t con n -2- k grados de libertad, donde k es el número de variables de control:
-2- k
norte
rt=
1- r
2
Pruebas de permutación
Las pruebas de permutación de Monte Carlo (N = 9999) están disponibles para todos los coeficientes de correlación excepto
correlación poliserial y parcial.
Gráficos de tabla de correlación
El trazado de la tabla de correlación incluye varias opciones. La función "Elipses" muestra la

coeficientes de correlación r como elipses con eje mayor de unidad, y eje menor d según Schilling
(1984):
(
r = 1 - re
2
) (1 + re ) 2
Referencias
Olsson, U., F. Drasgow y NJ Dorans. 1982. El coeficiente de correlación poliserial. Psicometrika

47: 337-347.
Prensa, WH, SA Teukolsky, WT Vetterling y BP Flannery. 1992. Recetas numéricas en C. Cambridge

Prensa Universitaria.
Schilling, MF 1984. Algunas observaciones sobre la estimación rápida del coeficiente de correlación. El americano
Estadístico 38: 330.
84
Página 85
Correlación intraclase
Un uso típico del coeficiente de correlación intraclase (ICC) es cuantificar la confiabilidad del evaluador , es decir, el nivel de
acuerdo entre varios "evaluadores" que miden los mismos objetos. Es una herramienta estándar para evaluar
Error de medición. ICC = 1 indicaría una fiabilidad perfecta. Los evaluadores (o 'jueces') van en columnas, mientras
los objetos medidos van en filas. En el siguiente ejemplo, hay cuatro evaluadores AB, que tienen
midió 6 objetos.
Past sigue la referencia estándar, Shrout y Fleiss (1979), que proporciona una serie de diferentes
coeficientes, denominados ICC ( m , k ) donde m es el tipo de modelo. Si k = 1, el coeficiente evalúa
mediciones individuales (por un solo evaluador); de lo contrario, evalúa la medición promedio en
evaluadores. Los modelos son
Modelo 1: los evaluadores que califican diferentes objetos son diferentes y se muestrean al azar de un conjunto más grande de
evaluadores
Modelo 2: los mismos evaluadores califican todos los objetos y los evaluadores son un subconjunto de un conjunto mayor de evaluadores.
Modelo 3: sin suposiciones sobre los evaluadores.
El ICC más utilizado es ICC (2,1), que por lo tanto está marcado en rojo en Pasado.
85
Página 86
El análisis se basa en un ANOVA bidireccional sin replicación, como se describe en otra parte de este
manual. Los intervalos de confianza son paramétricos, siguiendo las ecuaciones de Shrout y Fleiss (1979). los
Los datos del ejemplo anterior son del artículo de Shrout y Fleiss, la salida de Past que reproduce
sus resultados.
Referencia
Shrout, PE, Fleiss, JL 1979. Correlaciones intraclase: Usos para evaluar la confiabilidad del evaluador. Psicológico
Boletín 86: 420-428.
86
Página 87
Pruebas de normalidad
Cuatro pruebas estadísticas para la distribución normal de una o varias muestras de datos univariados, dadas en una
o más columnas separadas o con una sola columna de datos y una columna de grupo. Los datos utilizados a continuación
fueron generados por los generadores de números aleatorios normales y uniformes en Pasado ('Evaluar expresión'
módulo).
Para las cuatro pruebas, la hipótesis nula es
H 0 : La muestra se tomó de una población con distribución normal.
Si la p (normal) dada es menor que 0.05, se puede rechazar la distribución normal (marcada en rosa). Del
dadas las pruebas, el Shapiro-Wilk y Anderson-Darling se consideran los más exactos, y el
Lilliefors y Jarque-Bera se dan como referencia. Una prueba aún peor (chi-cuadrado de cuatro bin) fue
incluido en versiones anteriores de Past. Hay un tamaño máximo de muestra de n = 5000, mientras que el mínimo
el tamaño de la muestra es 3 (las pruebas, por supuesto, tendrán una potencia extremadamente pequeña para una n tan pequeña ).
Recuerde el problema de las pruebas múltiples si ejecuta estas pruebas en varias muestras: un Bonferroni o
otra corrección puede ser apropiada.
Prueba de Shapiro-Wilk
La prueba de Shapiro-Wilk (Shapiro y Wilk 1965) devuelve una estadística de prueba W , que es pequeña para valores no normales.
muestras y un valor de p . La implementación se basa en el código estándar "AS R94" (Royston 1995),
corregir una inexactitud en el algoritmo anterior "AS 181" para tamaños de muestra grandes.
87
Página 88
Prueba de Anderson-Darling
Los datos X i se ordenan en secuencia ascendente y se normalizan para la media y la desviación estándar:
X - μˆ
Yyo = yo .
σˆ
Con F la función de distribución acumulativa normal (CDF), el estadístico de prueba es
2
- 1 ∑ = (ln12
UN= - norte
norte
yo 1
yo- )[()YF yo
( - YF(
+ 1 ln + 1- k
norte
))].
norte
La significancia se estima según Stephens (1986). Primero, una corrección para el tamaño de muestra pequeño es
aplicado:
⎛ 75,0 ⎞
UN = UN│1 +
2* 2
+ 25,2 │.
2
⎝ norte norte⎠
El valor p se estima como
⎧
│
(
2937.1exp - 709,5 UN + 0186.0 UN
2*
22 *
() ) UN ≥ 6.0
2*
22 *
https://translate.googleusercontent.com/translate_f
⎨ 86/278
⎨9177.0exp - 279,4 UN - 38,1 UN 34,0 < UN < 6.0

(( )() )
2*
()
2*
= │
pags 22 *
│1 - Exp - 318,8 + 796,42 un - 938.59 UN 2.0 < UN ≤ 6.0
2* 2*
│ - (
⎩1 Exp - 436,13 + 14.101 un - 73.223 un
2*
22 *
() ) UN ≤ 2.0
2*
Esta aproximación se descompone para A * 2 grande . Pasado, por lo tanto, establece p = 0 para A * 2 > 100.
Prueba de Lilliefors
La prueba de Lilliefors es básicamente la misma que la prueba de Kolmogorov-Smirnov, comparando la muestra

distribución con una distribución normal con media y varianza estimadas a partir de los datos. Porque
esta estimación de parámetro, la significación debe calcularse de una manera diferente a la de Kolmogorov-
Smirnov. Además del procedimiento de Monte Carlo, Past reporta un valor p usando una aproximación a
tablas publicadas dadas por Molin & Abdi (1998) y Abdi & Molin (2007):
b 2 = 0.08861783849346
b 1 = 1,30748185078790
b 0 = 0.37872256037043
- ( 1 +) + √ ( 1 +) 2 - 4 2 ( 0 - 1 2 ⁄)
=
22
p = -0.37782822932809 + 1.67819837908004 A - 3.02959249450445 A 2

+ 2.80015798142101 A 3 - 1.39874347510845 A 4
+ 0,40466213484419 A 5 - 0,06353440854207 A 6
+ 0,00287462087623 A 7 + 0,00069650013110 A 8
- 0,00011872227037 A 9 + 0,00000575586834 A 10
88
Página 89
Prueba de Jarque-Bera
La prueba de Jarque-Bera (Jarque y Bera 1987) se basa en asimetría S y curtosis K . La estadística de prueba es
⎛ 2 (K - 3 )2
norte ⎞
JB = │S + │
│ │
6⎝ 4 ⎠.
En este contexto, la asimetría y la curtosis utilizadas son
1 ∑ (xx - ) 3
S =
yo
3
norte
⎛ 1 ⎞
│
│ ∑ (xxyo - ) 2
│
│
⎝ norte ⎠ ,
1 ∑ (xx - ) 4
K =
yo
4
norte
⎛ 1 ⎞
│
│ ∑ (xxyo - )2
│
│
⎝ norte ⎠ .
Tenga en cuenta que estas ecuaciones contienen estimadores más simples que el G 1 y G 2 dados en el Univariante
módulo de estadísticas de resumen, y que la curtosis aquí será 3, no cero, para una distribución normal.
Asintóticamente (para tamaños de muestra grandes), el estadístico de prueba tiene una distribución de chi-cuadrado con dos
grados de libertad, y esto forma la base del valor p dado por Pasado. Se sabe que este
El enfoque funciona bien solo para tamaños de muestra grandes y, por lo tanto, Pasado también incluye una prueba de significancia
basado en la simulación de Monte Carlo, con 10,000 valores aleatorios tomados de una distribución normal.
Referencias
Abdi, H. y Molin, P. 2007. Prueba de normalidad de Lilliefors / Van Soest. En: Enciclopedia de Neil Salkind (Ed.)
de Medición y Estadística. Thousand Oaks (CA): salvia.
Jarque, CM & Bera, AK 1987. Una prueba de normalidad de observaciones y residuos de regresión.
Revista Estadística Internacional 55: 163-172.
Molin, P. & Abdi, H. 1998. Nuevas tablas y aproximación numérica para el

Prueba de normalidad de KolmogorovSmirnov / Lilliefors / Van Soest. Informe técnico, Universidad de Borgoña.
Royston, P. 1995. Un comentario sobre AS 181: La prueba W de normalidad. Estadísticas aplicadas 44: 547-551.
Shapiro, SS & Wilk, MB 1965. Un análisis de la prueba de varianza para la normalidad (muestras completas).
Biometrika 52: 591–611.
Stephens, MA 1986. Pruebas basadas en estadísticas de edf. Páginas. 97-194 en D'Agostino, RB & Stephens, MA
(eds.), Técnicas de bondad de ajuste. Nueva York: Marcel Dekker.
89
Página 90
Tabla de contingencia (chi 2, etc.)
Estas pruebas esperan una tabla de frecuencia con números de elementos en diferentes categorías (filas y
columnas). Las filas representan los diferentes estados de una variable nominal, las columnas representan los estados
de otra variable nominal, y las celdas contienen los recuentos enteros de ocurrencias de ese estado específico
(fila, columna) de las dos variables. El análisis de la tabla de contingencia luego brinda información sobre si
las dos variables de taxón y localidad están asociadas. Por ejemplo, esta prueba se puede utilizar para comparar
dos muestras (columnas) con el número de individuos de cada taxón organizados en filas. Tú
Debe tener cuidado con esta prueba si alguna de las células contiene menos de cinco individuos (ver Fisher's
prueba exacta a continuación).
Se da la importancia de la asociación entre las dos variables, con valores de p de la chi-cuadrado

distribución y de una prueba de permutación con 9999 repeticiones.
La casilla "Muestra frente a lo esperado" debe estar marcada si tiene dos columnas y la segunda
Consiste en recuentos de una distribución teórica (valores esperados) con error de muestreo cero, posiblemente
no entero. Esta no es una corrección de muestra pequeña. En este caso, solo está disponible la prueba de chi-cuadrado.
La prueba de permutación de Monte Carlo utiliza el número dado de réplicas aleatorias. Para "Muestra vs.
esperado "estas réplicas se generan manteniendo los valores esperados fijos, mientras que los valores en
la primera columna es aleatoria con probabilidades relativas especificadas por los valores esperados, y con
suma constante. Para dos muestras, todas las celdas son aleatorias pero con sumas constantes de filas y columnas.
Véase, por ejemplo, Brown y Rothery (1993) o Davis (1986) para obtener más detalles.
También se proporciona la prueba exacta de Fisher (de dos colas). Cuando esté disponible, la prueba exacta de Fisher puede ser
superior al chi-cuadrado. Para tablas grandes o recuentos grandes, el tiempo de cálculo puede ser prohibitivo
90
Página 91
y expirará después de un minuto. En tales casos, la prueba paramétrica es probablemente aceptable en cualquier
caso. El procedimiento es complejo y se basa en el algoritmo de red de Mehta y Patel (1986).
Se dan otras dos medidas de asociación. Ambas son transformaciones de chi-cuadrado (Press et al.
1992). Con n la suma total de recuentos, M el número de filas y N el número de columnas:
χ 2
V de Cramer : V =
min (METRO
norte - )1
- , 1norte
χ2
Coeficiente de contingencia C : C =
χ + norte
2
Derechos residuales de autor
Si obtiene una asociación significativa ( p <0.05) en la prueba de chi-cuadrado, puede ser de interés ver cuál
de las celdas contribuyen más fuertemente a la desviación de los valores esperados bajo el nulo
hipótesis de no asociación (análisis post-hoc). La tabla de residuos puede mostrar los siguientes valores
para cada celda:
Residuos brutos: O - E , donde O es el valor observado y E el valor esperado.
Residuos estandarizados: ( O - E ) / √ E , estandarizando para la magnitud del valor esperado.
Residuos ajustados:
EO-
adj. _ resid = ,
mi(1 - RowMargina 1 /norte
l) (- ColumnMarg / inal )n
donde RowMarginal es la suma de la fila y ColumnMarginal es la suma de la columna de la celda en
pregunta.
Los residuos ajustados tienen una distribución aproximadamente normal, lo que significa que los valores fuera de los dos
intervalo sigma [-1,96, 1,96] puede considerarse significativo ap <0,05, aunque la prueba múltiple
se aplica el problema.
No se admiten datos faltantes .
Referencias
Brown, D. y P. Rothery. 1993. Modelos en biología: matemáticas, estadística e informática. John Wiley
& Hijos.
Davis, JC 1986. Estadísticas y análisis de datos en geología. John Wiley & Sons.
Mehta, CR y NR Patel. 1986. Algoritmo 643: FEXACT: una subrutina FORTRAN para la prueba exacta de Fisher
en tablas de contingencia r × c desordenadas. Transacciones ACM en software matemático 12: 154-161.
91
Página 92

Prueba de Cochran-Mantel-Haenszel
Similar a la prueba de chi-cuadrado pero probando varias tablas de contingencia 2x2 (repetidas) simultáneamente,
para controlar un factor de molestia (Mantel y Haenszel 1959). Un ejemplo podría ser controlar
para la temporada cuando se prueba el efecto de un medicamento que se utilizó en experimentos repetidos a través de
un año. Las tablas de 2x2 se deben dar en filas consecutivas en la hoja de cálculo (primero, una tabla de 2x2,
seguido a continuación de la siguiente tabla, etc.).
Nuestro algoritmo sigue a McDonald (2014). Indexando las tablas individuales por k , escribimos un particular
mesa como
⌈ unk segundo
k
⌉
│ │.
⌊ corriente
k k ⌋ continua
Con M el número de tablas, y n k = a k + b k + c k + d k , el chi-cuadrado se calcula como
2
⌈ METRO ⌉
│∑ (unk - (unk + abk ) ( k k
) k ) del
+ Carolina - 5,0
Norte
│
⌊ k =1 ⌋
χ MH
2
= .
)
METRO
∑ (un + ab ) (
k k k k
) (de
+ antes k
) (kcompactos
+Cristo
discos
k
+ rek norte
3
k
- norte
2
k
)(
k =1
Tenga en cuenta que en la bibliografía a menudo se dan otras formas algebraicamente equivalentes. La resta de
0.5 es una corrección de continuidad, no siempre incluida en otro software. Esta estadística de prueba se distribuye
como χ2 con un grado de libertad.
Además, la razón de posibilidades común (igual a uno para la independencia total) se calcula utilizando la
Estimación de Mantel-Haenszel (1959):
METRO
∑ nda k k k
θMH = k =1
METRO
.
∑ ncb kk k
k =1
No se admiten datos faltantes .
Referencias
Mantel, N. y W. Haenszel. 1959. Aspectos estadísticos del análisis de datos de estudios retrospectivos
de la enfermedad. Revista del Instituto Nacional del Cáncer 22: 719-748.
92
Página 93
McDonald, JH 2014. Manual de estadísticas biológicas (3ª ed.). Editorial Sparky House, Baltimore,
Maryland.
93
Página 94
Riesgo / probabilidades
Este módulo compara los recuentos de un resultado binario bajo dos tratamientos diferentes, con estadísticas
que son de uso común en medicina. Los datos se ingresan en una tabla de 2x2, con tratamientos en filas
y recuentos de los dos resultados diferentes en columnas.
El siguiente ejemplo muestra los resultados de un ensayo de vacunación en 460 pacientes:
Tengo influenza No contrajo influenza
Vacuna 20 220
Placebo 80 140
En general, los datos toman la forma
Resultado 1 Resultado 2
Tratamiento 1 d1 h1
Tratamiento 2 d0 h0
94
Página 95
Sea n 1 = d 1 + h 1 , n 0 = d 0 + h 0 y p 1 = d 1 / n 1 , p 0 = d 0 / n 0 . Luego, las estadísticas se calculan de la siguiente manera:
Diferencia de riesgo: RD = p 1 - p 0
Intervalo de confianza del 95% sobre la diferencia de riesgo (chi-cuadrado de Pearson) :
( - pags
pags
1| 1
) pags(
1 - pags )
se = + 0
1 |0
norte
1 norte
0
Intervalo: RD - 1,96 s e a RD + 1,96 s e
Prueba Z sobre la diferencia de riesgo (de dos colas):
RD
z=
s mi
Radio de riesgo: RR = p 1 / p 0
Intervalo de confianza del 95% sobre el índice de riesgo ("método delta"):
1 - 1 + 1 - 1
s e(en RR ) =
re1 norte
1 re0 norte
0
EF = mi
96,1 s mi
Intervalo: RR / EF a RR x EF
Prueba Z sobre la razón de riesgo (de dos colas):
en RR
z =
s mi
hd1 1
Razón de probabilidades: O =
hd0 0
Intervalo de confianza del 95% en relación de probabilidades ("fórmula de Woolfs"):
1 + 1 + 1 + 1
s e(en O )=
re1 dh
1 0 h0
EF = mi
96,1 s mi
Intervalo: OR / EF a OR x EF
Tenga en cuenta que actualmente no hay corrección de continuidad.
Los datos faltantes no están permitidos y darán un mensaje de error.
95
Página 96
Proporción única
Un módulo simple para calcular la probabilidad de una proporción (muestra) observada (en el rango 0-1)
contra una proporción hipotética. No se requieren datos de entrada en la hoja de cálculo.
Con p la proporción de la muestra, P la proporción hipotética yn el tamaño de la muestra, calculamos el

Desviación Estándar
σ = P (-1 )
PAGS
.
norte
Además, calculamos el estadístico z (distribución normal)
-
Páginas
z= .
σ
La significancia (de dos colas) se calcula directamente a partir de zy la distribución normal.
El intervalo de confianza del 95% para la proporción se calcula utilizando dos métodos diferentes. El 'exacto'
El intervalo se calcula utilizando el método Clopper-Pearson (Clopper y Pearson 1934) como
-1 -1
⎛ ⎞ ⎛ ⎞
│ │ │ │
│ + xn- + 1 │ <θ < │ + xn- │
│1 α │ │1
⌈α ⌉│
│ []
⌈ ⌉
│ xF │1 - 2,2;xnx ( - + 1)││ X + 1 F │ 2; (X + 2,1
) ( xn- )││
⎝ ⌊ 2 ⌋⎠ ⎝ ⌊2 ⌋⎠
donde α = 0.05, x es el número de éxitos calculado como round ( pn ), y F ( c ; d 1 , d 2 ) es el 1- c
cuantil de una F de distribución con d 1 y d 2 grados de libertad.
La aproximación normal se calcula como
= pags
segundo
1 ( - pags
)
norte
CI = ( pags
- , 96,1 pb + 96,1 )b
El IC de aproximación normal se utiliza con más frecuencia. El IC exacto es más preciso para n pequeño. por
grande n los dos métodos darán resultados similares.
Referencia
Clopper, C. & Pearson, ES 1934. El uso de límites de confianza o fiduciales ilustrados en el caso de la
binomio. Biometrika 26: 404–413.
96
Página 97
Intervalos de confianza de proporciones múltiples
Acepta dos columnas de datos, la primera columna con proporciones expresadas como porcentajes (0-100) y la
segunda columna que contiene tamaños de muestra ( N ). El programa calculará intervalos de confianza del 95% para
todas las proporciones usando el método Clopper-Pearson (ver arriba), y grafíquelas.
Los datos faltantes no se tienen en cuenta.
97
Página 98
Relación de recuentos intervalo de confianza
Este módulo calcula los intervalos de confianza para las proporciones de conteos. Está especialmente diseñado para
índices ambientales basados en recuentos de microfósiles en paleontología, en la forma ( a + c ) / ( b + c ). Esta
La fórmula general cubre los casos comunes a / b , donde c = 0, yc / ( b + c ), donde a = 0. No hay datos
requerido en la hoja de cálculo.
Se proporcionan dos métodos, como describen Escarguel et al. (en revisión, 2019). El primero es un Monte
Procedimiento de Carlo basado en una transformación de la distribución normal. El segundo es un
bootstrap sencillo, con dos versiones (simple, que puede producir valores negativos), y
percentil.
+
+ ( )+( )
Para el procedimiento de Monte Carlo, primero tenga en cuenta que== + = , donde T = a + b + c .
+ ( )+( )
Sean e y g los valores transformados por arcoseno = sin -1 √ ( a / T ) y g = sin -1 √ ( c / T ). e y g debe

entonces serán variables distribuidas normalmente con una desviación estándar muestral s = √ (1 / (4)) (Sokal y
Rohlf, 2011). Por lo tanto, sean e * yg * variaciones aleatorias distribuidas normalmente con medias e y g ,
y desviación estándar s . Entonces, e * y g * se transforman de nuevo a valores de proporción ( a / T ) * = sin 2 *
∗ ∗
( ) +( )
y ( c / T ) * = sen 2 g *. Finalmente, una estimación de Monte-Carlo de r se calcula como ∗ =
1− ( )
∗ . Esta
El procedimiento se repite un gran número (digamos, 10,000) veces, lo que lleva a una distribución de Monte-Carlo de r ,
a partir del cual los percentiles 2.5 y 97.5 definen el intervalo de confianza del 95%.
Referencia
Suchéras-Marx, B., Escarguel, G., Ferreira, J. y Hammer, Ø. En revisión. Intervalos de confianza estadísticos
para abundancias relativas y proporciones basadas en la abundancia: soluciones prácticas simples para un viejo
pregunta.
98
Página 99
Análisis de supervivencia (curvas de Kaplan-Meier, prueba de rango logarítmico, etc.)
Análisis de supervivencia para dos grupos (tratamientos) con previsión de censura por derecho. El módulo dibuja
Curvas de supervivencia de Kaplan-Meier para los dos grupos y calcula tres pruebas diferentes de equivalencia.
El programa espera cuatro columnas. La primera columna contiene tiempos para fallar (muerte) o censurar
(falla no observada hasta e incluyendo el tiempo dado) para el primer grupo, la segunda columna
indica falla (1) o censura (0) para los individuos correspondientes. Las dos últimas columnas contienen
datos para el segundo grupo. Los tiempos de falla deben ser mayores que cero.
El programa también acepta solo un tratamiento (dado en dos columnas) o más de dos tratamientos
en pares consecutivos de columnas, trazando una o varias curvas de Kaplan-Meier. Las pruebas estadísticas son
sin embargo, solo se comparan los dos primeros grupos.
Las curvas de Kaplan-Meier y las pruebas log-rank, Wilcoxon y Tarone-Ware se calculan de acuerdo con
a Kleinbaum y Klein (2005).
El tiempo promedio de falla incluye los datos censurados. El peligro promedio es el número de fallas dividido por
suma de veces al fracaso o la censura.
La prueba de rango logarítmico es por chi-cuadrado en el segundo grupo:
( )
⎛ ⎞
│∑ metro- mi │
│ 2 j │
(O - mi2 )2 ⎝j
2 j
⎠
χ = =
( )( )
2 2
.
var (O 2 - mi2 ) mnn + metro +
norte norte- metro
- metro
∑ 1j 2 j 1j 2 j 1j 2 j 1j
(norte+ norte) (norte+ norte- 1)

2
2 j
j 1j 2 j 1j 2 j
99
Página 100
Aquí, n ij es el número de individuos en riesgo y m ij el número de fallas, en el grupo i en distintos

tiempo de falla j . El número esperado de fallas en el grupo 2 en el momento de falla j es
( + metro
Minnesota )
mi2 j =
2 j 1j 2j
.
1j
+ norte
norte 2 j
El chi-cuadrado tiene un grado de libertad.
Las pruebas de Wilcoxon y Tarone-Ware son versiones ponderadas de la prueba de rango logarítmico, donde los términos en
las fórmulas de suma para O 2 - E 2 y var ( O 2 - E 2 ) reciben pesos de n j y √ n j , respectivamente. Estas
por lo tanto, las pruebas dan más peso a los tiempos de falla tempranos. No son de uso común en comparación con
la prueba de rango logarítmico.
Este módulo no es estrictamente necesario para el análisis de supervivencia sin censura de derechos - the Mann-Whitney
La prueba puede ser suficiente para este caso más simple.
Datos faltantes : los puntos de datos con valor perdido en una o ambas columnas se ignoran.
Referencia
Kleinbaum, DG y Klein, M. 2005. Análisis de supervivencia: un texto de autoaprendizaje. Saltador.
100
Página 101
Combinar errores
Un módulo simple para producir una media ponderada y su desviación estándar a partir de una colección de
mediciones con errores (un sigma). Espera dos columnas: los datos xy sus errores one-sigma
σ . También se traza la suma de las distribuciones gaussianas individuales.
La media ponderada y su desviación estándar se calculan como
∑X yo
σ yo2
μ = 1
yo
, σ = .
∑1 σ 2
yo ∑1 σ 2
yo
yo yo
Este es el estimador de máxima verosimilitud para la media, asumiendo que todas las distribuciones individuales son
normal con la misma media.
Datos faltantes : se eliminan las filas con datos faltantes en una o ambas columnas.
101
Página 102
Menú multivar
Componentes principales
El análisis de componentes principales (PCA) encuentra variables hipotéticas (componentes) que representan
tanto como sea posible de la varianza en sus datos multivariados (Davis 1986, Harper 1999 , Legendre &
Legendre 1998). Estas nuevas variables son combinaciones lineales de las variables originales. PCA puede ser
utilizado para la reducción del conjunto de datos a sólo dos variables (los dos primeros componentes), para trazar
propósitos. También se podría plantear la hipótesis de que los componentes más importantes se correlacionan con
otras variables subyacentes. Para los datos morfométricos, esto podría ser el tamaño, mientras que para los datos ecológicos
podría ser un gradiente físico (por ejemplo, temperatura o profundidad).
Los datos de entrada son una matriz de datos multivariados, con elementos en filas y variantes en columnas.
La rutina PCA encuentra los autovalores y autovectores de la matriz de varianza-covarianza o la

matriz de correlación, con el algoritmo SVD. Utilice varianza-covarianza si todas las variables se miden en
las mismas unidades (por ejemplo, centímetros). Utilice correlación (var-covar normalizada) si las variables son
medido en diferentes unidades; esto implica normalizar todas las variables usando la división por su estándar
desviaciones. Los valores propios dan una medida de la varianza explicada por el correspondiente
vectores propios (componentes). Los porcentajes de varianza contabilizados por estos componentes son
también dado. Si la mayor parte de la varianza se explica por el primero o los dos primeros componentes, tiene
obtuvo un éxito, pero si la varianza se distribuye más o menos uniformemente entre los componentes, el PCA
en cierto sentido, no ha tenido mucho éxito.
En el siguiente ejemplo (puntos de referencia de cráneos de gorilas), el componente 1 es fuerte, lo que explica el 45,9% de
diferencia. Los intervalos de confianza de bootstrap no se muestran a menos que el valor de 'Bootstrap N' no sea
cero.
102
Página 103
Grupos: si los grupos se especifican con una columna de grupo, el PCA se puede realizar opcionalmente dentro de
grupo o entre grupos . En el PCA dentro del grupo, el promedio dentro de cada grupo se resta antes de
eigenanalysis, esencialmente eliminando las diferencias entre grupos. En PCA entre grupos, el
El autoanálisis se lleva a cabo sobre las medias del grupo (es decir, los elementos analizados son los grupos, no los
filas). Tanto para PCA dentro del grupo como entre grupos, las puntuaciones de PCA se calculan utilizando
productos con los datos originales.
El arranque por filas se lleva a cabo si se proporciona un número positivo de réplicas de arranque (por ejemplo, 1000)
en el cuadro 'Bootstrap N'. Los componentes bootstrapped se reordenan y se invierten de acuerdo con
Peres-Neto y col. (2003) para aumentar la correspondencia con los ejes originales. 95% de arranque
Se dan intervalos de confianza para los valores propios.
El 'gráfico de pantalla' (gráfico simple de valores propios) también puede indicar el número de componentes significativos.
Una vez que esta curva comienza a aplanarse, los componentes pueden considerarse insignificantes. 95%
Los intervalos de confianza se muestran si se ha realizado el arranque. Los valores propios esperados
bajo un modelo aleatorio (Broken Stick) se grafican opcionalmente - los valores propios bajo esta curva pueden
representan componentes no significativos (Jackson 1993) .
En el ejemplo del gorila anterior, los valores propios de los 16 componentes (línea azul) se encuentran por encima de los
valores de barra (línea discontinua roja) para los dos primeros componentes, aunque la barra rota está dentro del
Intervalo de confianza del 95% para el segundo componente.
El diagrama de dispersión muestra todos los puntos de datos (filas) trazados en el sistema de coordenadas dado por dos de los
componentes. Si tiene grupos, puede enfatizarlos con elipses de concentración o cascos convexos.
El árbol de expansión mínimo es el conjunto de líneas más corto posible que conecta todos los puntos. Esto podría ser
se utiliza como ayuda visual para agrupar puntos cercanos. El MST se basa en una medida de distancia euclidiana de
los puntos de datos originales, y es más significativo cuando todas las variables usan la misma unidad. La 'biplot'
La opción muestra una proyección de los ejes originales (variables) en el diagrama de dispersión. Este es otro
visualización de las cargas de PCA (coeficientes) - ver más abajo.
103
Página 104
Si se marca la "escala de Eigenval", los puntos de datos se escalarán por 1 rek y los vectores propios de biplot
por d k- esta es la biplot de correlación de Legendre y Legendre (1998). Si no está marcado, los puntos de datos
no están escalados, mientras que los vectores propios biplot están normalizados a la misma longitud (pero no a la unidad, para
razones gráficas): esta es la biplot de distancia.
La gráfica de cargas muestra en qué grado sus diferentes variables originales (dadas en el orden original
a lo largo del eje x) ingrese en los diferentes componentes (como se eligió en el panel de botones de opción). Estas
Las cargas de los componentes son importantes cuando intenta interpretar el "significado" de los componentes. los
La opción 'Coeficientes' da los coeficientes de PC, mientras que 'Correlación' da la correlación entre un
variable y las puntuaciones de PC. Si se ha realizado bootstrapping, los intervalos de confianza del 95% son
mostrado (solo para la opción Coeficientes).
Los datos faltantes se pueden manejar mediante uno de dos métodos:
1. Imputación del valor medio : Los valores faltantes se reemplazan por su promedio de columna. No
recomendado.
2. Imputación iterativa : Los valores faltantes se reemplazan inicialmente por su promedio de columna. Una inicial
Luego, la ejecución de PCA se usa para calcular los valores de regresión para los datos faltantes. El procedimiento es
iterado hasta la convergencia. Este suele ser el método preferido, pero puede causar algunos
sobreestimación de la resistencia de los componentes (ver Ilin & Raiko 2010).
104
Página 105
Referencias
Ilin, A. y T. Raiko. 2010. Enfoques prácticos para el análisis de componentes principales en presencia de
valores faltantes. Revista de investigación de aprendizaje automático 11: 1957-2000.
Jackson, DA 1993. Reglas de detención en el análisis de componentes principales: una comparación de heurística y
enfoques estadísticos. Ecología 74: 2204-2214.
Legendre, P. y L. Legendre. 1998. Ecología numérica, 2ª ed. Inglesa. Elsevier, 853 págs.
Peres-Neto, PR, DA Jackson y KM Somers. 2003. Dando una interpretación significativa a la ordenación
ejes: evaluación de la importancia de la carga en el análisis de componentes principales. Ecología 84: 2347-2363.
105
Página 106
Coordenadas principales
El análisis de coordenadas principales (PCO) es otro método de ordenación, también conocido como métrico
Escalamiento multidimensional. El algoritmo es de Davis (1986) .
La rutina PCO encuentra los autovalores y autovectores de una matriz que contiene las distancias o
similitudes entre todos los puntos de datos. La distancia euclidiana da resultados similares a PCA. Un adicional de
Hay 24 medidas de distancia disponibles, que se explican en "Medidas de similitud y distancia".
El valor propio, que da una medida de la varianza explicada por el vector propio correspondiente
(coordenada) se da para cada coordenada. Los porcentajes de varianza explicados por estos
también se dan componentes.
Los valores de similitud / distancia se elevan a la potencia de c (el "exponente de transformación") antes
autoanálisis. El valor estándar es c = 2. Los valores más altos (4 o 6) pueden disminuir el efecto de "herradura".
(Podani y Miklos 2002).
El diagrama de dispersión le permite ver todos sus puntos de datos (filas) trazados en el sistema de coordenadas dado
por el PCO. La opción "Escala de valor propio" escala cada eje utilizando la raíz cuadrada del valor propio
(recomendado). La opción de árbol de expansión mínima se basa en la similitud o distancia seleccionada
índice en el espacio original.
Los datos faltantes son compatibles con la eliminación por pares (no para Raup-Crick, Rho o índices definidos por el usuario).
Referencias
Podani, J. e I. Miklos. 2002. Coeficientes de semejanza y efecto herradura en principio

análisis de coordenadas. Ecología 83: 3331-3343.
106
Página 107
MDS no métrico
El escalado multidimensional no métrico se basa en una matriz de distancia calculada con cualquiera de 21
medidas de distancia compatibles, como se explica en los índices de similitud y distancia más arriba. los
Luego, el algoritmo intenta colocar los puntos de datos en un sistema de coordenadas bidimensional o tridimensional.
de modo que se conserven las diferencias de clasificación . Por ejemplo, si la distancia original entre los puntos 4
y 7 es la novena distancia más grande entre dos puntos cualesquiera, los puntos 4 y 7 se ubicarán idealmente
de modo que su distancia euclidiana en el plano 2D o el espacio 3D sigue siendo la novena más grande. No métrico
El escalado multidimensional intencionalmente no tiene en cuenta las distancias absolutas.
El programa puede converger en una solución diferente en cada ejecución, según las condiciones iniciales.
Cada ejecución es en realidad una secuencia de 11 ensayos, de los cuales se elige el que tiene el menor estrés. Uno de
estos ensayos utilizan PCO como condición inicial, los otros son aleatorios. La solución es automáticamente
rotado a los ejes principales (2D y 3D).
El algoritmo implementado en PAST, que parece funcionar muy bien, se basa en un nuevo enfoque
desarrollado por Taguchi y Oono (2005).
La opción de árbol de expansión mínima se basa en la similitud seleccionada o el índice de distancia en el original.
espacio.
Variables ambientales : es posible incluir una o más columnas iniciales que contengan
Variables “ambientales” para el análisis. Estas variables no están incluidas en la ordenación. los
Los coeficientes de correlación entre cada variable ambiental y los puntajes NMDS se presentan como
vectores desde el origen. Las longitudes de los vectores se escalan arbitrariamente para hacer un biplot legible, por lo que
sólo deben considerarse sus direcciones y longitudes relativas.
Gráfico de Shepard : este gráfico de rangos obtenidos versus observados (objetivo) indica la calidad del resultado.
Idealmente, todos los puntos deben colocarse en una línea recta ascendente ( x = y ). Los valores de R 2 son los
coeficientes de determinación entre distancias a lo largo de cada eje de ordenación y las distancias originales
107
Página 108
(tal vez no sea un valor muy significativo, pero es informado por otros programas NMDS por lo que se incluye para
lo completo).
Los datos que faltan son compatibles con la eliminación por pares (no para Raup-Crick, Rho y definidos por el usuario
índices). Para las variables ambientales, los valores faltantes no se incluyen en el cálculo de
correlaciones.
Referencia
Taguchi, Y.-H., Oono, Y.2005 . Patrones relacionales de expresión génica a través de métodos no métricos
análisis de escala multidimensional. Bioinformática 21: 730-40.
108
Página 109
Análisis de correspondencia
El análisis de correspondencia (CA) es otro método de ordenación, algo similar al PCA pero para
datos contados (Legendre y Legendre 1998). Para comparar asociaciones (columnas) que contienen recuentos
de taxones, o taxones contados (filas) a través de asociaciones, CA es el algoritmo más apropiado. Además, CA es
más adecuado si espera que las especies tengan respuestas unimodales a los parámetros subyacentes, que
favorecen un cierto rango del parámetro, volviéndose raros para valores más bajos y más altos (esto es en
en contraste con PCA, que asume una respuesta lineal).
La rutina CA encuentra los autovalores y autovectores de una matriz que contiene el Chi-cuadrado
distancias entre todas las filas (o columnas, si eso es más eficiente, el resultado es el mismo). los
El algoritmo sigue a Greenacre (2010), con SVD. El valor propio, que da una medida de la similitud
representado por el vector propio correspondiente, se da para cada vector propio. Los porcentajes de
También se dan las similitudes explicadas por estos componentes.
El diagrama de dispersión le permite ver todos sus puntos de datos (filas) trazados en el sistema de coordenadas dado
por la CA. Si tiene filas agrupadas, los diferentes grupos se pueden mostrar usando cascos convexos separados
y elipses de concentración.
Además, las variables (columnas, asociaciones) se pueden trazar en el mismo sistema de coordenadas (Q
modo), incluyendo opcionalmente las etiquetas de columna. Si sus datos se 'comportan bien', los taxones típicos de un
asociación debe trazar en las proximidades de esa asociación.
Gráfica de relevo (NO EN EL PASADO 3) : Este es un diagrama compuesto con una gráfica por columna. Las parcelas son
ordenados de acuerdo con las puntuaciones de la columna CA. Cada punto de datos se traza con puntuaciones de fila del primer eje de CA en
el eje vertical, y el valor del punto de datos original (abundancia) en la columna dada en la horizontal
eje. Esto puede resultar más útil cuando las muestras están en filas y los taxones en columnas. La gráfica de relevos entonces
109
Página 110
muestran los taxones ordenados de acuerdo con sus posiciones a lo largo de los gradientes, y para cada taxón el
La gráfica correspondiente debería idealmente mostrar un pico unimodal, en parte superpuesto con el pico del siguiente
taxón a lo largo del gradiente (ver Hennebert & Lees 1991 para un ejemplo de sedimentología).
Los datos faltantes están respaldados por la sustitución de promedios de columnas.
Referencia
Greenacre, M. 2010. Biplots en la práctica. Fundación BBVA, 237 págs.
Hennebert, M. y A. Lees. 1991. Detectados gradientes ambientales en sedimentos carbonatados y rocas

por análisis de correspondencia: ejemplos del Reciente de Noruega y el Dinantiano del suroeste
Inglaterra. Sedimentología 38: 623-642.
110
Página 111
Análisis de correspondencia sin tendencia
El módulo Correspondencia sin tendencia (DCA) utiliza el mismo algoritmo que Decorana ( Hill & Gauch
1980) , con modificaciones según Oxanen & Minchin (1997). Está especializado para su uso en
conjuntos de datos 'ecológicos' con datos de abundancia; muestras en filas, taxones en columnas.
Los valores propios para los cuatro ejes de ordenación se dan como en CA, lo que indica su importancia relativa en
explicando la propagación en los datos.
La eliminación de tendencias es una especie de procedimiento de normalización en dos pasos. El primer paso implica un intento de
puntos de 'enderezamiento' que se encuentran en un arco, lo cual es una ocurrencia común. El segundo paso implica
'distribuir' los puntos para evitar la agrupación de puntos en los bordes de la trama. Detrending mayo
Parece un procedimiento arbitrario, pero puede ser una ayuda útil en la interpretación.
Referencias
Hill, MO & HG Gauch Jr. 1980. Análisis de correspondencia sin tendencia: una ordenación mejorada
técnica. Vegetatio 42: 47-58.
Oxanen, J. y PR Minchin. 1997. La inestabilidad de los resultados de ordenación ante cambios en el orden de los datos de entrada:
explicaciones y remedios. Revista de ciencia de la vegetación 8: 447-454.
111
Página 112
Correspondencia canónica
El análisis de correspondencia canónica ( Legendre y Legendre 1998) es el análisis de correspondencia de un

Matriz de sitio / especie donde cada sitio ha dado valores para una o más variables ambientales
(temperatura, profundidad, tamaño de grano, etc.). Los ejes de ordenación son combinaciones lineales de los
variables ambientales. CCA es por tanto un ejemplo de análisis de gradiente directo, donde el gradiente en
Las variables ambientales se conocen a priori y las abundancias (o presencia / ausencias) de especies son
considerada una respuesta a este gradiente.
Cada sitio debe ocupar una fila en la hoja de cálculo. Las variables ambientales deben entrar en el
primeras columnas, seguidas de los datos de abundancia (el programa pedirá el número de
variables ambientales).
La implementación en PAST sigue el algoritmo de autoanálisis dado en Legendre & Legendre

(1998). Las ordenaciones se dan como puntajes de sitios; los puntajes de sitios ajustados no están disponibles actualmente.
Las variables ambientales se grafican como correlaciones con las puntuaciones del sitio. Ambas escalas (tipo 1 y 2) de
Legendre y Legendre (1998) están disponibles. La escala 2 enfatiza las relaciones entre especies.
Los valores faltantes están respaldados por la sustitución del promedio de la columna.
Filas misteriosas : las filas pueden contener valores perdidos ('?') Para todas las variables ambientales. Estas filas,
que deben colocarse en la parte inferior de la matriz de datos, no se incluyen en el análisis CCA en sí,
pero los puntajes de su sitio se estiman usando los vectores CCA y se incluyen en el biplot. Esto podría ser
se utiliza, por ejemplo, cuando las variables ambientales solo se conocen para un conjunto de datos moderno pero no para
Muestras "fósiles" (downcore).
Referencia
112
Página 113
Seriación
Seriación de una matriz ausencia-presencia (0/1) utilizando el algoritmo descrito por Brower & Kile (1988).
Este método se aplica típicamente a una matriz de asociación con taxones (especies) en las filas y muestras
en las columnas. Para seriación restringida (ver más abajo), las columnas deben ordenarse de acuerdo con algunos
criterio, normalmente nivel estratigráfico o posición a lo largo de un presunto gradiente faunístico.
Las rutinas de seriación intentan reorganizar la matriz de datos de manera que las presencias sean
concentrado a lo largo de la diagonal. Hay dos algoritmos: restringido y no restringido
mejoramiento. En la optimización restringida, solo las filas (taxones) pueden moverse libremente. Dado un pedido de
las columnas, este procedimiento encuentra el orden 'óptimo' de filas, es decir, el orden de los taxones que
da la trama de rango más bonita. Además, en el modo restringido, el programa ejecuta un 'Monte Carlo'
simulación, generando y serializando 30 matrices aleatorias con el mismo número de ocurrencias dentro
cada taxón, y los compara con la matriz original para ver si es más informativo que un
uno (este procedimiento requiere mucho tiempo para grandes conjuntos de datos).
En el modo sin restricciones, tanto las filas como las columnas pueden moverse libremente.
Los datos faltantes se tratan como ausencias.
Referencia
Brower, JC y KM Kile. 1988. Seriación de una matriz de datos original aplicada a la paleoecología.
Lethaia 21: 79-93.
113
Página 114
Análisis factorial CABFAC
Este módulo implementa el método clásico de análisis factorial de Imbrie & Kipp (1971) y
regresión ambiental (CABFAC y REGRESS, ver también Klovan & Imbrie 1971).
El programa pregunta si la primera columna contiene datos ambientales. Si no, un factor simple
El análisis con rotación Varimax se calculará sobre datos normalizados por filas.
Si se incluyen datos ambientales, los factores se retrocederán a la variable ambiental

utilizando el método de segundo orden (parabólico) de Imbrie & Kipp, con términos cruzados. PAST luego informa el
Regresión RMA de valores ambientales originales contra valores reconstruidos a partir de la transferencia
función. Se encuentran disponibles diferentes métodos de validación cruzada (dejar uno fuera y k- veces). Tú también puedes
guardar la función de transferencia como un archivo de texto que luego se puede utilizar para la reconstrucción de
paleoambiente (en el menú Calibración). Este archivo contiene:
• Número de taxones
• Numero de factores
• Factorizar puntuaciones para cada taxón
• Número de coeficientes de regresión
• Coeficientes de regresión (términos de segundo y primer orden, e intersección)
Referencias
Imbrie, J. y NG Kipp. 1971. Un nuevo método micropaleontológico para la paleoclimatología cuantitativa:

Aplicación a un núcleo caribeño del Pleistoceno tardío. En: The Late Cenozoic Glacial Ages, editado por KK
Turekian, págs. 71-181, Universidad de Yale. Prensa, New Haven, CT.
Klovan, JE y J. Imbrie. 1971. Un algoritmo y un programa FORTRAN-IV para el factor de modo Q a gran escala
análisis y cálculo de puntuaciones de factores. Geología matemática 3: 61-77.
114
Página 115
Análisis discriminante
Este módulo proporciona un análisis discriminante para dos o más grupos (este último a veces se denomina
Análisis de Variables Canónicas). Los grupos deben especificarse con una columna de grupo.
Un diagrama de dispersión de muestras a lo largo de los dos primeros ejes canónicos produce máxima y segunda a
separación máxima entre todos los grupos. Los ejes son combinaciones lineales de las variables originales como
en PCA, y los valores propios indican la cantidad de variación explicada por estos ejes. Si solo dos grupos son
dado, en su lugar se traza un histograma.
Faltan datos respaldados por la sustitución del promedio de columnas.
Clasificador
Clasifica los datos, asignando cada punto al grupo que da una distancia mínima de Mahalanobis al
media del grupo. La distancia de Mahalanobis se calcula a partir de la covarianza dentro del grupo agrupada
matriz, dando un clasificador discriminante lineal. Se enumeran las asignaciones de grupo dadas y estimadas
para cada punto. Además, la asignación de grupo se valida mediante una validación cruzada de dejar uno fuera
procedimiento (jackknifing).
Especímenes misteriosos : filas con grupo desconocido, es decir, '?' En la columna de grupo, no se incluyen en el
análisis discriminante en sí, pero se clasificará. De esta forma, es posible clasificar nuevos ejemplares
que no forman parte del conjunto de formación.
115
Página 116
Matriz de confusión
Una tabla con el número de puntos en cada grupo dado (filas) que se asignan a los diferentes
grupos (columnas) por el clasificador. Idealmente, cada punto debería asignarse a su respectivo grupo dado,
dando una matriz de confusión diagonal. Los recuentos fuera de la diagonal indican el grado de falla de clasificación.
Detalles computacionales
Los diferentes softwares utilizan diferentes versiones de CVA. Los cálculos utilizados por Past se dan a continuación.
Sea B los datos dados, con n elementos en filas yk variables en columnas, centrados en las grandes medias
de columnas (se restan los promedios de las columnas). Sea g el número de grupos, n i el número de elementos en
grupo i . Calcule la matriz X de g x k de las medias ponderadas de los residuos dentro del grupo, para el grupo i y
variate j
X=
ij n yoB ij
,
donde ij B es un promedio de columna dentro del grupo i . Calcule B 2 a partir de B centrando dentro de los grupos. Ahora
calcular W y la matriz de covarianza dentro del grupo normalizada, agrupada W cov :
W = cama
′ y desayuno
2 2
1
W cov = W.
gn-
E y T son los valores propios y los vectores propios de W ; e c y U c son los autovalores y autovectores de
W cov . Luego,
ZZ′ = diag ) 1XUXUe

′ ′ diag ) 1mi .
una y A son los valores propios y los vectores propios de Z'Z . Tomamos solo los primeros vectores propios g -1 (columnas
de A ), ya que el resto será cero. Las variantes canónicas son ahora
UC= diag ()
1 Ae
C .
Las puntuaciones de CVA son entonces BC . La cosificación de variables puede hacerse a lo largo de vectores W cov C .
116
Página 117
PLS de dos bloques
Los mínimos cuadrados parciales de dos bloques pueden verse como un método de ordenación comparable con PCA, pero con
el objetivo de maximizar la covarianza entre dos conjuntos de variantes en las mismas filas (especímenes,
sitios). Por ejemplo, los datos morfométricos y ambientales recopilados en las mismas muestras pueden
ordenados para estudiar la covariación entre los dos.
El programa pedirá el número de columnas que pertenecen al primer bloque. Las columnas restantes
se asignará al segundo bloque. Hay opciones para graficar las puntuaciones PLS tanto dentro como entre
bloques y cargas PLS. La prueba de permutación permuta casos (filas) para uno de los conjuntos de variables,
e informa los valores p para las covarianzas.
El algoritmo sigue a Rohlf y Corti (2000) . Los biplots aún no están implementados.
Divida la matriz de datos n x p Y en Y 1 e Y 2 (los dos bloques), con columnas p 1 y p 2 . los

La matriz de correlación o covarianza R de Y se puede dividir como
⌈ R 11 R 12 ⌉
R =│ │.
⌊ R 21 R 22 ⌋
El algoritmo procede mediante la descomposición de valores singulares de la matriz R 12 de correlaciones entre

bloques:
t
R 12= DFF
1 2 .
La matriz D contiene los valores singulares λ i a lo largo de la diagonal. F 1 contiene las cargas para el bloque 1,
y F 2 las cargas para el bloque 2 (cf. PCA).
El "% de covarianza al cuadrado" es una medida de la covarianza general al cuadrado entre los dos conjuntos de
variables, en porcentaje relativo al máximo posible (todas las correlaciones iguales a 1) (Rohlf & Corti p.
741). El "% covar" de los ejes son las cantidades de covarianza explicadas por cada eje PLS, en porcentajes de
λ 2yo
la covarianza total. Se calculan como 100 .
∑λ 2 yo
Referencia
Rohlf, FJ y M. Corti. 2000. Uso de mínimos cuadrados parciales de dos bloques para estudiar la covariación en la forma.
Biología sistemática 49: 740-753.
117
Página 118
Análisis de redundancia (RDA)
El análisis de redundancia ( Legendre & Legendre 1998) toma como entrada un sitio / matriz de datos donde cada sitio
ha dado valores para una o más variables ambientales / explicativas, así como una serie de
Variables de respuesta (dependientes). Los ejes de ordenación son combinaciones lineales del explicativo
(variables independientes. RDA se puede considerar como una versión canónica de PCA, es decir, con ejes
restringido por variables explicativas.
Cada sitio debe ocupar una fila en la hoja de cálculo. Las variables explicativas deben entrar en el
primeras columnas, seguidas de los datos de respuesta (el programa pedirá el número de
variables).
La implementación en PAST sigue a Legendre & Legendre (1998). Las ordenaciones se pueden mostrar como
puntuaciones del sitio o puntuaciones del sitio ajustadas. Las variables explicativas se grafican como correlaciones con las puntuaciones del sitio.
Están disponibles ambas escalas (tipo 1 y 2) de Legendre & Legendre (1998). Las puntuaciones pueden ser manualmente
escalado con los controles de "Amplitud" para una gráfica más clara (estos factores deben informarse juntos
con la trama).
Filas misteriosas : las filas pueden contener valores perdidos ('?') Para todas las variables explicativas. Estas filas, que
deben colocarse en la parte inferior de la matriz de datos, no se incluyen en el análisis RDA en sí, pero su
Las puntuaciones del sitio se estiman utilizando los vectores RDA y se incluyen en el biplot. Esto podría usarse para
ejemplo, cuando las variables explicativas solo se conocen para un conjunto de datos moderno, pero no para "fósiles"
(puntuación descendente) muestras. Las filas misteriosas solo se informan para las puntuaciones de sitios no adaptados.
Referencia
118
Página 119
Análisis de conglomerados
La rutina de agrupamiento jerárquico produce un 'dendrograma' que muestra cómo los puntos de datos (filas) pueden ser
agrupado. Para el agrupamiento en modo 'R', ponderando grupos de taxones, los taxones deben ir en filas. Está
también es posible encontrar agrupaciones de variables o asociaciones (modo Q), ingresando taxones en columnas.
El cambio entre los dos se realiza transponiendo la matriz (en el menú Editar).
Hay tres algoritmos diferentes disponibles:
• Promedio par-grupo no ponderado (UPGMA). Los clústeres se unen en función de la distancia media
entre todos los miembros de los dos grupos.
• Enlace único (vecino más cercano). Los clústeres se unen en función de la distancia más pequeña
entre los dos grupos.
• Método de Ward. Los conglomerados se unen de manera que se minimiza el aumento de la varianza dentro del grupo,
Un método no es necesariamente mejor que el otro, aunque no se recomienda el enlace único

algunos. Puede ser útil comparar los dendrogramas dados por los diferentes algoritmos, para informalmente
evaluar la solidez de los clústeres.
Para el método de Ward, una medida de distancia euclidiana es inherente al algoritmo. Para UPGMA y
enlace único, la matriz de distancias se puede calcular utilizando 24 índices diferentes, como se describe en
la sección 'Índices de similitud y distancia'.
Datos faltantes: el algoritmo de análisis de conglomerados puede manejar datos faltantes, codificados con signos de interrogación (?).
Esto se hace mediante la eliminación por pares, lo que significa que cuando se calcula la distancia entre dos puntos,
las variables que faltan se ignoran en el cálculo. Para Raup-Crick, los valores perdidos son
tratada como ausencia. Los datos que faltan no son compatibles con el método de Ward ni con la similitud Rho
medida.
Agrupación bidireccional: la opción bidireccional permite la agrupación simultánea en modo R y modo Q.
119
Página 120
Agrupación con restricciones estratigráficas: esta opción solo permitirá filas o grupos de filas adyacentes
para unirse durante el procedimiento de agrupamiento aglomerativo. Puede producir un aspecto extraño (pero
correcto) dendrogramas.
Agrupación restringida por grupos: esta opción solo permitirá la unión de agrupaciones dentro de los grupos dados.
Puede producir dendrogramas de aspecto extraño (pero correcto).
Bootstrap: si se proporcionan varias réplicas de bootstrap (por ejemplo, 100), las columnas se someten a
remuestreo. Presione Enter después de escribir para actualizar el valor en el cuadro de número "Boot N". El porcentaje
de réplicas donde cada nodo todavía es compatible se da en el dendrograma.
Nota sobre el método de Ward : PAST produce dendrogramas de Ward idénticos a los hechos por Stata, pero
algo diferente de los producidos por Statistica. Se desconoce el motivo de la discrepancia.
120
Página 121
Vecino uniéndose
Agrupación de unión de vecinos (Saitou & Nei 1987) es un método alternativo para la agrupación jerárquica
análisis. El método fue desarrollado originalmente para el análisis filogenético, pero puede ser superior a
UPGMA también para datos ecológicos. En contraste con UPGMA, dos ramas del mismo nodo interno
no es necesario que tengan la misma longitud de rama. Un filograma (dendrograma sin raíz con proporcional
longitudes de rama).
Los índices de distancia y el bootstrapping son como para otros análisis de conglomerados (arriba). Para ejecutar el bootstrap
análisis, escriba el número de réplicas de bootstratp necesarias (por ejemplo, 1000, 10000) en el cuadro "Boot N"
y presione Enter para actualizar el valor.
Las longitudes de las ramas negativas se fuerzan a cero y se transfieren a la rama adyacente de acuerdo con
Kuhner y Felsenstein (1994).
El árbol tiene sus raíces por defecto en la última rama agregada durante la construcción del árbol (esto no es el punto medio
enraizamiento). Opcionalmente, el árbol se puede enraizar en cualquier fila en la matriz de datos, como se selecciona en la raíz
menú.
Los datos faltantes son compatibles con la eliminación por pares.
Referencias
Kuhner, MK y J. Felsenstein. 1994. Una comparación de simulación de algoritmos de filogenia bajo iguales
y tasas evolutivas desiguales. Biología molecular y evolución 11: 459-468
Saitou, N. y M. Nei. 1987. El método de unión de vecinos: un nuevo método para reconstruir
árboles filogenéticos. Biología molecular y evolución 4: 406-425
121
Página 122
Agrupación de K-medias
El agrupamiento de K-medias (por ejemplo, Bow 1984) es un método de agrupamiento no jerárquico. El número de clústeres
el uso lo especifica el usuario, generalmente de acuerdo con alguna hipótesis, como que haya dos sexos,
cuatro regiones geográficas o tres especies en el conjunto de datos
Las asignaciones de grupos son inicialmente aleatorias. En un procedimiento iterativo, los elementos se mueven a la
clúster que tiene la media de agrupación más cercana, y las medias de agrupación se actualizan en consecuencia. Esta
continúa hasta que los elementos ya no "saltan" a otros grupos. El resultado de la agrupación es para algunos
La extensión depende del orden inicial, el orden aleatorio y las asignaciones de grupos pueden, por lo tanto, diferir
de una carrera a otra. Esto no es un error, sino un comportamiento normal en la agrupación de k-means.
Las asignaciones de clúster se pueden copiar y pegar de nuevo en la hoja de cálculo principal, y
colores (símbolos) correspondientes asignados a los elementos mediante la opción 'Números a colores' en Editar
menú.
Referencia
Arco, S.-T. 1984. Reconocimiento de patrones. Marcel Dekker, Nueva York.
122
Página 123
Normalidad multivariante
La distribución normal multivariada se asume mediante una serie de pruebas multivariadas. PASADO calcula
Asimetría y curtosis multivariada de Mardia, con pruebas basadas en chi-cuadrado (asimetría) y normal
(curtosis) distribuciones. Una poderosa prueba ómnibus (general) de Doornik y Hansen (1994) también es
dado. Si al menos una de estas pruebas muestra una desviación de la normalidad ( valor p pequeño ), la distribución es
significativamente anormal. El tamaño de la muestra debe ser razonablemente grande (> 50), aunque una muestra pequeña
También se intenta la corrección para la prueba de asimetría.
Referencias
Doornik, JA y H. Hansen. 1994. Una prueba ómnibus de normalidad univariante y multivariante . W4 y 91

en los documentos de trabajo de Nuffield Economics .
Mardia, KV 1970. Medidas de asimetría y curtosis multivariante con aplicaciones. Biometrika

36: 519-530.
123
Página 124
M de caja
Pruebe la equivalencia de las matrices de covarianza para dos o más muestras multivariadas marcadas
con una columna de grupo. Esta es una prueba de homocedasticidad, según lo asumido por MANOVA.
El estadístico M de Box se proporciona junto con un valor de significancia basado en una prueba F. Tenga en cuenta que esta prueba
supuestamente es muy sensible. Esto significa que un valor p alto será un buen, aunque informal,
indicador de igualdad, mientras que un resultado altamente significativo ( valor p bajo) puede ser en términos prácticos un
indicador de desigualdad algo demasiado sensible.
La estadística se calcula de la siguiente manera: tenga en cuenta que esto equivale al “-2 en M ” de algunos textos (Rencher 2002).
gramo
= ( gn- ln) S - ∑ (norte

METRO yo
) S yo
- ln1
yo= 1
donde S i son las matrices de covarianza dentro del grupo, S es la matriz de covarianza agrupada, g el número
de grupos, n el número total de filas, n i el número de filas en el grupo i , y | • | denota el
determinante.
Por significancia, con r el número de variables (columnas), calcule
2
+ 13r - ⎛ gramo 1 ⎞
ρ = 1 - 2r │∑ -
1 │
() (
+ -
6 r 1 gramo) │ -
1 ⎝ yo= 1 norte
yo 1 gn- │
⎠
() -( + ) ⎛ gramo ⎞
τ = r 1 r 2 │ 1 1
( - ) │∑ (
- │
6 gramo
1 - )
⎝yo= 1 norte
yo 1
2
( gn- )
2
│⎠
Los grados de libertad para la prueba F son entonces
124
Página 125
df 1 = (gramo
- 1)rr() + 21
df 1 + 2
df 2 =
τ - (1 - ρ ) 2
Finalmente,
ρ - df 1 df 2
F = .
METRO
df 1
La prueba de Monte Carlo se basa en 999 permutaciones aleatorias (puede fallar para conjuntos de datos pequeños).
Referencia
Rencher, AC 2002. Métodos de análisis multivariante, 2ª ed. Wiley.
125
Página 126
MANOVA
MANOVA unidireccional (ANalysis Of VAriance multivariante) es la versión multivariante del univariante

ANOVA, probando si dos o más grupos (especificados con una columna de grupo) tienen el mismo
media multivariante.
Se proporcionan dos estadísticas: la lambda de Wilk con su F de Rao asociada y la traza de Pillai con su
aproximada F . La lambda de Wilk se usa probablemente más comúnmente, pero el rastro de Pillai puede ser más
robusto.
Número de restricciones: para el cálculo correcto de los valores p , el número de variables dependientes
(restricciones) deben especificarse. Normalmente debería dejarse en 0, pero para Procrustes se ha ajustado la marca
los datos utilizan 4 (para 2D) o 6 (para 3D).
Comparaciones por pares (post-hoc): si el MANOVA muestra una diferencia general significativa entre
grupos, el análisis puede realizarse mediante comparaciones por pares. En PASADO, el análisis post-hoc es simple, por
pruebas de Hotelling por parejas. Los siguientes valores se pueden mostrar en la tabla:
• Valores p de Hotelling , no corregidos para pruebas múltiples. Marcado en rosa si es significativo ( p <0.05).
• Los mismos valores de p , pero la significancia (rosa) evaluada usando el esquema secuencial de Bonferroni.
• Bonferroni corrigió los valores de p (multiplicado por el número de comparaciones por pares). los
La corrección de Bonferroni proporciona muy poca potencia.
• Distancias de Mahalanobis al cuadrado.
Nota : Estas comparaciones por pares utilizan la matriz de covarianza dentro del grupo agrupada para todos los grupos.
participando en el MANOVA. Por lo tanto, pueden dar resultados ligeramente distintos a los de si solo dos de los
los grupos se seleccionan para su análisis.
126
Página 127
ANOSIM unidireccional
ANOSIM (Análisis de similitudes) es una prueba no paramétrica de diferencia significativa entre dos o
más grupos, según cualquier medida de distancia ( Clarke 1993). Las distancias se convierten en rangos.
ANOSIM se utiliza normalmente para datos de taxones en muestras, en los que se deben comparar grupos de muestras.
Los elementos van en filas, varían en columnas y los grupos deben especificarse con una columna de grupo como de costumbre.
En una analogía aproximada con ANOVA, la prueba se basa en comparar distancias entre grupos con
distancias dentro de los grupos. Sea r b el rango medio de todas las distancias entre grupos y r w la media
rango de todas las distancias dentro de los grupos. El estadístico de prueba R se define entonces como
- w
rrsegundo
R= .
NN( - ) 41
Gran R positivo (hasta 1) significa disimilitud entre grupos. El significado de una cola es
calculado por permutación de la pertenencia al grupo, con 9999 réplicas (se puede cambiar).
Los ANOSIM por pares entre todos los pares de grupos se proporcionan como una prueba post-hoc. Significativo
las comparaciones ( ap <0,05) se muestran en rosa. La corrección de Bonferroni opcional multiplica los valores p
con el número de comparaciones. Esta corrección es muy conservadora (produce valores p grandes ). los
La opción secuencial de Bonferroni no genera valores p corregidos , pero la significancia se decide en base
en Bonferroni secuencial descendente, que es un poco más potente que el Bonferroni simple.
Los datos faltantes son compatibles con la eliminación por pares (no para los índices Raup-Crick, Rho y definidos por el usuario).
Referencia
Clarke, KR 1993. Análisis multivariado no paramétrico de cambios en la estructura de la comunidad.

Revista australiana de ecología 18: 117-143.
127
Página 128
PerMANOVA unidireccional
PerMANOVA (Permutational MANOVA, también conocido como NPMANOVA) es una prueba no paramétrica de
diferencia significativa entre dos o más grupos, según cualquier medida de distancia (Anderson 2001) .
PerMANOVA se utiliza normalmente para datos de taxones ecológicos en muestras, donde los grupos de muestras deben ser
comparado, pero también puede usarse como un MANOVA no paramétrico general.
Los elementos van en filas, varían en columnas y los grupos deben especificarse con una columna de grupo.
PerMANOVA calcula un valor F en analogía con ANOVA. De hecho, para conjuntos de datos univariados y
Medida de distancia euclidiana, PerMANOVA es equivalente a ANOVA y da el mismo valor F.
La suma total de cuadrados se calcula como la suma de distancias cuadradas por pares:
−1
1 2
SS T = ∑∑
=1 = +1
La suma de cuadrados dentro del grupo es
−1
2
SS wg = ∑ ∑ ⁄
=1 = +1
donde la función indicadora w ij es 1 si las filas I y j están en el mismo grupo, de lo contrario 0, y n g es el

tamaño del grupo en cuestión. La suma de cuadrados entre grupos es entonces SS bg = SS T - SS wg , y F es
calculado como en el ANOVA normal.
La importancia se calcula mediante la permutación de la pertenencia al grupo, con 9999 réplicas (se puede
cambiado por el usuario).
Medidas repetidas
Se realiza un ANOVA de medidas repetidas (bloqueado) con la casilla “Medidas repetidas” marcada. En
En este caso, cada grupo debe tener el mismo número de filas, y todas las filas de cada grupo deben ser
consecutivo. Se supone que la primera fila de cada grupo pertenece al primer sujeto (bloque), el
128
Página 129
La segunda fila de cada grupo pertenece al segundo sujeto, etc. Los cálculos son análogos a los
ANOVA univariante de medidas repetidas. Primero, la suma de cuadrados intra-sujetos SS ws se calcula en
de la misma manera como la suma dentro del grupo de los cuadrados anteriores, pero con términos toma solamente cuando I y j son
dentro del mismo tema. La suma de cuadrados entre sujetos es entonces SS bs = SS T - SS ws . Finalmente, el
error suma de cuadrados SS err = SS wg - SS bs . El valor F se calcula como se describe para varias muestras.
pruebas de medidas repetidas en el menú Univariante.
Las permutaciones para el valor p se llevan a cabo solo dentro de los sujetos.
Pruebas por parejas
Los PerMANOVA por pares entre todos los pares de grupos se proporcionan como una prueba post-hoc. Significativo
las comparaciones ( ap <0,05) se muestran en rosa. La corrección de Bonferroni que se muestra en el triángulo superior de
la matriz multiplica los valores de p por el número de comparaciones. Esta corrección es muy
conservador (produce valores p grandes ).
Los datos faltantes son compatibles con la eliminación por pares.
Referencia
Anderson, MJ 2001. Un nuevo método para el análisis de varianza multivariado no paramétrico. Austral
Ecología 26: 32-46.
129
Página 130
ANOSIM bidireccional
El ANOSIM bidireccional en PASADO utiliza el diseño cruzado ( Clarke 1993) . Para obtener más información, consulte uno-
manera ANOSIM, pero se requieren dos columnas de grupo. Debe haber varias filas (replicación) para cada
combinación de niveles de grupo.
Referencia

ANOSIM bidireccional sin replicación
Introduzca los datos como para ANOSIM bidireccional anterior, es decir, se requieren dos columnas de grupo. Debe haber
exactamente una fila (sin replicación) para cada combinación de niveles de grupo.
Referencia
Clarke, KR & Warwick, RM 1994. Pruebas basadas en similitudes para patrones comunitarios: el método bidireccional
diseño sin replicación. Biología Marina 118: 167-176.
130
Página 131
PERMANOVA bidireccional
El PerMANOVA bidireccional (Anderson, 2001) en PAST utiliza el diseño cruzado. El diseño debe ser
equilibrado, es decir, cada combinación de niveles debe contener el mismo número de filas. Para más
ver información de PerMANOVA unidireccional, pero se requieren dos columnas de grupo (como para
ANOSIM).
Referencia
Anderson, MJ 2001. Un nuevo método para el análisis de varianza multivariado no paramétrico. Austral
Ecología 26: 32-46.
131
Página 132
Prueba de Mantel y prueba de Mantel parcial
La prueba de Mantel (Mantel 1967, Mantel y Valand 1970) es una prueba de permutación para la correlación entre
dos matrices de distancia o semejanza. En PASADO, estas matrices también se pueden calcular automáticamente desde
dos conjuntos de datos originales. La primera matriz debe estar por encima de la segunda matriz en la hoja de cálculo, y
las filas se especificarán como dos grupos (con una columna de grupo). Las dos matrices deben tener el mismo
número de filas. Si son matrices de distancia o similitud, también deben tener el mismo número de
columnas.
El valor R es simplemente el coeficiente de correlación de Pearson entre todas las entradas en las dos matrices
(debido a que las matrices son simétricas solo es necesario correlacionar los triángulos inferiores). Se extiende
de -1 a +1. La prueba de permutación compara la R original con la R calculada en, por ejemplo, 9999 aleatorios
permutaciones. El valor p informado es de una cola.
En el siguiente ejemplo, la primera matriz (gpa) consta de coordenadas de hito ajustadas por Procrustes de
cráneos de primates, mientras que la segunda matriz (seq) contiene datos de secuencia de los mismos primates. los
El usuario ha seleccionado la medida euclidiana para la primera matriz y Jukes-Cantor para la segunda. los
dos conjuntos de datos parecen estar correlacionados negativamente ( R = -0.19), y no hay una relación positiva significativa
correlación (la prueba es de una cola). En otras palabras, no existe correlación entre morfología y
genética.
132
Página 133
Prueba de Mantel parcial
Es posible agregar una tercera matriz C debajo de las dos matrices A y B como se describió anteriormente. Esta matriz
debe ser marcado como anteriormente, y contienen el mismo número de filas como A y B . Una similitud separada
La medida puede seleccionarse para esta matriz. Si se incluye una tercera matriz de este tipo, el programa llevará
Realizar una prueba de Mantel parcial para la correlación de A y B , controlando las similitudes dadas en C
(Legendre y Legendre 1998). Solo se permuta la matriz A y el valor de R se calcula como
R ()AB
() ()
- R C.A. R antes de Cristo
R (AB • C ) =
1 - R ()C.A. 1 - R ()
2
antes
2 de Cristo
donde R ( AB ) es el coeficiente de correlación entre A y B .
Referencias
Mantel, N. 1967. La detección de agrupaciones de enfermedades y un enfoque de regresión generalizada. Cáncer

Investigación 27: 209-220.
Mantel, N. & RS Valand 1970. Una técnica de análisis multivariado no paramétrico. Biometria
26: 547-558.
133
Página 134
SONRISA BOBA
SIMPER (porcentaje de similitud) es un método simple para evaluar qué taxones son los principales responsables
para una diferencia observada entre grupos de muestras ( Clarke 1993). La importancia general de la
ANOSIM suele evaluar la diferencia. La medida de similitud de Bray-Curtis (multiplicada por 100) es
más comúnmente usado con SIMPER, pero también se pueden usar las medidas euclidiana, coseno y acorde.
Si se seleccionan más de dos grupos, puede comparar dos grupos (por parejas) eligiendo
de las listas de grupos, o puede agrupar todas las muestras para realizar un SIMPER global de varios grupos. En
En el último caso, todos los posibles pares de muestras se comparan utilizando la medida de Bray-Curtis. El general
La disimilitud media se calcula utilizando todos los taxones, mientras que las disimilitudes específicas del taxón se
calculado para cada taxón individualmente.
Las muestras van en filas, agrupadas con una columna de grupo y los taxones en columnas. En la tabla de salida, los taxones son
clasificados en orden descendente de contribución a la diferencia de grupo. Las últimas tres columnas muestran el
abundancia media en cada uno de los grupos.
Referencia

134
Página 135
Hotelling emparejado
La prueba de Hotelling emparejada para medias multivariadas iguales espera dos grupos de datos multivariados,
marcado con una columna de grupo. Las filas dentro de cada grupo deben ser consecutivas. La primera fila de la primera
el grupo está emparejado con la primera fila del segundo grupo; la segunda fila está emparejada con la segunda, etc.
Con n el número de pares yp el número de variables:
Y yo = X 1 yo - X 2 yo
1
y = ∑Y yo
norte
yo
1
S y
= ∑ (Y yo - Yy) ( yo - y )T
- 1 yo
norte
-1
T
2
= norte
T
ySy y
pn-
F =
2
T
) 1 -( público
notario
La F tiene p y n - p grados de libertad.
Para n <= 16, el programa también calcula un valor p exacto basado en el estadístico T 2 evaluado para todos
posibles permutaciones.
135
Página 136
Técnica analógica moderna
La técnica analógica moderna es un método de calibración para reconstruir un entorno ambiental pasado.
parámetro (por ejemplo, temperatura) de las asignaciones de fauna. Funciona encontrando sitios modernos con fauna
asociaciones cercanas a las de las muestras de baja puntuación. Los datos ambientales de los sitios modernos se
utilizado para estimar el medio ambiente.
La variable ambiental (única), generalmente la temperatura, ingresa en la primera columna y los taxones en
columnas consecutivas. Todos los sitios modernos, con valores conocidos para la variable ambiental, entran
las primeras filas, seguidas de todas las muestras de puntuación descendente (deben tener signos de interrogación en la
columna ambiental).
El gráfico de la primera pestaña muestra todas las muestras modernas, con la temperatura observada (por ejemplo)
frente a la temperatura reconstruida de MAT mediante validación cruzada.
Parámetros a configurar:
• Ponderación: cuando varios análogos modernos están vinculados a una muestra de puntuación descendente, su
Los valores ambientales pueden ponderarse por igual, inversamente proporcionales a la distancia de la fauna, o
inversamente proporcional a la distancia de la fauna clasificada.
• Medida de distancia: se encuentran disponibles varias medidas de distancia comúnmente utilizadas en MAT. "Cuadrado
acorde "se ha convertido en la opción estándar en la literatura.
• Umbral de distancia: solo se utilizan análogos modernos más cercanos que este umbral. Un valor predeterminado
se da, que es el décimo percentil de distancias entre todos los pares de muestras en el moderno
datos. El histograma de "Distribución de disimilitud" puede resultar útil al seleccionar este umbral.
• Análogos N: este es el número máximo de análogos modernos utilizados para cada muestra de bajada.
• Método de salto (activar / desactivar): para cada muestra de puntuación descendente, las muestras modernas se ordenan por orden ascendente
distancia. Cuando la distancia aumenta en más del porcentaje seleccionado, el
Se descartan los análogos modernos posteriores.
136
Página 137
Tenga en cuenta que una o más de estas opciones se pueden deshabilitar ingresando un valor grande. Por ejemplo, un muy
El umbral de gran distancia nunca se aplicará, por lo que el número de análogos se decide solo por la "N
análogos "valor y opcionalmente el método de salto.
Validación cruzada
El gráfico de dispersión y el valor R 2 muestran los resultados de la validación cruzada dentro de los datos modernos. Puede ser
señaló que para MAT, no es necesario dejar uno fuera (jackknifing) porque no hay un modelo global
basado en todas las muestras. La línea y = x se muestra en rojo. Esto solo refleja en parte la "calidad" de la
método, ya que proporciona poca información sobre la precisión de la estimación de la puntuación descendente.
Distribución de la disimilitud
Un histograma de todas las distancias en los datos core-top (modernos).
Semivariograma
Muestra un semivariograma de varianza en la variable ambiental en función de la diferencia de fauna.

Se pueden instalar varios modelos de semivariograma. Este tipo de trama es familiar de la geoestadística espacial, pero
también es útil para MAT porque da una buena impresión del grado de "ruido" en los datos de fauna
con respecto a la predicción ambiental.
Reconstrucciones
Reconstrucción de los valores paleoambientales mediante MAT.
137
Página 138
Mínimos cuadrados parciales promediados ponderados (WA-PLS)
Al igual que la técnica analógica moderna (y la calibración con CABFAC), WA-PLS es un método para
reconstruir parámetros ambientales pasados (temperatura, pH) a partir de un ensamblaje fósil, basado en
un conjunto de entrenamiento de muestras modernas. Descrito por primera vez por ter Braak y Juggins (1993) y ter Braak et al.
(1993), WA-PLS es considerado por algunos como el método de calibración más preciso en general.
La variable ambiental (única), generalmente la temperatura, ingresa en la primera columna y los taxones en
columnas consecutivas. Todos los sitios modernos, con valores conocidos para la variable ambiental, entran
las primeras filas, seguidas de todas las muestras de puntuación descendente (deben tener signos de interrogación en la
columna ambiental).
El gráfico de la primera pestaña muestra todas las muestras modernas, con la temperatura observada (por ejemplo)
versus la temperatura reconstruida. Esto no utiliza validación cruzada. El RMSE (media raíz
Error cuadrático) se basa en estos valores.
El método también se valida de forma cruzada con el procedimiento de dejar uno fuera (jackknifing), que es la base para
el valor RMSEP (error cuadrático medio de predicción). El número de componentes PLS debe ser
establecido para minimizar el RMSEP. A veces, el valor mínimo ya se obtiene con solo una
componente, cuando el método es equivalente a un promedio ponderado bidireccional (WA).
La implementación de WA-PLS in Past se basa en el algoritmo de ter Braak & Juggins (1993),
se describe a continuación con algunos detalles y comentarios adicionales.
Para el conjunto moderno (de entrenamiento), tenemos x i el valor del parámetro ambiental medido en el sitio
i , y la matriz Y de n x m con y ik la abundancia del taxón k en el sitio i . Hay n sitios y m taxones.
Además, un '+' que reemplaza un subíndice significa una suma sobre ese subíndice.
Paso 0
Reste la media ponderada de la variable ambiental:
= - ∑ + ++ ⁄ .
Paso 1
Tome la variable ambiental centrada x i como puntajes iniciales del sitio r i .
Realice los pasos 2 a 7 para cada componente PLS p :
Paso 2
* por u
Calcular nuevas puntuaciones de especies promedio
k ponderado de las puntuaciones del sitio:
∗= ∑+ ⁄
138
Página 139
Paso 3
Calcule las puntuaciones de los nuevos sitios r i mediante el promedio ponderado de las puntuaciones de las especies:
∗+
=∑ ⁄
Paso 4
Para el primer componente PLS, vaya al paso 5. Para el segundo componente y superiores, cree el nuevo sitio
puntuaciones r i no correlacionadas con componentes previos por ortogonalización, según ter Braak (1987),
Cuadro 5.2b.
Paso 5
como
Tome las puntuaciones del sitio r i y las puntuaciones de*las el nuevo
especies u k componente PLS que consta de dos vectores
r p y u p . Nota 1 : En el algoritmo original, las puntuaciones de los sitios se estandarizan en el Paso 5. En el pasado
implementación, esta estandarización no se lleva a cabo, con el fin de facilitar la reconstrucción de nuevos
muestras (ter Braak, com. pers. 2019). Nota 2 : Las puntuaciones de las especies u P se guardan, así como el sitio
puntuaciones, como parte del componente PLS.
Paso 6
Realice una regresión múltiple ponderada de x i sobre los componentes r obtenidos hasta ahora usando pesos y i + / y ++ .
Los coeficientes de regresión son a 0 … a p . Tomar los valores ajustados como las estimaciones actuales (como se muestra en la
plot y se utiliza para calcular el RMSE). Vaya al paso 2 con los residuos de la regresión como el nuevo sitio
puntuaciones r i .
Reconstrucción
Después de que los Pasos 2 a 6 se hayan repetido el número de veces especificado, se ha realizado un modelo PLS completo.
construido. La reconstrucción de la variable ambiental x 0 a partir de una nueva muestra y 0k es entonces
calculado de la siguiente manera (además, debe recordarse volver a sumar el valor medio restado en
Paso 0).
Primero calcule los óptimos de especies actualizados:
=0+Σ
Luego, el x 0 reconstruido se calcula como la suma ponderada
0 = Σ 0 0+ ⁄
139
Página 140
Referencias
ter Braak, CJF 1987. Ordenación. Páginas. 91-173 en: Jongman, RHG, ter Braak, CJF, van Tongeren,
OFR (eds), Análisis de datos en ecología comunitaria y del paisaje , Pudoc.
ter Braak, CJF, Juggins, S., Birks, HJB, van der Voet, H. 1993. Promedio ponderado parcial mínimo
Regresión de cuadrados (WA-PLS): definición y comparación con otros métodos para especies-
calibración ambiental. Páginas. 525-560 en: Patil, GP & Rao, CR (eds), Multivariate Environmental
Estadística , Elsevier.
ter Braak, CJF, Juggins, S. 1993. Mínimos cuadrados parciales promediados ponderados (WA-PLS): una mejora
método para reconstruir variables ambientales a partir de conjuntos de especies. Hidrobiología
269/270: 485-502.
140
Página 141
Índices de similitud y distancia
Calcula una serie de medidas de similitud o distancia entre todos los pares de filas. Los datos pueden ser
univariante o (más comúnmente) multivariado, con variables en columnas. Los resultados se dan como
Matriz simétrica de similitud / distancia. Este módulo se usa raramente, porque las matrices de similitud / distancia
generalmente se calculan automáticamente a partir de datos primarios en módulos como PCO, NMDS, cluster
análisis y ANOSIM en pasado.
Euclidiana
Distancia euclidiana básica (el valor se ajusta para los datos faltantes).
rejk = ∑ (-X Ji Xki )

2
yo .
Gower
Una medida de distancia que promedia la diferencia entre todas las variables, cada término normalizado para el
rango de esa variable:
1 X Ji - Xki
rejk = ∑ - min Xsi
norte
yo max Xsi
s s .
La medida de Gower es similar a la distancia de Manhattan (ver más abajo) pero con normalización de rango.
Cuando se utilizan tipos de datos mixtos (ver a continuación), esta es la medida predeterminada para continuos y ordinales.
datos.
Acorde
Distancia euclidiana entre vectores normalizados. Se usa comúnmente para datos de abundancia. Puede ser escrito
como
∑ xx Ji ki
rejk = 22-
yo
∑X ∑X 2
Ji
2
ki
yo yo .
Manhattan
La suma de las diferencias en cada variable:
141
Página 142
rejk = ∑ -X Ji Xki
yo .
Bray-Curtis
Bray-Curtis es un índice de similitud popular para los datos de abundancia. El pasado calcula la similitud de Bray-Curtis como
sigue:
∑X Ji
- Xki
= 1- .
∑ (X
yo
rejk
Ji
+ Xki )
yo
Esto es algebraicamente equivalente a la forma dada originalmente por Bray y Curtis (1957):
∑ min (xx , Ji ki
)
re jk = 2
yo
∑ (X ) .
Ji
+ Xki
yo
Muchos autores operan con una distancia de Bray-Curtis, que es simplemente 1- d.
Coseno
El producto interno de las abundancias, cada una normalizada a la norma unitaria, es decir, el coseno del ángulo entre
los vectores.
∑ xx Ji ki
re jk =
yo
∑X ∑X 2
Ji
2
ki
yo yo .
Morisita
Para datos de abundancia.
∑ xx ( Ji Ji
-1 )
λ1 = yo
⎛ ⎞
∑ X │∑ X Ji Ji
- 1│
yo ⎝ yo ⎠
∑ xx ( ki ki
- 1)
λ = yo
2
⎛ ⎞
∑ X │∑ X ki ki
- 1│
yo ⎝ yo ⎠
142
Página 143
2 ∑ xxJi ki
re jk = yo
(λ 1
+ λ )∑ X ∑ X
2 Ji ki
yo yo .
cuerno
Índice de superposición de Horn para los datos de abundancia (Horn 1966).
=
norte
j ∑X Ji
yo
=
norte
k ∑X ki
yo
∑ [(X + X )en( X + X )]- ∑ X en X - ∑ X en X

Ji ki Ji ki Ji Ji ki ki
= yo
(norte+ norte)en( norte+ norte)- norteen norte- norteen norte

yo yo
re jk
j k j k j j k k .
Mahalanobis
Una medida de distancia que tiene en cuenta la estructura de covarianza de los datos. Con S la varianza
Matriz de covarianza:
rejk = (xxSxx
-
j
)( k
T -1
j
- ). k
Correlación
El complemento 1- r de Pearson r correlación entre las variables:
∑ (X Ji
- xxj )( ki
- Xk )
re jk = 1 -
yo
∑ (X Ji
- Xj )(
2
Xki - Xk ) 2
yo .
Tomar el complemento lo convierte en una medida de distancia. Consulte también el módulo Correlación, donde
La r de Pearson se da directamente y con pruebas de significancia.
Rho
El complemento 1- r s del rho de Spearman, que es el coeficiente de correlación de rangos. Ver también el
Módulo de correlación, donde rho se da directamente y con pruebas de significancia.
143
Página 144
Dado
También conocido como coeficiente de Sorensen. Para datos binarios (ausencia-presencia), codificados como 0 o 1 (cualquier
número positivo se trata como 1). La similitud de Dice pone más peso en las ocurrencias conjuntas que en
desajustes.
Al comparar dos filas, se cuenta una coincidencia para todas las columnas con presencia en ambas filas. Usando M
para el número de coincidencias y N para el número total de columnas con presencia en una sola fila,
tenemos
d jk = 2 M / (2 M + N ).
Jaccard
Un índice de similitud para datos binarios. Con la misma notación que se dio para la similitud de Dice anterior, tenemos
d jk = M / ( M + N ).
Kulczynski
Un índice de similitud para datos binarios. Con la misma notación que se dio para la similitud de dados anterior (con N 1
y N 2 refiriéndose a las dos filas), tenemos
METRO + METRO
+ norte
METRO + norte
METRO
d jk =
1 2
2 .
Ochiai
Un índice de similitud para datos binarios, comparable a la similitud de coseno para otros tipos de datos:
METRO METRO
d jk =
+ norte
METRO + norte
1 METRO 2 .
Simpson
El índice de Simpson (Simpson 1943) se define simplemente como M / N min , donde N min es el menor de los
número de presencias en las dos filas. Este índice trata dos filas como idénticas si una es un subconjunto del
otro, lo que lo hace útil para datos fragmentarios.
Raup-Crick
144
Página 145
Índice de Raup-Crick para datos de ausencia-presencia. Este índice (Raup y Crick 1979 ) utiliza una aleatorización
(Monte Carlo), comparando el número observado de especies presentes en ambas asociaciones
con la distribución de co-ocurrencias de 1000 réplicas aleatorias del conjunto de muestras.
Hamming
Distancia de Hamming para datos categóricos codificados con números enteros (o datos de secuencia codificados como CAGT). los
La distancia de Hamming es el número de diferencias (desajustes), de modo que la distancia entre (3,5,1,2)
y (3,7,0,2) es igual a 2. En PAST, esto se normaliza al rango [0,1], que los genetistas conocen como
"p-distancia".
Jukes-Cantor
Medida de distancia para datos de secuencia genética (CAGT). Similar ap (o distancia de Hamming), pero toma
en cuenta la probabilidad de reversiones:
3 ⎛ - 4 ⎞
re = - 1 ln
│ │
pags
4 ⎝ 3 ⎠
Kimura
La medida de distancia de dos parámetros de Kimura para datos de secuencia genética (CAGT). Similar a Jukes-Cantor
distancia, pero tiene en cuenta diferentes probabilidades de transiciones de nucleótidos frente a transversiones
(Kimura 1980). Con P la proporción observada de transiciones y Q el número observado de
transversiones, tenemos
1 )- 1 21(ln-
re = - 21(ln- QP- )Q
2 4 .
Tajima-Nei
Medida de distancia para datos de secuencia genética (CAGT). Similar a la distancia Jukes-Cantor, pero no
suponga frecuencias de nucleótidos iguales.
Tamura
Medida de distancia para datos de secuencia genética (CAGT). Una extensión del parámetro Kimura 2
distancia, manejando la probabilidad de transición / transversión desigual, pero también tiene en cuenta una posible
sesgo en la frecuencia G + C. Con P y Q como para la distancia de Kimura, y h = 2θ (1- θ) donde θ es el G + C
frecuencia (0-1):
145
Página 146
⎛ PAGS ⎞ 1
re = - h 1 ln
│ - - Q │- (1 - h ) 21
( ln- )Q
⎝ h ⎠ 2
Geográfico
Distancia en metros a lo largo de un gran círculo entre dos puntos de la superficie de la Tierra. Exactamente dos
Se requieren variables (columnas), con latitudes y longitudes en grados decimales (por ejemplo, 58 grados 30
minutos al norte es 58,5). Se esperan coordenadas en el datum WGS84 y se calcula la distancia
con respecto al elipsoide WGS84. El uso de otros datums dará lugar a errores muy leves.
La precisión del algoritmo utilizado (Vincenty 1975) es del orden de 1 mm con respecto a WGS84.
Similitud definida por el usuario
Espera una matriz de similitud simétrica en lugar de datos originales. ¡Sin comprobación de errores!
Distancia definida por el usuario
Espera una matriz de distancia simétrica en lugar de datos originales. ¡Sin comprobación de errores!
Mezclado
Esta opción requiere que se hayan asignado tipos de datos a las columnas (consulte Entrar y manipular
datos ) . Una ventana emergente le pedirá la medida de similitud / distancia que se utilizará para cada tipo de datos. Estas
se combinarán utilizando un promedio ponderado por el número de variantes de cada tipo. El valor por defecto
las opciones corresponden a las sugeridas por Gower, pero otras combinaciones pueden funcionar mejor. los
La opción "Gower" es una distancia de Manhattan con rango normalizado.
Filas de ceros: algunas medidas de similitud (Dice, Jaccard, Simpson, etc.) no están definidas cuando
comparando dos filas todas ceros. Para evitar errores, especialmente al arrancar conjuntos de datos escasos, el
la similitud se establece en cero en tales casos.
Datos faltantes : la mayoría de estas medidas tratan los datos faltantes (codificados como '?') Mediante la eliminación por pares, es decir
que si falta un valor en una de las variables en un par de filas, esa variable se omite del
cálculo de la distancia entre esas dos filas. Las excepciones son la distancia rho, usando
sustitución de promedio de columna y Raup-Crick, que trata los datos faltantes como cero.
Referencias
Bray, JR y JT Curtis. 1957. Ordenación de las comunidades forestales de las tierras altas del sur de Wisconsin.
Monografías ecológicas 27: 325-349.
146
Página 147
Horn, SA 1966. Medición de superposición en estudios ecológicos comparativos. Naturalista estadounidense

100: 419-424.
Kimura, M. 1980. Un modelo simple para estimar las tasas evolutivas de sustituciones de bases mediante
estudios comparativos de secuencias de nucleótidos. Journal of Molecular Evolution 16: 111-120.
Raup, D. y RE Crick. 1979. Medida de similitud de fauna en paleontología. Diario de

Paleontología 53: 1213-1227.
Simpson, GG 1943. Mamíferos y la naturaleza de los continentes . Revista Estadounidense de Ciencia 241: 1-31.
Vincenty, T. 1975. Soluciones directas e inversas de geodésicas en el elipsoide con aplicación de

ecuaciones anidadas. Revisión de la encuesta 176: 88-93.
147
Página 148
Estadísticas de secuencia genética
Varias estadísticas sencillas sobre datos de secuencia genética (ADN o ARN). El módulo espera un número
de filas, cada una con una secuencia. Se espera que las secuencias estén alineadas y tengan la misma longitud.
incluyendo espacios (codificados como '?'). Algunas de estas estadísticas son útiles para seleccionar la distancia adecuada
medidas en otras partes del pasado.
Largo total: La longitud total de la secuencia, incluidos los espacios, de una secuencia
Brecha promedio: El número de posiciones de brecha, promediado sobre todas las secuencias
Promedio A, T / U, C, G: El número medio de posiciones que contienen cada nucleótido.
Distancia p media : La distancia p entre dos secuencias, promediada sobre todos los pares de
secuencias. La distancia p (o Hamming) se define como la proporción
de posiciones desiguales
Jukes-Cantor d promedio : El Jukes-Cantor d distancia entre dos secuencias, promediado sobre

todos los pares de secuencias. d = -3ln (1 - 4 p / 3) / 4, donde p es la distancia p
Jukes-Cantor máximo d : Distancia máxima de Jukes-Cantor entre dos secuencias cualesquiera
Transiciones promedio ( P ): Número medio de transiciones (a↔g, c↔t, es decir, dentro de purinas,
pirimidinas)
Transversiones medias ( Q ): Número medio de transversiones (a↔t, a↔c, c↔g, t↔g, es decir
a través de purinas, pirimidinas)
R=P/Q: La relación de transición / transversión
Datos faltantes : tratados como vacíos.
148
Página 149
Menú modelo
Lineal, bivariado
Si se seleccionan dos columnas, que representan x y Y valores, respectivamente. Si se selecciona una columna,
representa los valores y , y los valores x se toman como la secuencia de enteros positivos (1,2, ...). Una recta
la línea y = ax + b se ajusta a los datos. Varios conjuntos de datos bivariados pueden retroceder en la misma gráfica y
sus pendientes comparadas, dando un número par de columnas, cada par de columnas es un conjunto xy.
Hay cinco algoritmos diferentes disponibles: mínimos cuadrados ordinarios (OLS), eje mayor reducido
(RMA), Major Axis (MA), Robusto y Prais-Winsten. La regresión MCO asume que los valores de x son fijos,
y encuentra la línea que minimiza los errores al cuadrado en los valores de y . Use esto si sus valores x tienen
muy poco error asociado con ellos. RMA y MA intentan minimizar los errores x e y .
El ajuste RMA / MA, la estimación del error estándar y la comparación de pendientes están de acuerdo con Warton et al .
(2006).
La regresión de Prais-Winsten (p. Ej., Wooldridge 2012, cap. 12) es apropiada para datos con
Residuos correlacionados, típicamente series de tiempo. El modelo ajustado es una suma de una función lineal y un AR (1)
proceso autorregresivo con autocorrelación rho. Se utiliza un procedimiento iterativo, con una tolerancia en
rho de 0,001 y un máximo de 10 iteraciones. Bootstrapping no se lleva a cabo ya que violaría el
correlación en serie.
El método “robusto” es una regresión avanzada del Modelo I ( valores x fijos ) que es robusta a valores atípicos. Eso
a veces da resultados extraños, pero puede tener mucho éxito en el caso de "casi" normalmente
errores distribuidos pero con algunos valores lejanos. El algoritmo es "Mínimos cuadrados recortados" basado en
el código “FastLTS” de Rousseeuw & Driessen (1999). Las estimaciones de error paramétrico no están disponibles,
pero Past ofrece intervalos de confianza de arranque en pendiente e intersección (cuidado, esto es extremadamente
lento para grandes conjuntos de datos).
149
Página 150
Tanto los valores de x como de y pueden transformarse logarítmicamente (base 10), de hecho ajustando sus datos al 'alométrico'
función y = 10 b x a . Una un valor en torno a 1 indica que una línea recta ( 'isométrica') de ajuste puede ser más
aplicable.
Los valores para un y b , sus errores, de Pearson r de correlación, y la probabilidad de que las columnas son
no correlacionados se dan. Tenga en cuenta que r 2 es simplemente el coeficiente de Pearson al cuadrado, no se ajusta
para el método de regresión.
El cálculo de errores estándar para pendiente e intersección asume una distribución normal de residuos.
e independencia entre las variables y la varianza de los residuos. Si estas suposiciones son
fuertemente violado, es preferible utilizar los intervalos de confianza del 95 por ciento de arranque (1999
replica).
La prueba de permutación de correlación ( r 2 ) utiliza 9999 repeticiones.
Banda de confianza para la regresión
En la regresión OLS (no RMA / MA / Robust / Prais-Winsten), un 95% "Working-Hotelling"

banda de confianza para la línea ajustada está disponible. La banda de confianza se calcula como
│1 + (xx- )
⎛ 2 ⎞
│
CI = segundo
+ hacha
± t 2,2 / 05,0 norte 2
SE reg
-
│norte ( - )2 │
⎝ ∑ xx
yo ⎠
donde la suma al cuadrado de los residuos SE reg =

2
∑ ( por-yo
)2 .
- hacha
yo
Cuando la intersección se fuerza a cero, la banda de confianza se calcula como
150
Página 151
2
X
CI = hacha
± t 1,2 / 05,0 norte 2
- SE reg .
∑X 2
yo
Banda de confianza para el pronóstico
En la regresión de MCO, también se proporciona una banda de confianza del 95 por ciento para los pronósticos. La banda de confianza es
calculado como
VER (- ̅) 2
SE () = √1 + 1
√ ∑ ( -) 2
donde SEE es el error estándar de la estimación dada a continuación, entonces
CI = + ± 0.05 √ VER 2 + (SE ()) 2 .

, −2
2
Intercepción cero
Fuerza la línea de regresión a través de cero. Esto tiene implicaciones también para el cálculo de la pendiente y la
error estándar de la pendiente. Los cinco métodos manejan esta opción.
Derechos residuales de autor
La ventana Residuales informa las distancias desde cada punto de datos a la línea de regresión, en la x y
y direcciones. Solo esto último es de interés cuando se usa regresión lineal ordinaria en lugar de RMA o
MAMÁ. Los residuos se pueden copiar de nuevo a la hoja de cálculo e inspeccionarse para una distribución normal y
independencia entre variable independiente y varianza residual (homocedasticidad).
El error estándar informado de la estimación es simplemente la desviación estándar de los residuos, pero
corregido por el número de grados de libertad:
2
SE
VER = √
−1
Prueba de Durbin-Watson
La prueba de Durbin-Watson para la autocorrelación positiva de los residuos en y (violando un supuesto de MCO
regresión) se da en la ventana Residuales. La estadística de la prueba varía de cero (total positivo
autocorrelación) a través de 2 (autocorrelación cero) a 4 (autocorrelación negativa). Para n <= 400, una
El valor de p exacto para no autocorrelación positiva se calcula utilizando el algoritmo PAN (Farebrother 1980,
con correcciones posteriores). La prueba no es precisa cuando se usa la opción de intercepción cero.
Prueba de Breusch-Pagan
La prueba de Breusch-Pagan para la heterocedasticidad, es decir, la varianza no estacionaria de los residuos (violando una
supuesto de regresión OLS) se da en la ventana Residuales. El estadístico de prueba es LM = nr 2 donde r
es el coeficiente de correlación entre los valores xy los residuos al cuadrado. Es asintóticamente
distribuido como χ 2 con un grado de libertad. La hipótesis nula de la prueba es la homocedasticidad.
151
Página 152
Funciones exponenciales
Sus datos se pueden ajustar a una función exponencial y = e b e ax transformando primero logarítmicamente solo su columna y
(en el menú Transformar) y luego realizar un ajuste en línea recta.
Ecuaciones RMA
∑ (aa- )
2
un= firmar()
Pendiente r .
∑ (xx- ) 2
- 2
Error estándar en ()un 1 r .
un= abdominales
-2
norte
=
Interceptar xayb - .
Error estándar activado = √ +̅2 2, donde s r es la estimación de la desviación estándar de los residuos y s a
es el error estándar en pendiente.
0),=establezca
Para la intersección con cero ( b = X 0 y y = 0 para el cálculo de la pendiente y su error estándar
(incluido el cálculo de r en el mismo), y utilice n -1 en lugar de n -2 para el cálculo de estándar
error.
Datos faltantes: compatible con la eliminación de filas.
Referencias
Farebrother, RW 1980. Procedimiento de Pan para las probabilidades de cola del estadístico de Durbin-Watson.
Estadísticas aplicadas 29: 224–227.
Rousseeuw, PJ y van Driessen, K. 1999. Computación de regresión LTS para grandes conjuntos de datos. Instituto de
Boletín de Estadística Matemática.
Warton, DI, Wright, IJ, Falster, DS y Westoby, M. 2006. Métodos de ajuste de línea bivariados para
alometría. Revista biológica 81: 259-291.
Wooldridge, JM 2012. Introducción a la econometría: un enfoque moderno ( 5ª ed.). Del suroeste

Aprendizaje Cengage.
152
Página 153
Lineal, multivariante (uno independiente, n dependiente)
Cuando tiene una variable independiente y varias variables dependientes, puede ajustar cada variable dependiente
variar por separado a la variable independiente mediante regresión lineal simple. Este módulo hace que
proceso más conveniente al tener un botón de desplazamiento en cada variante dependiente.
El módulo espera dos o más columnas de datos medidos, con el independiente en la primera
columna y los dependientes en columnas consecutivas.
Además, se proporciona una prueba MANOVA general de significación de regresión multivariante. Los Wilks
El estadístico de prueba lambda se calcula como la relación de determinantes
mi
Λ= ,
ÉL+
donde E es la suma del error (residuos) de cuadrados y productos cruzados, y H es la hipótesis

(predicciones) suma de cuadrados y productos cruzados. La estadística F de Rao se calcula a partir de la
lambda y sometido a una prueba F de una cola (consulte 'Lineal, n independiente, n dependiente' a continuación).
Regresión para morpometría geométrica
Para puntos de referencia ajustados por Procrustes o coeficientes elípticos de Fourier como variables dependientes, consulte la
Menú de geometría para regresión con visualización del cambio de forma.
153
Página 154
Lineal, múltiple (uno dependiente, n independiente)

Requiere dos o más columnas de datos medidos, con el dependiente en la primera columna y el
independientes en columnas consecutivas.
El programa presentará el coeficiente de correlación múltiple R y R 2 , junto con el "ajustado"

R 2 y una prueba de significancia de tipo ANOVA general.
Con SSR la suma de cuadrados de la regresión, SSE la suma de cuadrados del error (residuales), n el número de
puntos yk el número de variables independientes, tenemos R 2 = SSR / SST,
( )
1 - nR (- 1)
2
R adj. = 1 -
2
,
kn- - 1
SSR k
F = .
SSE ( kn- -) 1
Los coeficientes (intersección y pendiente para cada variable independiente) se presentan con su
errores estándar estimados y pruebas t.
154
Página 155
Múltiplo lineal, multivariado (m independiente, n dependiente)

Requiere dos o más columnas de datos medidos, con las variables dependientes en la primera columna (s)
y los independientes en columnas consecutivas. El programa le pedirá el número de dependientes
variables. La salida consta de cuatro partes principales.
MANOVA general
Una prueba general de significación de regresión multivariante. El estadístico de la prueba lambda de Wilks se calcula como
la proporción de determinantes
mi
Λ= ,
ÉL+
donde E es la suma del error (residuos) de cuadrados y productos cruzados, y H es la hipótesis

(predicciones) suma de cuadrados y productos cruzados.
El estadístico F de Rao se calcula a partir de la lambda de Wilks. Con n el número de filas, p el número
de variables dependientes yq el número de variables independientes, tenemos:
=
qnm - - 1 - 1 ( qp- + 1)
2
⎧ 22
-4
qp
│ Si pags+ q - 05>
2 2
τ = ⎨
pags+ q - 5
2 2
│
⎩ 1 de otra manera
1- Λ τ + 1 - pq 2
1 τ
metro
F = ∙
Λ1 τ pq
Tenga en cuenta que la F de Rao puede volverse negativa. El F de prueba tiene pq y m T se + 1- pq / 2 grados de libertad.
Pruebas sobre variables independientes
La prueba del efecto general de cada variable independiente (sobre todas las variables dependientes) se basa en un
diseño similar al MANOVA general anterior, pero comparando los residuos de regresión con y
sin la variable independiente en cuestión.
Pruebas sobre variables dependientes
Consulte 'Lineal, n independiente, uno dependiente' más arriba para obtener detalles de las pruebas ANOVA para el
efecto de todas las variables independientes sobre cada dependiente.
Coeficientes de regresión y estadísticas
El conjunto completo de coeficientes y sus significados para todas las combinaciones de independientes y
variables dependientes.
155
Página 156
Modelo lineal generalizado
Este módulo calcula una versión básica del modelo lineal generalizado, para una sola explicación
variable. Requiere dos columnas de datos (variables independientes y dependientes).
GLM permite distribuciones no normales y también "transformación" del modelo a través de un enlace
función. Algunas combinaciones particularmente útiles de distribución y función de enlace son:
Distribución normal y vínculo de identidad : esto es equivalente a la regresión lineal de mínimos cuadrados ordinarios.
Distribución normal y vínculo recíproco : Ajuste a la función y = 1 / ( ax + b ).
Distribución normal o gamma y enlace logarítmico : Ajuste a la función y = exp ( ax + b ).
Distribución binomial (Bernoulli) y el enlace logit : regresión logística para una variable de respuesta binaria
(ver figura anterior).
Detalles técnicos
El programa utiliza el algoritmo de mínimos cuadrados reponderados iterativamente (IRLS) para una máxima probabilidad
Estimacion.
El parámetro de dispersión φ , que se usa solo para la inferencia, no para la estimación del parámetro, es
fijo en φ = 1 para las distribuciones de Poisson y binomial. Para las distribuciones normal y gamma, es
estimado utilizando chi-cuadrado de Pearson.
re
LL -=
La probabilidad logarítmica LL se calcula a partir de la desviación D por
φ2
.
156
Página 157
La desviación se calcula de la siguiente manera:
Normal: re = ∑ (-y yo
μ yo)2
yo
⌈ y yo y yo - μ yo⌉
Gama: re = 2 ∑ │- en + │
yo ⌊
μ yo μ yo ⌋
⌈ y yo + ( - ) 1 - y yo ⌉
Bernoulli: re = 2 ∑ │y yoen 1 y yo en │ (el primer término definido como cero si y i = 0)
yo ⌊
μ yo 1 - μ yo⌋
⌈ y yo - ( - μ )⌉
Poisson: re = 2 ∑ │y yoen y yo yo │
yo ⌊
μ yo ⌋
La estadística G es la diferencia en D entre el modelo completo y una ejecución GLM adicional donde solo
la intersección está ajustada. G es aproximadamente chi-cuadrado con un grado de libertad, dando un
importancia para la pendiente.
157
Página 158
Regresión polinomial
Dos columnas deben ser seleccionados ( x y Y valores). Un polinomio de hasta el quinto orden se ajusta a la
datos. El algoritmo se basa en un criterio de mínimos cuadrados y descomposición de valores singulares (Presione et
Alabama. 1992 ), con estandarización de media y varianza para mejorar la estabilidad numérica.
El polinomio está dado por
=
xay 5
5
+ xa4 4
+ xa3 3
+ xa2 2
+ axa
1
+ 0
.
El valor de chi-cuadrado es una medida del error de ajuste; los valores más grandes significan un ajuste más deficiente. El Akaike
El criterio de información tiene una penalización por el número de términos. El AIC debe ser lo más bajo posible para
maximice el ajuste pero evite el sobreajuste.
R 2 es el coeficiente de determinación o proporción de varianza explicada por el modelo. Finalmente, una p

El valor, basado en una prueba F , da la importancia del ajuste.
Referencia

158
Página 159
No lineal
Intenta ajustar dos columnas de datos xy a una serie de ecuaciones no lineales, utilizando mínimos cuadrados.
Seleccione un nombre de función de la lista. Para ver más funciones, tome un nombre de función y arrastre hacia arriba y
hacia abajo para desplazarse.
Los intervalos de confianza del 95% se basan en réplicas de arranque de 1999.
Adaptarse a una función no lineal puede ser un poco complicado. Para la mayoría de las funciones, Past utiliza un
adivinar los parámetros, seguido de la optimización de Levenberg-Marquardt. Tenga en cuenta que el LM
El algoritmo se ha mejorado con respecto a las versiones anteriores de Past, por lo que los resultados pueden diferir ligeramente.
El criterio de información de Akaike (AIC) puede ayudar en la selección del modelo. Valores más bajos para el AIC
implican un mejor ajuste, ajustado al número de parámetros.
Lineal
y = hacha
+ segundo
Incluido para comparar con las funciones no lineales. Ajuste por regresión de mínimos cuadrados ordinarios.
La opción "Constante cero" establecerá b = 0.
Cuadrático
y = 2hacha
+ cbx+
Incluido como referencia. Ajuste por mínimos cuadrados y SVD (la ecuación es lineal en sus coeficientes). los
La opción “Constante cero” establecerá c = 0. Consulte también el módulo Modelo polinomial.
159
Página 160
Poder
y = hacha
b+ C
La ecuación habitual de la ley de potencias. Estimación inicial por transformación log-log y regresión lineal (es decir, c =
0), seguido de optimización no lineal. La opción "Constante cero" establecerá c = 0.
Exponencial
y = ae bx + C
Estimación inicial de linealización (log-transformadora y ), seguido de optimización no lineal. El "Zero

constante ”establecerá c = 0. Consulte también el módulo Modelo lineal generalizado.
Von Bertalanffy
sí = 1 ( - ser )-
cx
Esta ecuación se utiliza para modelar el crecimiento de animales multicelulares (Brown y Rothery 1993). Está
a veces se da en una forma ligeramente diferente:
Ly= ∞
(1 - mi - txK( - )
) 0
Es fácil ver eso L ∞= un, K = c y t ()encb .

0 =
El valor de a se estima primero por el valor máximo de y , y b y c usando un ajuste en línea recta para a
modelo linealizado. Finalmente optimización no lineal.
Michaelis-Menten
hacha
y=
xb+
La curva de Michaelis-Menten puede hacer ajustes precisos a las curvas de rarefacción y, por lo tanto, puede
(algo controvertido) utilizarse para extrapolar estas curvas para estimar la biodiversidad (Colwell &
Coddington 1994). También es una ecuación modelo importante para la cinética química.
El algoritmo utiliza estimadores de máxima verosimilitud para la llamada transformación de Eadie-Hofstee

(Raaijmakers 1987; Colwell & Coddington 1994), seguido de optimización no lineal.
Logístico
un
y= - cx
1 + ser
160
Página 161
Curva sigmoidea (en forma de S). La ecuación logística puede modelar el crecimiento con saturación (Brown &
Rothery 1993), y fue utilizado por Sepkoski (1984) para describir la estabilización propuesta de
diversidad en el Paleozoico tardío.
El valor de a se estima primero por el valor máximo de y , y b y c usando un ajuste en línea recta para a
modelo linealizado. Finalmente optimización no lineal. Consulte también el módulo Modelo lineal generalizado.
Gompertz
cx
ser
y = ae
La estimación inicial se calcula mediante regresión en un modelo linealizado, seguido de no lineal
mejoramiento.
Gaussiano
( bx- )2
-
y = ae
2
2c
La 'curva de campana' con media by desviación estándar c .
Estimación inicial de a por el valor máximo de y , b por la media ponderada y c = 1, seguido de no lineal
mejoramiento.
Ecuación de Hill
⎛ ⎛ ⎞C ⎞
│ segundo
│
dy= + ( da- 1) │ + │ │ │
⎝ ⎝ X ⎠ ⎠
Esta función sigmoidea se utiliza a menudo para modelar datos de dosis-respuesta. d es el mínimo y a el
asíntota máxima. b es la dosis a la que 50% de los sujetos muestran la respuesta (el IC 50 valor),
mientras que c es la "pendiente de la colina". La opción "Constante cero" establecerá d = 0.
Referencias
Brown, D. y P. Rothery. 1993. Modelos en biología: matemáticas, estadística e informática. John Wiley
& Hijos.
Colwell, RK y JA Coddington. 1994. Estimación de la biodiversidad terrestre mediante extrapolación.

Transacciones filosóficas de la Royal Society of London B 345: 101-118.
Raaijmakers, JGW 1987. Análisis estadístico de la ecuación de Michaelis-Menten. Biometría 43: 793-
803.
Sepkoski, JJ 1984. Un modelo cinético de diversidad taxonómica fanerozoica. Paleobiología 10: 246-267.
161
Página 162
Regresión sinusoidal
Dos columnas deben ser seleccionados ( x y Y valores). Una suma de hasta ocho sinusoides con períodos especificados
por el usuario, pero con amplitudes y fases desconocidas, se ajusta a los datos. Esto puede ser útil para
modelado de periodicidades en series de tiempo, como ciclos de crecimiento anual o ciclos climáticos, generalmente en
combinación con análisis espectral. El algoritmo se basa en un criterio de mínimos cuadrados y singular
descomposición del valor. De forma predeterminada, los períodos se establecen en el rango de los valores xy los armónicos (1/2,
1/3, 1/4, 1/5, 1/6, 1/7 y 1/8 del período fundamental). Estos valores se pueden cambiar y necesitan
no estar en proporciones armónicas.
La opción "Ajustar períodos" optimizará secuencialmente el período de cada sinusoide (durante todo el
rango significativo de un período a la frecuencia de Nyquist), después de restar todos los ajustados previamente
sinusoides. Este es un ejemplo simple del algoritmo de "búsqueda coincidente". El algoritmo es lento pero
robusto y encontrará de forma bastante fiable el óptimo global.
El valor de chi-cuadrado es una medida del error de ajuste; los valores más grandes significan un ajuste más deficiente. El Akaike
El Criterio de información tiene una penalización por el número de sinusoides (la ecuación utilizada asume que el
los períodos se estiman a partir de los datos). El AIC debe ser lo más bajo posible para maximizar el ajuste pero evitar
sobreajuste.
R 2 es el coeficiente de determinación o proporción de varianza explicada por el modelo. Finalmente, una p

El valor, basado en una prueba F , da la importancia del ajuste.
162
Página 163
No es significativo especificar periodicidades menores a dos veces el espaciado típico de datos.

puntos.
Cada sinusoide viene dada por y = a * cos (2 * pi * (xx 0 ) / T - p) , donde a es la amplitud, T es el período yp es
la fase. x 0 es el primer valor x (más pequeño) . También se proporciona un desplazamiento constante global (media).
También hay opciones para hacer cumplir una serie de seno o coseno puro, es decir, con fases fijas.
163
Página 164
Suavizar spline
Deben seleccionarse dos columnas ( valores X e Y ). Los datos se ajustan a una spline de suavizado, que es una
secuencia de polinomios de tercer orden continua hasta la segunda derivada. Una aplicación típica es
la construcción de una curva suave que atraviesa un conjunto de datos ruidoso. El algoritmo sigue a de Boor
(2001). Los saltos bruscos en sus datos pueden dar lugar a oscilaciones en la curva, y también puede aumentar
excursiones en regiones con pocos puntos de datos. Múltiples puntos de datos en el mismo valor X se contraen para
un solo punto por promedio ponderado y cálculo de una desviación estándar combinada.
Una tercera columna opcional especifica las desviaciones estándar en los puntos de datos. Estos se utilizan para
ponderar los datos. Si no se especifica, todos se establecen en el 10% de la desviación estándar de los valores de Y.
El valor de suavizado establecido por el usuario es una versión normalizada del factor de suavizado de de Boor.
(predeterminado 1). Los valores más grandes dan curvas más suaves. Un valor de 0 iniciará un segmento de spline en cada punto.
Al hacer clic en "Optimizar suavizado" se calculará un suavizado "óptimo" mediante un procedimiento de validación cruzada.
"Ver puntos dados" proporciona una tabla de los puntos de datos dados X , Y y stdev ( Y ), la Y correspondiente
valores en la curva spline (ys) y los residuos. La prueba de chi-cuadrado para cada punto se puede utilizar para
identificar valores atípicos. La columna final sugiere un valor stdev ( Y ) para usar si se fuerza el valor p a 0.5.
Una cuarta columna de entrada opcional (si se usa, la tercera columna también debe llenarse con valores stdev)
puede contener un número diferente de valores de las columnas anteriores. Contiene valores X para ser usados
para la interpolación entre los puntos de datos. Las columnas opcionales 5-7 contienen límites superior e inferior para X
valores (distribución rectangular) y desviación estándar para los valores Y (distribución normal), que se utilizarán
mediante simulación de bootstrapping (Monte Carlo) que proporciona barras de error para los valores interpolados. Estas
Las funciones se incluyen principalmente para calcular las edades de los límites para la escala de tiempo geológico.
Referencia
de Boor, Carl. 2001. Una guía práctica de splines. Saltador.
164
Página 165
LOESS alisado
Dos columnas deben ser seleccionados ( x y Y valores). El algoritmo utilizado es "LOWESS" (Ponderado localmente
Suavizado de gráficos de dispersión; Cleveland 1979, 1981), con sus parámetros predeterminados recomendados (incluidos
dos iteraciones de robustez). Dado un número de puntos n y un parámetro de suavizado q especificado por el
usuario, el programa ajusta los nq puntos alrededor de cada punto dado en una línea recta, con una ponderación
función que disminuye con la distancia. El nuevo punto suavizado es el valor de la función lineal ajustada
en la posición x original .
La opción Bootstrap estimará una banda de confianza del 95% para la curva basada en 999 aleatorios
replica. Para mantener la estructura de la interpolación, el procedimiento utiliza remuestreo de
residuales en lugar de remuestreo de puntos de datos originales.
LOESS o alisar spline?
Esto es casi una cuestión de gustos. Compare las curvas de arriba, para el mismo conjunto de datos. La spline a menudo
da una curva estéticamente más agradable debido a sus derivadas continuas, pero puede sufrir de
sobrepasar cerca de curvas pronunciadas en los datos.
Referencias
Cleveland, WS 1979. Diagramas de dispersión robustos de ajuste y suavizado ponderados localmente. Diario de la
Asociación Estadounidense de Estadística 74: 829-836.
Cleveland, WS 1981. Un programa para suavizar diagramas de dispersión mediante un ajuste robusto ponderado localmente. los
Estadístico estadounidense 35:54.
165
Página 166
Análisis de mezclas
El análisis de mezclas es un método de máxima verosimilitud para estimar los parámetros (media, estándar
desviación y proporción) de dos o más distribuciones normales univariadas, basadas en una muestra combinada.
El programa también puede estimar la media y la proporción de distribuciones exponenciales y de Poisson. por
ejemplo, el método se puede utilizar para estudiar diferencias entre sexos (dos grupos), o varios
especies, o clases de tamaño, cuando no se dispone de información independiente sobre la pertenencia al grupo.
El programa espera una columna de datos univariados, que se supone que se toman de una mezcla de datos normalmente
poblaciones distribuidas (o exponencial o Poisson). En el siguiente ejemplo, los tamaños de dos braquiópodos
las muestras se han agrupado en una sola muestra. Las medias, desviaciones estándar y proporciones de la
dos muestras originales se han recuperado casi a la perfección.
PAST utiliza el algoritmo EM (Dempster et al. 1977), que puede atascarse en un óptimo local. los
Por lo tanto, el procedimiento se ejecuta automáticamente 20 veces, cada vez con nuevas posiciones de inicio aleatorias para
los significados. Los valores iniciales para la desviación estándar se establecen en s / G , donde s es el estándar agrupado
desviación y G es el número de grupos. Los valores de partida para proporciones se establecen en 1 / G . El usuario
todavía se recomienda ejecutar el programa varias veces para comprobar la estabilidad de la solución ("mejor"
las soluciones tienen valores de probabilidad logarítmicos menos negativos).
El criterio de información de Akaike (AIC; Akaike 1974) se calcula con una corrección de muestra pequeña:
1 (2 +
) kk
AICc = ln22
k- L+
kn- - 1
donde k es el número de parámetros, n el número de puntos de datos y L la probabilidad del modelo

dados los datos. Un valor mínimo para AIC indica que ha elegido el número de grupos que
produce el mejor ajuste sin sobreajuste.
166
Página 167
Es posible asignar cada uno de los puntos de datos a uno de los grupos con una probabilidad máxima
Acercarse. Esto se puede utilizar como un método de agrupamiento no jerárquico para datos univariados. los
El botón "Asignaciones" abrirá una ventana donde el valor de cada función de densidad de probabilidad es
dado para cada punto de datos. El punto de datos se puede asignar al grupo que muestra el valor más grande.
Referencias
Akaike, H. 1974. Una nueva mirada a la identificación del modelo estadístico. Transacciones IEEE en automático
Control 19: 716-723.
Dempster, AP, Laird, NM & Rubin, DB 1977. Máxima probabilidad de datos incompletos a través del
Algoritmo EM ". Revista de la Royal Statistical Society, Serie B 39: 1-38.
167
Página 168
Modelos de abundancia
Este módulo se puede utilizar para graficar las abundancias de taxones en orden descendente de rango en forma lineal o
escala logarítmica (diagrama de Whittaker), o número de especies en abundancia clases de octava (como se muestra cuando
ajuste a la distribución logarítmica normal). Los taxis van en filas. También puede ajustar los datos a uno de cuatro
modelos de abundancia estándar:
• Geométrico, donde la segunda especie más abundante debería tener un recuento de taxón de k <1 veces
el más abundante, el tercero más abundante un recuento de taxón de k veces el segundo más abundante
yo- 1
etc. para una constante k . Con n i el recuento del i ésimo taxón más abundante, tenemos = kn1
norte
yo .
Esto dará una línea recta descendente en la trama de Whittaker. El montaje es lineal simple.
regresión de las abundancias logarítmicas.
• Log-series, con dos parámetros alpha y x . El algoritmo de ajuste es de Krebs (1989) . los
número de especies con n individuos (esta ecuación no se traduce directamente al
Representación de la trama de Whittaker):
α Xnorte
S norte=
norte
• Palo roto (MacArthur 1957). No hay parámetros libres para ajustar en este modelo. Con
S tot el número total de especies y n tot el número total de individuos:
S nene - yo
norte 1
=
norte
nene
∑ .
S nene - j
yo
S nene j=0
• Log-normal. El algoritmo de ajuste es de Krebs (1989). El logaritmo (base 10) del ajustado
se dan la media y la varianza. Las octavas se refieren a clases de abundancia de potencia de 2:
Abundancia de octava
1 1
2 2-3
3 4-7
4 8-15
5 16-31
6 32-63
7 64-127
... ...
Se proporciona un valor de significancia basado en chi-cuadrado para cada uno de estos modelos, pero la potencia de la prueba
no es el mismo para los cuatro modelos y, por lo tanto, los valores de significancia no deben compararse. Eso
168
Página 169
Es importante, como siempre, recordar que un valor p alto no puede implicar un buen ajuste. Un bajo
Sin embargo, el valor implica un mal ajuste. También tenga en cuenta que las pruebas de chi-cuadrado en Pasado no parecen
se corresponden con algún otro software, posiblemente porque el uso pasado cuenta en lugar del registro
valores transformados en los gráficos de Whittaker.
Referencias
Krebs, CJ 1989. Metodología ecológica. Harper & Row, Nueva York.
MacArthur, RH 1957. Sobre la abundancia relativa de especies de aves. Procedimientos de la Nacional

Academia de Ciencias, EE. UU. 43: 293-295.
169
Página 170
Empaque de especies (gaussiano)
Este módulo ajusta los modelos de respuesta gaussiana a la abundancia de especies a lo largo de un gradiente, para una o más
especies. Los parámetros ajustados son óptimo (promedio), tolerancia (desviación estándar) y máximo.
El módulo requiere una primera columna de mediciones ambientales en muestras (p. Ej.
temperatura), y una o más columnas adicionales de datos de abundancia (taxones en columnas).
El algoritmo es el mismo que para la función gaussiana en el módulo de regresión no lineal: Inicial
Estimación del óptimo y la tolerancia basada en el promedio ponderado, seguido de un valor no lineal
optimización por el método de Levenberg-Marquardt.
170
Página 171
Espiral logarítmica
Ajusta un conjunto de puntos en el plano a una espiral logarítmica. Útil para caracterizar, por ejemplo, conchas de moluscos,
dientes, garras y cuernos. Requiere dos columnas de coordenadas (xey). Los puntos deben darse en
secuencia, ya sea hacia adentro o hacia afuera. Las espirales para diestros y zurdos son aceptables.
θ
segundo
La espiral ajustada en coordenadas polares: r = ae . La escala de una y el exponente b se dan, junto
con el punto central estimado, marcado con una cruz roja. La tasa de expansión del verticilo W (factor
π
aumento de radio por verticilo) se calcula a partir de b como W = mi .
2 segundo
La posición central se estima mediante optimización no lineal y la propia espiral mediante linealización y
regresión.
171
Página 172
Modelado de puntos de cambio
Este módulo sugiere posiciones de cambio abrupto (puntos de cambio) en una serie de tiempo, con valores constantes
entre los puntos de cambio. Los datos de entrada deben ser una sola columna con una serie de números, o
varias columnas con datos multivariados recopilados en los mismos puntos en el tiempo o estratigrafía. Un
La aplicación de ejemplo es la detección de roturas en datos geoquímicos multivariados a través de un sedimento.
núcleo. El módulo implementa el método descrito por Gallagher et al. (2011).
El algoritmo es Bayesiano, "transdimensional" de la cadena de Markov Monte Carlo (MCMC). No produce un

conjunto único de parámetros del modelo, pero un gran número como muestras ("simulaciones") de la probabilidad
distribución.
Para conjuntos de datos de varias columnas, tenga en cuenta que cada columna se pondera por igual, como media y estándar
la desviación se normaliza automáticamente antes del modelado.
Max chpoints : el número máximo de puntos de cambio. Esto a menudo se puede dejar en el valor predeterminado, 10, a menos que
desea permitir un número mayor o hacer cumplir un número menor de puntos de cambio. Después del análisis, el
se informa el número medio de puntos de cambio (entre simulaciones).
Simulaciones : el número de iteraciones de MCMC, por defecto 100 000. Esto incluye el llamado quemado ,
que es el número inicial de simulaciones antes de que el algoritmo converja y los datos comiencen a
172
Página 173
ser recogido. El número de iteraciones de quemado se fija en 20 000. La curva "Historial" (ver más abajo)
deben inspeccionarse para ver si se debe aumentar el número de simulaciones. Para datos ruidosos, puede
Será necesario aumentar el número de simulaciones a un millón o más, lo que da un cálculo largo
veces.
Changepoints parcela : muestra un histograma de las posiciones de changepoints en todas las simulaciones.
Parcela Modelo : muestra el modelo de media Changepoint como una curva rojo superpuesto en los datos dados
puntos. Si la mayoría de las simulaciones están de acuerdo con las posiciones del punto de cambio, esta será una curva escalonada (es decir,
constante entre puntos de cambio). La varianza (es decir, la incertidumbre) en las posiciones de los puntos de cambio dará una mayor
apariencia redondeada. Para datos multivariados, puede seleccionar la variable trazada en el menú desplegable
menú.
Historial : muestra la probabilidad de registro del modelo en función del número de iteración. Idealmente, esta curva debería
comenzar con un valor negativo grande y aumentar rápidamente a un valor relativamente estable, variando como
ruido no estructurado alrededor de una media. El final del quemado se muestra como una línea vertical. Si el registro
La probabilidad no parece estabilizarse, es posible que deba aumentarse el número de simulaciones.
Los valores faltantes se tratan mediante interpolación lineal antes del análisis.
Referencia
Gallagher, K., Bodin, T., Sambridge, M., Weiss, D., Kylander, M., Large, D. 2011. Inferencia de abrupto
cambios en registros geoquímicos ruidosos utilizando modelos de puntos de cambio transdimensionales. Tierra y
Cartas de ciencia planetaria 311: 182-194.
173
Página 174
Menú de diversidad
Índices de diversidad
Estas estadísticas se aplican a los datos de asociación, donde el número de individuos se tabula en filas (taxa)
y posiblemente varias columnas (muestras). Las estadísticas disponibles son las siguientes, para cada muestra:
• Número de taxa ( S )
• Número total de individuos ( n )
• Dominancia = índice 1-Simpson. Varía de 0 (todos los taxones están igualmente presentes) a 1 (un taxón
domina la comunidad por completo).
2
⎛norte
⎞
re = ∑ ││ yo donde n i es el número de individuos del taxón i .
yo ⎝ norte
⎠
Si se selecciona la opción "Insesgado", se calcula una forma alternativa de D :
∑ ( - 1)
=
(- 1)
• índice de Simpson 1- D . Mide la 'uniformidad' de la comunidad de 0 a 1. Note la confusión en

la literatura: ¡Los índices de dominancia y de Simpson se intercambian a menudo!
• Índice de Shannon (entropía). Un índice de diversidad que tenga en cuenta el número de individuos según
así como el número de taxones. Varía desde 0 para comunidades con un solo taxón hasta valores altos
para comunidades con muchos taxones, cada una con pocos individuos.
174
Página 175
norte norte
H = ∑- yo
en
yo
yo norte norte
Si se selecciona la opción "Insesgado", se calcula una forma alternativa de H ,

H u = H - ( S -1) / (2 n ).
• Equidad de Buzas y Gibson: e H / S
• Índice de Brillouin:
()norte
! en - ∑ en ()norte
yo!
=
media pensión
yo
norte
• Índice de riqueza de Menhinick:

S
norte
• Índice de riqueza de Margalef: (S-1) / ln (n)
• Equidad (también conocida como uniformidad de Pielou). Diversidad de Shannon dividida por el logaritmo de
número de taxones. Esto mide la uniformidad con la que los individuos se dividen entre los
taxones presentes.
• Alfa de Fisher: un índice de diversidad, definido implícitamente por la fórmula S = a * ln (1 + n / a) donde S es

número de taxones, n es el número de individuos y a es el alfa de Fisher.
• Dominio de Berger-Parker: simplemente el número de individuos en el taxón dominante en relación con

n.
• Chao1, sesgo corregido: una estimación de la riqueza total de especies. Chao1 = S + F 1 ( F 1 - 1) / (2 ( F 2 +

1)), donde F 1 es el número de especies singleton y F 2 el número de especies doubleton.
Muchos de estos índices se explican en Harper (1999) .
Los intervalos de confianza aproximados para todos estos índices se pueden calcular con un procedimiento de arranque.
Se produce el número dado de muestras aleatorias (por defecto 9999), cada una con el mismo número total
de individuos como en la muestra original. Para cada individuo en la muestra aleatoria, se elige el taxón
con probabilidades proporcionales a las abundancias originales. Un intervalo de confianza del 95 por ciento es entonces
calculado. Tenga en cuenta que la diversidad en las réplicas a menudo será menor y nunca mayor que la
Diversidad agrupada en el conjunto de datos total: este sesgo se puede "arreglar" opcionalmente centrando la confianza
intervalo sobre el valor original.
La comparación bootstrap de índices de diversidad en dos muestras se proporciona en Comparar diversidades

módulo.
Referencia
175
Página 176
176
Página 177
Riqueza de cuadrantes
Requiere dos o más columnas, cada una con presencia / ausencia (1/0) de diferentes taxones en el
filas (la abundancia positiva se trata como presencia).
En PAST se incluyen cuatro estimadores de riqueza de especies no paramétricos: Chao 2, primero y segundo.
pedir jackknife y bootstrap. Todos estos requieren datos de presencia-ausencia en dos o más muestreos
cuadrantes de igual tamaño . Colwell y Coddington (1994) revisaron estos estimadores y encontraron que el
Chao2 y la navaja de segundo orden obtuvieron mejores resultados.
La salida de Past se divide en dos paneles. Primero, los estimadores de riqueza y su análisis
las desviaciones estándar (solo para Chao2 y Jackknife1) se calculan a partir del conjunto de muestras dado.
Luego, los estimadores se calculan a partir de 1000 remuestreos aleatorios de las muestras con reemplazo
(bootstrapping), y se informan sus medias y desviaciones estándar. En otras palabras, el estándar
las desviaciones informadas aquí son estimaciones de arranque y no se basan en las ecuaciones analíticas.
Chao2
El estimador Chao2 (Chao 1987) se calcula como en EstimateS versión 8.2.0 (Colwell 2009), con sesgo
corrección:
⎛ - 1 ⎞QQ ( - 1)
Sˆ Chao = S obs + │metro │ 1 1
⎠ 2 (Q 2 + ) 1
2
⎝ metro
donde S obs es el número total observado de especies, m el número de muestras, Q 1 el número de

únicos (especies que ocurren precisamente en una muestra) y Q 2 el número de duplicados (especies que
ocurren precisamente en dos muestras).
Si Q 1 > 0 y Q 2 > 0, la varianza se estima como
- 1 ⎞QQ ( 1 - 1) - 1 ⎞ Q 1 (2 Q 1 - 1 )
2 2
⎛- ⎞ QQQ ( - 1 )
2 2 2
v real(Sâcademia
Chao 2 ) = │
⎛metro ⎛metro
de bellas│artes
1 + │ │ + │metro1 │ 1 2 1 .
⎝ metro⎠ 2 (Q 2 + 1 ) ⎝ metro⎠ 4 (Q 2 + 1 )2 ⎝ metro⎠ 4 (Q 2 + 1 ) 4
177
Página 178
Si Q 1 > 0 pero Q 2 = 0:
( 1 - 1) ⎛metro 2
( 1 - 1 )2 ⎛metro 2
(Sâcademia
)
4
- 1 ⎞QQ
⎛metro - 1 ⎞ QQ
1 2
- 1 ⎞ Q1
v real = │de │
bellas
1
artes + │ │ - │ │ .
⎠ ˆ4S Chao
Chao 2
⎝ metro ⎠ 2 ⎝ metro
⎠ 4 ⎝ metro 2
Si Q 1 = 0:
v real(Sâcademia
Chao 2
) = eS - SM
obs
( - SM
deobsbellas artes1 - mi ), obs
donde M es el número total de ocurrencias de todas las especies en todas las muestras.
Navaja 1
Navaja de primer orden (Burnham & Overton 1978, 1979; Heltshe & Forrester 1983):
- 1⎞
⎛metro
Sˆ Jack 1 = S obs + │ │Q 1 .
⎝ metro⎠
- 1 ⎞⎛ Q1 ⎞
()
S 2
⎛metro
v realSâcademia ││
= │de bellas ∑
artesfj
2
- │,
⎝ metro⎠│ │
Jack 1 j
⎝j = 0 metro
⎠
donde f j es el número de muestras que contienen j especies únicas.
Navaja 2
Navaja de segundo orden (Smith y van Belle 1984):
Q 1 (2 metro
- 3 ) mQ( - 2 )2
Sˆ Jack 2 = S obs + - 2 .
metro mm( - )1
No se dispone de una estimación analítica de la varianza.
Oreja
Estimador Bootstrap (Smith y van Belle 1984):
S obs
Sˆ bota = S obs + ∑ (1 - pags) k

metro
,
k =1
donde p k es la proporción de muestras que contienen la especie k . Ninguna estimación analítica de la varianza es
disponible.
178
Página 179
Referencias
Burnham, KP y WS Overton. 1978. Estimación del tamaño de una población cerrada cuando se captura
las probabilidades varían entre los animales. Biometrika 65: 623-633.
Burnham, KP y WS Overton. 1979. Estimación sólida del tamaño de la población cuando se captura
las probabilidades varían entre los animales. Ecología 60: 927-936.
Chao, A. 1987. Estimación del tamaño de la población para datos de captura-recaptura con capturabilidad desigual.
Biometrics 43 , 783-791.
Colwell, RK y JA Coddington. 1994. Estimación de la biodiversidad terrestre mediante extrapolación.

Transacciones filosóficas de la Royal Society (Serie B) 345: 101-118.
Heltshe, J. y NE Forrester. 1983. Estimación de la riqueza de especies mediante el procedimiento de navaja.

Biometrics 39: 1-11.
Smith, EP y G. van Belle. 1984. Estimación no paramétrica de la riqueza de especies. Biometría 40: 119-
129.
179
Página 180
Diversidad beta
Dos o más columnas (muestras) de datos de presencia-ausencia (0/1), con taxones en filas.
El módulo de diversidad beta en Pasado se puede utilizar para cualquier número de muestras (no limitado a solo dos
muestras). Las ocho medidas disponibles se describen en Koleff et al. (2003):
Pasado Koleff y col. Ecuación Árbitro.
S Whittaker
Whittaker bw 1- (1960)
α
S Harrison
-1
Harrison b -1 α et al.
-1 (1992)
norte
() ()+
HlHg Cody
Cody bc (1975)
2
⌈1 1 ⌉ ⌈ ⌉ Routledge
Routledge b yo Iniciar()sesión
10 T
-│ ∑ mi Iniciar()mi
yo 10 │- │ ∑ α
sesión
yo yo
()α yo │ (1977)
Iniciar
10 sesión
⌊T yo ⌋ ⌊T yo ⌋
() ()+
HlHg Wilson y
Wilson-Shmida b t Shmida
α2
(1984)
() ()+ Hl
Hg Mourelle
2α (norte
- )1
Mourelle b me Y Ezcurra
(1997)
S Harrison
-1
Harrison 2 b -2 α et al.
max
(1992)
-1
norte
α max Williams
Williams b -3 1- (1996)
S
180
Página 181
S : número total de especies; α : número medio de especies; N : número de muestras; g ( H ): ganancia total de
especies a lo largo del gradiente (muestras ordenadas a lo largo de columnas); l ( H ): pérdida total de especies; e i : número de
muestras que contienen la especie i ; T : número total de ocurrencias.
Referencias
Harrison, S., SJ Ross y JH Lawton. 1992. Diversidad beta sobre gradientes geográficos en Gran Bretaña. diario
of Animal Ecology 61: 151-158.
Koleff, P., KJ Gaston y JJ Lennon. 2003. Midiendo la diversidad beta para datos de presencia-ausencia.
Revista de Ecología Animal 72: 367-382.
Routledge, RD 1977. Sobre los componentes de diversidad de Whittaker. Ecología 58: 1120-1127.
Whittaker, RH 1960. Vegetación de las montañas Siskiyou, Oregon y California. Ecológico

Monografías 30: 279-338.
181
Página 182
Distinción taxonómica
Requiere una o más columnas (muestras), cada una con recuentos de individuos de diferentes
taxones en las filas. Además, una o más columnas de grupo con nombres de géneros / familias
etc. (ver más abajo).
Diversidad taxonómica y distinción taxonómica definida por Clarke y Warwick (1998),

incluyendo intervalos de confianza calculados a partir de 1000 réplicas aleatorias tomadas de la
conjunto de datos agrupados (todas las muestras). Tenga en cuenta que no se ingresa la "lista global" de Clarke & Warwick
directamente, pero se calcula internamente agrupando (sumando) las muestras dadas.
Estos índices dependen de información taxonómica también por encima del nivel de especie, que debe
ingresarse para cada especie de la siguiente manera. Los nombres de las especies van en la columna de nombres (más a la izquierda; en
los atributos de la fila), los nombres de género en la primera columna del grupo, la familia en la segunda columna del grupo
etc., hasta seis columnas de grupo. Por supuesto, puede sustituir otros niveles taxonómicos siempre que
ya que están en orden ascendente. Los recuentos de especies para las muestras siguen en las columnas.
después de eso.
La distinción taxonómica en una muestra viene dada por (tenga en cuenta que existen otras formas equivalentes):
∑∑ xxw
jiij
Ji<
∆ = ,
∑∑ xxJi + ∑ xx( yo yo
- 21)
Ji< yo
182
Página 183
donde w ij son pesos tales que w ij = 0 si i y j son la misma especie, w ij = 1 si son

el mismo género, etc. Las x son las abundancias.
Distinción taxonómica:
∑∑ xxw
jiij
Ji<
∆* = .
∑∑ xxJi
Ji<
Para los datos de presencia-ausencia, la diversidad taxonómica y la distinción serán válidas pero iguales a
El uno al otro.
Referencia
Clarke, KR & Warwick, RM 1998. Un índice de distinción taxonómica y sus propiedades estadísticas.
Journal of Applied Ecology 35: 523-531.
183
Página 184
Rarefacción individual
Para comparar diversidad en muestras de diferentes tamaños. Requiere una o más columnas de recuentos de
individuos de diferentes taxones (cada columna debe tener el mismo número de valores). Al comparar
muestras: las muestras deben ser taxonómicamente similares, obtenidas mediante muestreo estandarizado y
de un "hábitat" similar.
Dadas una o más columnas de datos de abundancia para varios taxones, este módulo estima cómo
muchos taxones que esperaría encontrar en una muestra con un número total menor de individuos. Con este
método, puede comparar el número de taxones en muestras de diferente tamaño. Usando análisis de rarefacción
en una muestra grande, puede leer el número de taxones esperados para cualquier tamaño de muestra más pequeño
(incluido el de la muestra más pequeña ). El algoritmo es de Krebs (1989) , utilizando un log Gamma
función para calcular términos combinatorios. Un ejemplo de aplicación en paleontología se puede encontrar en
Adrain et al. (2000) .
Sea N el número total de individuos de la muestra, s el número total de especies y N i el

número de individuos de la especie número i . El número esperado de especies E (S n ) en una muestra de tamaño n
y la varianza V (S n ) están dadas por
⌈ -
⎛NN ⎞⌉
│ │
│
yo
│
││
s
│- ⎝ norte⎠│
∑=
SE() norte │1 ⎞ │
⎛norte
yo= 1
│ │
│ │ │ │
⌊│ ⎠ ⌋│
⎝ norte
184
Página 185
-
⌈ ⎛NN ⎞⎛ -
⎛NN ⎞⎞⌉
││
yo
│ │ │ yo
││
│ │ │ │ │
│⎝ norte⎠│ - ⎝ norte⎠││
s
SV() norte= ∑ │ ⎛norte │1 ││

⎞ ⎛norte
⎞
=1
yo
│ │ │ │ │ │ ││
│ │ │ │
https://translate.googleusercontent.com/translate_f ⎝ ⎠ ⎝ ⎝ ⎠ ⎠ 181/278
│ │ │ │
│
⌊ ⎝norte
⎠ │ ⎝ ⎝norte
⎠ │ ⎠│
⌋
⌈ ⎛NN- yo - norte
⎞ -
⎛NN ⎞⎛NN- ⎞⌉
││ │ │ │
││ │
j yo j
j -1 │ │ │ │ ││
s
│⎝ norte ⎠ ⎝ norte⎠⎝ norte ⎠│
+ 2 ∑∑ -
│ ⎛norte
⎞ ⎛norte⎞⎛norte
⎞ │
j = 2 yo= 1
│ │
│ │ │ │
│ │ ││
│ │ │ │
⌊│ ⎝ norte
⎠ ⎝ norte
⎠⎝ norte
⎠ ⌋│
El programa proporciona los errores estándar (raíces cuadradas de las variaciones de muestreo). En el gráfico
gráfico, estos errores estándar se convierten en intervalos de confianza del 95 por ciento.
Varianza incondicional
La varianza de rarefacción clásica dada anteriormente se llama varianza condicional. Depende de la

muestra de referencia, y se reducirá a cero para S n = s . Por el contrario, Colwell et al. (2012) describió una
estimación de la varianza de rarefacción incondicional que no se reducirá a cero al final de la rarefacción
curva. Este método también está disponible en Pasado.
Hay dos modelos de rarefacción individual descritos por Colwell et al. (2012), el multinomio
modelo (rarefacción clásica) y el modelo de Poisson (rarefacción de Coleman). Los dos métodos dan
resultados bastante similares. El software de rarefacción "estándar de la industria", EstimateS,
calcula de forma incongruente E ( S n ) de acuerdo con la ecuación multinomial (ecuación (4) en Colwell et al.,
equivalente a la ecuación dada arriba), mientras que V ( S n ) usa la formulación de Poisson (ecuación 7 en Colwell et
al.), de acuerdo con el manual de EstimateS. Este enfoque se sigue en Pasado por compatibilidad con
Estimados. El cálculo también requiere una estimación del total de especies (muestreadas y no muestreadas)
riqueza. Para ello se utiliza el estimador Chao1 (cf. Colwell et al. 2012).
Rarefacción de los índices de Simpson y Shannon
Además de la rarefacción de la riqueza de especies, Past también incluye la rarefacción de Simpson D y

Índices de diversidad de Shannon H , siguiendo a Chao et al. (2014). En las formas 1 / D y e H , estos son especial
casos de los llamados números de Hill, que es una familia de índices de diversidad. Informes pasados la rarefacción
curvas en estas formas, para mantener la coherencia con Chao et al. (2014), pero por conveniencia el índice de Shannon
también se puede informar como el H convencional . El pasado todavía no calcula los intervalos de confianza para estos
curvas de rarefacción (que requerirían bootstrapping).
Deje X i es el número de individuos de la i th especies que se observan en la muestra, i = 1, 2, ..., S .

Sea f k el número de especies representadas por exactamente k individuos en la muestra, k = 0, 1,…, n . por
tamaños de muestra más pequeños ( m < n ), yk > 0, el estimador de f k es (ecuación 7 en Chao et al. 2014)
185
Página 186
-
( ) (- )
() = Σ
( )
≥
El estimador para el número de Hill con q = 1, que es equivalente a la exponencial e H del Shannon
índice, es (ecuación 10a en Chao et al.2014)
1 ̂ () = exp [∑ (- en ) () ]
=1
El estimador para el número de Hill con q = 2, que es equivalente a la inversa 1 / D de Simpson

índice, es (ecuación 11b en Chao et al.2014)
1
2 ̂ () =
2
∑=1 ( ()
)
Referencias
Adrain, JM, Westrop, SR & Chatterton, DE 2000. La diversidad alfa de los trilobites silúricos y el final
Extinción masiva del Ordovícico. Paleobiología 26: 625-646.
Chao, A., Gotelli, Nueva Jersey, Hsieh, TC, Sander, EL, Ma, KH, Colwell, RK y Ellison, AM 2014.
Rarefacción y extrapolación con números de Hill: un marco para el muestreo y la estimación en especies
estudios de diversidad. Monografías ecológicas 84: 45-67.
Colwell, RK, Chao, A., Gotelli, NJ, Lin, S.-L., Mao, CX, Chazdon, RL & Longino, JT 2012. Modelos
y estimadores que vinculan la rarefacción, la extrapolación y la comparación basadas en muestras y en individuos
de ensamblajes. Journal of Plant Ecology 5: 3-21.
Krebs, CJ 1989. Metodología ecológica. Harper & Row, Nueva York.
186
Página 187
Muestra de rarefacción (tau de Mao)

La rarefacción de la muestra requiere una matriz de datos de presencia-ausencia (abundancias tratadas como presencias),
con taxones en filas y muestras en columnas. Enrarecimiento basado en muestras (también conocido como la especie
curva de acumulación) es aplicable cuando se dispone de un número de muestras, de qué especies
la riqueza debe estimarse en función del número de muestras. PAST implementa la analítica
solución conocida como "tau de Mao", con desviación estándar. En el gráfico, los errores estándar son
convertido a intervalos de confianza del 95 por ciento. Ver Colwell et al. (2004) para más detalles.
Con H muestras y S obs el número total de especies observadas, sea s j el número de especies encontradas
en j muestras, tal que s 1 es el número de especies que se encuentran exactamente en una muestra, etc. El número total
de especies esperadas en h ≤ H muestras es entonces
τ~ ()
Sh = obs
- ∑α Jh sj .
j= 1
Los coeficientes combinatorios α son
⎧(HhH
- )! ( - j )!
│ + ≤
paraHhj
α Jh
= ⎨ (HjhH
- - )!! .
│
⎩ 0 + >
paraHhj
Estos coeficientes se calculan mediante una función log Gamma. El estimador de varianza es
τ~ 2 ()
∑ (1 - α ) s
H
σ~ 2 = 2
- h
Jh j ~ ,
j =1 S
~
donde S es un estimador de la riqueza total de especies desconocida. Siguiendo a Colwell et al. (2004), una
Se utiliza un estimador de tipo Chao2. Para s 2 > 0,
~ (H - 1 )s 2
SS =obs + 1
.
2 Hs 2
Para s 2 = 0,
~ ( - )( - )
SS =obs + H 1 ss1 1 1 .
2 sH( 2 + ) 1
Para modelar y extrapolar la curva usando la ecuación de Michaelis-Menten, use la opción Copiar datos
, péguelo en una nueva hoja de cálculo Pasada y use el módulo de ajuste no lineal en el menú Modelo.
Referencia
Colwell, RK, CX Mao y J. Chang. 2004. Interpolando, extrapolando y comparando basado en incidencia
curvas de acumulación de especies. Ecología 85: 2717-2727.
187
Página 188
Análisis SHE
El análisis SHE (Hayek & Buzas 1997, Buzas & Hayek 1998) requiere una matriz de datos de abundancia de enteros
(recuentos), con taxones en filas y muestras en columnas. El programa calcula la abundancia de especies de logaritmos
(ln S ), índice de Shannon ( H ) y uniformidad logarítmica (ln E = H - ln S ) para la primera muestra. Entonces el segundo
La muestra se agrega al primero y el proceso continúa. Los perfiles SHE acumulativos resultantes pueden
interpretado ecológicamente. Si las muestras no se toman de una población homogénea sino de una
gradiente o en una sección estratigráfica, los cortes en la curva se pueden utilizar para inferir discontinuidades (p. ej.
límites de la biozona).
Referencias
Buzas, MA y L.-AC Hayek. 1998. Análisis SHE para identificación de biofacies. El diario de
Foraminiferal Research 28: 233-239.
Hayek, L.-AC y MA Buzas. 1997. Relevamiento de poblaciones naturales. Prensa de la Universidad de Columbia.
188
Página 189
Prueba de permutación de diversidad
Espera dos columnas de datos de abundancia con taxones en las filas. Este módulo calcula un número
de índices de diversidad para dos muestras, y luego compara las diversidades usando permutaciones aleatorias.
Se generan 9999 matrices aleatorias con dos columnas (muestras), cada una con la misma fila y
totales de columna como en la matriz de datos original.
189
Página 190
Prueba t de diversidad
Comparación de las diversidades de Shannon y Simpson en dos muestras. Se describe la prueba t de Shannon
por ejemplo, por Hutcheson (1970), Poole (1974), Magurran (1988). Esta es una alternativa a la aleatorización
prueba disponible en el módulo de prueba de permutación de diversidad . Requiere dos columnas de datos de abundancia
con taxones en las filas.
El índice de Shannon aquí incluye una corrección de sesgo y puede diferir ligeramente del índice no corregido.
estimaciones calculadas en otras partes del PASADO, al menos para muestras pequeñas. Con p i la proporción (0-1) de
taxón i , S el número de taxones y N el número de individuos, el estimador del índice es
S -
H ' = - ∑ pagsyo en pags
yo
- S 1 (nótese que el segundo término es incorrecto en Magurran 1988).
yo= 1 2 norte
La varianza del estimador es
) - [∑ ( pags
(en pags
∑ pags 2
)]
en pags
2
-
Var H ' =
yo yo yo yo
+ S 1.
2
norte 2 norte
El estadístico de la prueba t viene dado por
H 1′ - H 2′
t= .
Var H 1′ + Var H 2′
Los grados de libertad para la prueba t son
(Var H 1+ ′ Var H ′2 )
2
df = .
(Var H 1′ )2 ( Var H 2′ )2
+
norte
1 norte
2
El índice de Simpson (dominancia) tiene una varianza estimada (Brower et al. 1998):
4 NN( - 1 ) norte
( - 2 )∑ pags
3
+ 2 NN( - 1 )∑ pags
2
- 2 NN( - 21) ( norte (
- 3 ) ∑ pags
22
)
Var re =
yo yo yo
.
NN ( - 1)
2
2
Referencias
Brower, JE, Zar, JH, von Ende, CN 1998. Métodos de campo y laboratorio para la ecología general.
McGraw-Hill, Boston.
Hutcheson, K. 1970. Una prueba para comparar diversidades basada en la fórmula de Shannon. Diario de
Biología teórica 29: 151-154.
Magurran, A. 1988. Diversidad ecológica y su medición. Prensa de la Universidad de Princeton.
Poole, RW 1974. Una introducción a la ecología cuantitativa. McGraw-Hill, Nueva York.
190
Página 191
Perfiles de diversidad
Este módulo requiere una o más columnas de datos de abundancia con taxones en las filas. El principal
El propósito es comparar diversidades en varias muestras.
La validez de comparar diversidades entre muestras puede ser criticada debido a la elección arbitraria de
índice de diversidad. Una muestra puede contener, por ejemplo, un mayor número de taxones, mientras que la otra tiene un
índice de Shannon más grande. Se pueden comparar varios índices de diversidad para asegurarse de que la diversidad
ordenar es robusto. Una forma formal de hacer esto es definir una familia de índices de diversidad, dependientes
sobre un único parámetro continuo (Tothmeresz 1995) .
PASADO utiliza el exponencial del llamado índice de Renyi, que depende de un parámetro α . Para α = 0,
esta función da el número total de especies. α = 1 (en el límite) da un índice proporcional al

Índice de Shannon, mientras que α = 2 da un índice que se comporta como el índice de Simpson.
⎛ 1 S
α ⎞
Exp ()
Hα = Exp │ en ∑ pags │
⎝1 - α yo= 1
yo
⎠
El programa puede trazar juntos varios perfiles de diversidad de este tipo. Si los perfiles se cruzan, las diversidades son
no comparable. La opción de arranque (que da un intervalo de confianza del 95%) se basa en 2000
replica.
Referencia
Tothmeresz, B. 1995. Comparación de diferentes métodos para ordenar la diversidad. Diario de

Ciencia de la vegetación 6: 283-290.
191
Página 192
Menú de series de tiempo
Periodograma simple
Dado que los datos paleontológicos a menudo se muestrean de manera desigual, los métodos basados en Fourier pueden ser difíciles de
utilizar. Por lo tanto, PAST incluye el algoritmo de periodograma de Lomb para datos muestreados de manera desigual (Press et
Alabama. 1992 ), con valores de tiempo dados en la primera columna y valores dependientes en la segunda columna. Si
sólo se selecciona una columna, se asume un espaciado uniforme de una unidad entre los puntos de datos. El lomb
el periodograma debería dar resultados similares a los de la FFT. Los datos se desvían automáticamente antes
al análisis. Se admiten valores faltantes.
El eje de frecuencia está en unidades de 1 / (x unidad) . Si, por ejemplo, sus valores x se dan en millones de años,
una frecuencia de 0,1 corresponde a un período de 10 millones de años. El eje de potencia está en unidades proporcionales
al cuadrado de las amplitudes de las sinusoides presentes en los datos. También tenga en cuenta que la frecuencia
El eje se extiende a valores muy altos. Si sus datos se muestrean uniformemente, la mitad superior del espectro es un
imagen especular de la mitad inferior, y es de poca utilidad. Si algunas de sus regiones se muestrean de cerca, la
El algoritmo puede encontrar información útil incluso por encima del medio punto (frecuencia de Nyquist).
El pico más alto del espectro se presenta con su frecuencia y valor de potencia, junto con un
probabilidad de que el pico se produzca a partir de datos aleatorios. Los niveles de significancia 0.01 y 0.05 ('blanco
líneas de ruido ') se muestran como líneas discontinuas rojas.
El ejemplo anterior muestra un análisis espectral de un registro de isótopos de oxígeno de foram de 1 Ma a Reciente,
con un espaciado uniforme de 0,003 Ma (3 ka). Hay periodicidades en frecuencias de aproximadamente 9 (pico dividido),
25 y 43 Ma -1 , correspondientes a períodos de 111 ka, 40 ka y 23 ka - claramente forzamiento orbital.
Referencia

192
Página 193
Análisis espectral REDFIT
Este módulo es una implementación del procedimiento REDFIT de Schulz y Mudelsee (2002). Es un
versión más avanzada del periodograma Lomb simple descrito anteriormente. REDFIT incluye una opción
para "Promedio de segmentos superpuestos de Welch", lo que implica dividir la serie de tiempo en varios
segmentos, superpuestos en un 50% y promediando sus espectros. Esto reduce el ruido pero también reduce
resolución espectral. Además, la serie temporal se ajusta a un modelo de ruido rojo AR (1) que suele ser un
hipótesis nula más apropiada que el modelo de ruido blanco descrito anteriormente. El dado "falso-
líneas de alarma ”se basan en aproximaciones paramétricas (chi2) y Monte Carlo (utilizando 1000
realizaciones aleatorias de un proceso AR (1)).
La entrada debe estar en forma de dos columnas con valores de tiempo y datos, o una columna de igual
valores de datos espaciados. Los datos se desvían automáticamente. El ajuste a AR (1) implica que los datos
debe tener la dirección correcta del tiempo (en contraste con el espectrograma simple arriba donde el tiempo
la dirección es arbitraria). Se espera que los valores de tiempo sean edades anteriores al presente. Si no, sera
necesario darles signos negativos.
El valor de sobremuestreo de frecuencia controla el número de puntos a lo largo del eje de frecuencia (pero
¡Tener muchos puntos no aumenta la resolución de frecuencia!). Aumentar el número de segmentos
reducir el ruido, pero también disminuir la resolución. La función de ventana influye en la compensación
entre la resolución espectral y la atenuación de los lóbulos laterales.
El valor de tau (promedio) es la escala de tiempo característica (el parámetro del modelo AR). los
el ancho de banda es la resolución espectral dada como el ancho entre los puntos de -6dB.
El ajuste a un modelo AR (1) se puede evaluar utilizando el valor de las corridas y su intervalo de aceptación del 5%. Esta
La prueba solo está disponible con Monte Carlo activado, sobremuestreo = 1, segmentos = 1, ventana = rectangular.
193
Página 194
Además de un conjunto fijo de niveles de falsas alarmas (80%, 90%, 95% y 99%), el programa también informa un
Nivel de falsa alarma "crítico" (False-al) que depende de la longitud del segmento (Thomson 1990).
Importante : debido al largo tiempo de cálculo, la simulación de Monte Carlo no se ejecuta de forma predeterminada y
por lo tanto, los niveles de falsas alarmas de Monte Carlo no están disponibles. Cuando la opción de Monte Carlo es
habilitado, el espectro dado puede cambiar ligeramente porque los resultados de Monte Carlo se utilizan para
calcular una versión con "corrección de sesgos" (ver Schulz y Mudelsee 2002).
Referencias
Schulz, M. y M. Mudelsee. 2002. REDFIT: estimación de espectros de ruido rojo directamente de espaciados desigualmente
series temporales paleoclimáticas. Computadoras y geociencias 28: 421-426.
Thomson, DJ 1990. Análisis de series de tiempo de datos climáticos del Holoceno. Transacciones filosóficas del
Royal Society of London, Serie A 330: 601-616.
194
Página 195
Análisis espectral multitaper
En la estimación espectral tradicional, los datos a menudo están "en ventanas" (multiplicados por una campana
función) para reducir la fuga espectral. En el método de múltiples cónicos, varios
Se aplican funciones de ventana (ortogonales) y se combinan los resultados. El espectro resultante tiene
baja fuga, baja variación y retiene la información contenida al principio y al final del tiempo
serie. Además, las pruebas estadísticas pueden aprovechar las múltiples estimaciones espectrales. Uno
la posible desventaja es una resolución espectral reducida.
El método de múltiples cónicos requiere datos espaciados uniformemente, dados en una columna.
La implementación en Past se basa en el código de Lees & Park (1995). El espectro multitaper puede
compararse con un periodograma simple (FFT con una ventana de coseno del 10%) y un suavizado
periodograma. El número de ahusamientos (NWIN) se puede establecer en 3, 4 o 5, para diferentes compensaciones entre
reducción y resolución de la varianza. El "producto de ancho de banda de tiempo" p se fija en 3,0.
La prueba F para la significación de la periodicidad sigue a Lees y Park (1995). La significancia 0.05 y 0.01
los niveles se muestran como líneas horizontales, basadas en 2 y 2 * NWIN-2 grados de libertad.
Los datos se rellenan con ceros hasta la segunda potencia más baja de 2 por encima de la longitud de la secuencia. Esto es
necesario para reproducir los resultados de las pruebas dadas por Lees & Park (1995).
Referencia
Lees, JM y J. Park. 1995. Análisis espectral de conos múltiples: una subrutina C independiente. Ordenadores &
Geociencias 21: 199-236.
195
Página 196
Transformada de Walsh
La transformada de Walsh es un tipo de análisis espectral (para encontrar periodicidades) de datos binarios u ordinales.
Asume un espaciado uniforme de los puntos de datos y espera una columna de binario (0/1) u ordinal (entero)
datos.
Los métodos normales para el análisis espectral tal vez no sean óptimos para datos binarios, porque
descomponer la serie de tiempo en sinusoides en lugar de "ondas cuadradas". La transformada de Walsh puede
entonces será una mejor opción, utilizando funciones básicas que cambian entre -1 y +1. Estas funciones básicas tienen
Variando "frecuencias" (número de transiciones dividido por dos), conocidas como secuencias . En el PASADO, cada
par de funciones de base pares ("cal") e impares ("sal") se combina en un valor de potencia usando cal 2 + sal 2 ,
produciendo un "espectro de potencia" que es comparable al periodograma de Lomb.
La transformada de Walsh es ligeramente exótica en comparación con la transformada de Fourier, y los resultados deben ser
interpretado con cautela. Por ejemplo, los efectos del ciclo de trabajo (porcentaje de unos frente a ceros)
son algo difíciles de entender.
En PASADO, los valores de los datos se preprocesan multiplicando por dos y restando uno, lo que genera 0/1
valores binarios en el rango -1 / + 1 óptimo para la transformada de Walsh. Los datos se rellenan con ceros al
siguiente potencia de 2 si es necesario, según lo requiera el método.
196
Página 197
Transformada de Fourier de corta duración
Análisis espectral utilizando la transformada de Fourier (FFT), pero dividiendo la señal en una secuencia de
ventanas superpuestas, que se analizan individualmente. Esto permite el desarrollo del espectro en
tiempo, en contraste con el análisis global proporcionado por los otros módulos de análisis espectral. Muestra
la posición se muestra en el eje x , la frecuencia (en períodos por muestra) en el eje y , y
escala logarítmica como color o escala de grises.
La transformada de Fourier de corta duración (STFT) se puede comparar con el análisis de ondículas, pero con una
escala de frecuencia y con resolución de tiempo constante independiente de la frecuencia.
El tamaño de la ventana controla el equilibrio entre resolución en tiempo y frecuencia; ventanas pequeñas
dan buena resolución de tiempo pero mala resolución de frecuencia. Las ventanas tienen un relleno de ceros por un factor ocho
para dar una apariencia más suave al diagrama a lo largo del eje de frecuencia. Las funciones de la ventana
(Rectángulo, Welch, Hanning, Hamming, Blackman-Harris, multitaper con 3, 4 o 5 conicidades) dar
diferentes compensaciones entre resolución de frecuencia y rechazo de banda lateral.
Los valores perdidos se tratan mediante interpolación lineal antes del análisis.
197
Página 198
Transformada wavelet
Inspección de series temporales a diferentes escalas. Requiere una columna de datos ordinales o continuos con
espaciado uniforme de puntos.
La transformada de ondícula continua (CWT) es un método de análisis en el que un conjunto de datos se puede inspeccionar en
escalas pequeñas, intermedias y grandes simultáneamente. Puede ser útil para detectar periodicidades en
diferentes longitudes de onda, auto-similitud y otras características. El eje vertical del gráfico es logarítmico.
escala de tamaño (base 2), con la señal observada en una escala de solo dos puntos de datos consecutivos en la parte superior,
ya una escala de un cuarto de toda la secuencia en la parte inferior. Una unidad en este eje corresponde
a una duplicación de la escala de tamaño. La parte superior de la figura representa así una vista detallada y de grano fino,
mientras que la parte inferior representa una visión general suavizada de tendencias más largas. Potencia de señal (o más correctamente
la fuerza de correlación al cuadrado con la ondícula madre escalada) se muestra en escala de grises o en color.
La forma de la ondícula madre se puede establecer en Morlet (número de onda 6), Paul (4 ° orden) o DOG
(Derivada de gaussiana, 2ª o 6ª derivada). La ondícula de Morlet suele funcionar mejor.
El ejemplo anterior se basa en un registro de isótopos de oxígeno de foram de 1 Ma a Reciente, con un par
espaciado de 0,003 Ma (3 ka). Se puede ver una banda a una escala de aproximadamente 2 5 = 32 muestras, o aproximadamente 100 ka. UN
banda más débil alrededor de 2 3,7 = 13 muestras corresponde a una escala de alrededor de 40 ka. Estos son orbitales
periodicidades. En contraste con el análisis espectral "masivo", el escalograma hace cambios visibles en
fuerza y frecuencia a lo largo del tiempo.
El llamado "cono de influencia" se puede trazar para mostrar la región donde los efectos de frontera son
presente.
El valor del 'Intervalo de muestra' se puede establecer en un valor distinto de 1. Esto solo influirá en la escala de
las etiquetas de la x y Y ejes.
198
Página 199
El algoritmo se basa en la convolución rápida de la señal con la ondícula a diferentes escalas, utilizando el
FFT.
Prueba de significancia : El nivel de significancia correspondiente ap = 0.05 puede trazarse como un contorno (chi-
prueba al cuadrado según Torrence & Compo 1998). El valor de "Lag", dado por el usuario, especifica
la hipótesis nula. Lag = 0 especifica un modelo de ruido blanco. Los valores 0 <Lag <1 especifica un modelo de ruido rojo
con el coeficiente de autocorrelación MA (1) dado. Puede estimarse utilizando el módulo ARMA en el
Menú de tiempo (especifique cero términos AR y un término MA y anote el valor MA en los "Coeficientes"
lengüeta).
Si la opción 'Energía' no está seleccionada, el programa mostrará solo la parte real del escalograma (no
al cuadrado). Esto muestra la señal en el dominio del tiempo, filtrada a diferentes escalas.
En la pestaña 'Ver números', cada fila muestra una escala, con el número de muestra (posición) a lo largo del
columnas.
La pestaña 'Filtro' muestra la serie de tiempo en un valor de escala, como valores de potencia si la opción 'Potencia' es
seleccionado en la pestaña principal, o partes reales si no. Esto, en efecto, funciona como un filtro de paso de banda.
La transformada de ondículas fue utilizada por Prokoph et al. (2000) para ilustrar ciclos en curvas de diversidad para
foraminíferos plancticos. El código de Past se basa en Torrence & Compo (1998).
Referencias
Prokoph, A., AD Fowler y RT Patterson. 2000. Evidencia de periodicidad y no linealidad en un alto

resolución registro fósil de evolución a largo plazo. Geología 28: 867-870.
Torrence, C. y GP Compo. 1998. Una guía práctica para el análisis de ondículas. Boletín del americano
Sociedad Meteorológica 79: 61-78.
199
Página 200
Wavelets para espaciamiento desigual
Inspección de series temporales a diferentes escalas. Requiere dos columnas de entrada, que contienen tiempo y datos
valores.
Este módulo es similar al módulo Wavelet Transform, pero acepta datos espaciados desigualmente. Lo hace
no proporciona (todavía) una prueba de significación y, como no utiliza la FFT, es considerablemente más lenta.
Además, el eje de frecuencia es lineal, no logarítmico. El algoritmo se basa en la Onda ponderada z-
transform (WWZ) de Foster (1996) y la implementación de Fortran de Templeton (2004). tenga en cuenta
que este módulo no hace magia - en áreas con pocos datos, el análisis de ondículas no será
informativo, especialmente en altas frecuencias.
El parámetro c de Foster (1996) se fija en c = 1/72, un poco más alto que el c = 1 / 8π 2 recomendado .
Este valor se elige porque corresponde a un número de onda de 6 utilizado por la Transformada Wavelet
módulo.
Referencias
Foster, G. 1996. Wavelets para el análisis de períodos de series de tiempo muestreadas de manera desigual. El astronómico
Diario 112: 1709-1729.
Templeton, M. 2004. Análisis de series de tiempo de datos de estrellas variables. El diario del americano
Asociación de Observadores de Estrellas Variables 32: 41-54.
200
Página 201
Espectro de eventos puntuales
Este módulo, que utiliza el método de "análisis espectral circular" (por ejemplo, Lutz 1985) se utiliza para buscar
periodicidad en series de eventos puntuales como terremotos, erupciones volcánicas y extinciones masivas (p. ej.
Rampino y Caldeira 2015). Una sola columna de horas de eventos (por ejemplo, fechas de erupciones en millones de
años) es obligatorio. No es necesario que los horarios de los eventos estén en orden secuencial.
El método funciona envolviendo la línea de tiempo alrededor de un círculo con una circunferencia correspondiente a un
período de prueba P . Si los puntos son P -periódicos, se agruparán en un cierto ángulo correspondiente a la fase.
Las edades de los eventos t i se convierten en ángulos a i :
un (2πPtos ) modificación
yo
()2 π
yo =
Como en la estadística direccional, los senos y cosenos medios se calculan y se convierten en un vector medio.
magnitud (estadístico de Rayleigh) R y una fase t 0 :
1
S = ∑ pecado
un yo
norte
1
C = ∑ porque
un
yo
norte
R= CS +
2 2
PAGS -1 S
t0 = broncearse (llevado al cuadrante correcto)
2π C
201
Página 202
R y t 0 se calculan para P que van desde el tiempo medio de espera hasta 1/3 de la duración total de
la serie, dando un espectro completo.
Una línea de significación del 95% para R se calcula mediante un procedimiento de Monte Carlo con 1000 repeticiones. Aleatorio
los tiempos de los eventos se calculan mediante una distribución gamma para los tiempos de espera. El parámetro de forma debe
establecerse en k = 1 (es decir, distribución exponencial) para un modelo nulo sin interacciones entre eventos
(Proceso de Poisson). Si se espera que los puntos poco espaciados sean raros, puede establecer k = 2 o k = 3.
Corrección de envoltura : Lutz (1985) describió una corrección para un número no entero de envolturas que causaban
algunos puntos estarán sobrerrepresentados. Esta corrección, opcional en Pasado, da una apariencia irregular de
la curva espectral y parece funcionar mejor para un número relativamente grande de puntos ( N > 20).
Armónicos : este método está tan plagado de armónicos como el análisis de Fourier tradicional. Un pico espectral para
un período P irá acompañado de picos fuertes también en armónicos, es decir, en P / 2, P / 3, etc. Es importante
para tener esto en cuenta al interpretar el espectro.
Referencias
Lutz, TM 1985. El registro de inversión magnética no es periódico. Nature 317: 404-407.
Rampino, MR y K. Caldeira. 2015. Cráteres de impacto periódico y niveles de extinción durante los últimos 260
millones de años. Avisos mensuales de la Royal Astronomical Society 454: 3480-3484.
202
Página 203
Autocorrelación
La autocorrelación ( Davis 1986) se lleva a cabo en columnas separadas de muestras

datos temporales / estratigráficos. Los tiempos de retardo τ hasta n / 2, donde n es el número de valores en el vector, son
se muestra a lo largo del eje x (solo tiempos de retraso positivos; la función de autocorrelación es simétrica alrededor
cero). Una autocorrelación predominantemente cero significa datos aleatorios: las periodicidades aparecen como picos.
La opción "intervalo de confianza del 95 por ciento" dibujará líneas en
± 76,1 1
norte + 3
- τ
después de Davis (1986) . Este es el intervalo de confianza para puntos independientes aleatorios (ruido blanco).
Hay dos problemas: el ruido blanco es un modelo nulo poco realista y el intervalo de confianza es solo
estrictamente válido en cada retraso individual (problema de prueba múltiple).
Referencia
203
Página 204
Autoasociación
La autoasociación es análoga a la autocorrelación, pero para una secuencia de datos binarios o nominales codificados
como números enteros.
Para cada retraso, el valor de autoasociación es simplemente la relación entre las posiciones coincidentes y el número total de
posiciones comparadas. El valor de autoasociación esperado (0.335 en el ejemplo anterior) para un
secuencia es (Davis 1986)
metro
∑X 2
k
- norte
=
PAGS
k =1
2
- norte
norte
donde n es el número total de posiciones, m es el número de estados distintos (3 en el ejemplo anterior)

y X k es el número de observaciones en el estado k .
Para rezagos distintos de cero, se calcula un valor P a partir de las posiciones superpuestas únicamente, y el valor esperado
el número de coincidencias viene dado por E = nP . Esto se compara con el número observado de coincidencias O
para producir un χ 2 con 1 grado de libertad:
(EO- - 21 )(
2
O - ′ mi- ′ 21 )
2
χ 2
= +
mi mi′
con O '= n - O y E ' = n (1- P ) el número de desajustes observado y esperado. Tenga en cuenta los Yates
corrección. Los valores p resultantes (de dos colas) se pueden mostrar en función del retraso.
204
Página 205
El problema de las pruebas múltiples surge para el conjunto de valores p .
La prueba anterior no es estrictamente válida para secuencias de "transición" donde no se permiten repeticiones (el
secuencia en el ejemplo anterior es de este tipo). En este caso, seleccione la opción “Sin repeticiones”. La p
Los valores entonces se calcularán mediante una prueba exacta, donde todas las posibles permutaciones sin repeticiones son
calculado y la autoasociación en comparación con los valores originales (de una cola). Esta prueba tomará
un tiempo de ejecución prolongado para n > 30 y la opción no está disponible para n > 40.
Referencia
205
Página 206
Correlación cruzada
La correlación cruzada (Davis 1986) se lleva a cabo en dos columnas de muestras
datos temporales / estratigráficos. El eje x muestra el desplazamiento de la segunda columna con respecto a
el primero, el eje y la correlación entre las dos series de tiempo para un desplazamiento dado. La "p
La opción de valores "extraerá el significado de la correlación, según Davis (1986) .
Para dos series de tiempo x y y , el valor de correlación cruzada en el tiempo de retraso m es
∑ (yxx- ) ( -
- y)
rmetro=
yo mi
.
∑ (xx - ) (∑
yo
2
y mi- - y )
2
Las sumas y los valores medios solo se toman sobre las partes donde las secuencias se superponen para
un tiempo de retraso determinado.
La ecuación muestra que para retrasos positivos, x se compara con a y que se ha retrasado m
muestras. Por tanto, un valor de correlación alto en rezagos positivos significa que las características en y están adelantadas, mientras que x
se queda atrás. Para rezagos negativos, las características en x están al frente. El programa le recuerda esto.
El valor p para un m dado viene dado por una prueba t con n -2 grados de libertad, con n el número de
muestras que se superponen:
-2
norte
rt= .
1 - rmetro
metro 2
Es importante señalar que esta prueba se refiere a una m en particular . Graficar p en función de todos los m aumenta
El problema de las pruebas múltiples: se esperan valores de p menores que 0.05 para el 5% de los tiempos de retraso incluso para
conjuntos de datos completamente aleatorios (no correlacionados).
En el ejemplo anterior, los datos de "terremotos" parecen estar a la zaga de los datos de "inyección" con un retraso de
0-2 muestras (meses en este caso), donde los valores de correlación son más altos. Los valores p (curva roja)
indica importancia en estos rezagos. Curiosamente, también parece haber significado para los
correlación en grandes rezagos positivos y negativos.
Referencia
206
Página 207
Correlograma de Mantel (y periodograma)
Este módulo espera varias filas de datos multivariados, una fila para cada muestra. Las muestras son
se supone que están espaciados uniformemente en el tiempo.
El correlograma de Mantel (por ejemplo, Legendre y Legendre 1998) es una extensión multivariante de
autocorrelación, basada en cualquier medida de similitud o distancia. El correlograma de Mantel en programas PASADOS
la similitud promedio entre la serie de tiempo y una copia con retraso en el tiempo, para diferentes retrasos.
El periodograma de Mantel es un espectro de potencia de la serie de tiempo multivariante, calculado a partir del
Correlograma de Mantel (Hammer 2007).
El escalograma de Mantel es un trazado experimental de similitudes entre todos los pares de puntos a lo largo del
series de tiempo. El vértice del triángulo es la similitud entre el primer y el último punto. La base del
triángulo muestra similitudes entre pares de puntos consecutivos.
207
Página 208
Referencias
Martillo, Ø. 2007. Análisis espectral de una serie de tiempo de múltiples especies del Plio-Pleistoceno utilizando el método Mantel
periodograma. Paleogeografía, Paleoclimatología, Paleoecología 243: 373-377.
208
Página 209
Prueba de ejecución
La prueba de rachas es una prueba no paramétrica de aleatoriedad en una secuencia de valores, como una serie de tiempo.
La no aleatoriedad puede incluir efectos tales como autocorrelación, tendencia y periodicidad. El módulo
requiere una columna de datos, que se convierten internamente a 0 ( x ≤0) o 1 ( x > 0).
La prueba se basa en una dicotomía entre dos valores ( x ≤0 ox > 0). Cuenta el número de carreras
(grupos de valores iguales consecutivos) y lo compara con un valor teórico. La prueba de carreras puede
por lo tanto, se puede utilizar directamente para secuencias de datos binarios. También hay opciones para "carreras sobre el
significa "(el valor medio restado de los datos antes de la prueba), o" corre hacia arriba y hacia abajo "(el
diferencias de un valor al siguiente tomadas antes de la prueba).
Con n el número total de puntos de datos, n 1 el número de puntos ≤0 y n 2 el número de puntos> 0,

el número esperado de corridas en una secuencia aleatoria, y la varianza, son
+ 2 21
nnn
RE() = .
norte
2 nnnnn (2 21 - )
RVar() =
21
.
nn () -1
2
Con el número observado de corridas R , un estadístico z se puede escribir como
- ()
RER
z = .
Var ) ( R
El valor p de dos colas resultante no es exacto para n <20. Por lo tanto, un procedimiento de Monte Carlo también
incluido, basado en 10,000 réplicas aleatorias usando los n , n 1 y n 2 observados .
209
Página 210
Prueba de tendencia de Mann-Kendall
Una prueba no paramétrica de tendencia. Requiere una sola columna de datos. Los valores faltantes se eliminan y n
ajustado en consecuencia. El procedimiento sigue a Gilbert (1987).
Se supone que los datos x 1 , ... x n están ordenados en secuencia del tiempo de recolección o en secuencia espacial. Definir
la función del indicador
⎧ 0 xif, 1 >
│
sgn x = ⎨ 0 xif, 0 = .
│-
⎩ 0 xif, 1 <
La estadística S se calcula sumando todos los pares de valores:
∑ ∑ sgn (xx - ) .
-1
norte norte
S = j yo
yo= 1 ij= + 1
S será negativo para una tendencia negativa, cero para ninguna tendencia y positivo para una tendencia creciente.
Para n ≤10, el valor p se toma de una tabla de valores exactos (Gilbert 1987). Para n > 10, un
se utiliza una aproximación, como sigue.
Determine el número total de grupos de vínculos gy el número de valores vinculados t j dentro de cada grupo, en
la secuencia ordenada. Luego estime la desviación estándar de S por
∑ tt () -( 21 ) │.
⌈ gramo ⌉
Dakota │nn( - 21) (norte
= del1 Sur + 5 )-
j j
tj +5
18 ⌊ j=1 ⌋
La estadística Z es entonces
||-1
= sgn
que se utiliza para calcular p a partir de la distribución normal acumulada como de costumbre. La resta de 1 es
una corrección de continuidad.
Referencia
Gilbert, RO 1987. Métodos estadísticos para el monitoreo de la contaminación ambiental. Van Nostrand
Reinhold, Nueva York.
210
Página 211
ARMA (y análisis de intervención)
Análisis y eliminación de correlaciones seriales en series de tiempo y análisis del impacto de una
perturbación ("intervención") en un momento determinado. Supone series de tiempo estacionarias, excepto para un
intervención única. Requiere una columna de datos igualmente espaciados.
Este módulo poderoso pero algo complicado implementa el análisis ARMA de máxima probabilidad,
y una versión mínima del análisis de intervención de Box-Jenkins (por ejemplo, para investigar cómo un clima
el cambio podría afectar la biodiversidad).
De forma predeterminada, se calcula un análisis ARMA simple sin intervenciones. El usuario selecciona el número
de términos AR (autorregresivo) y MA (promedio móvil) para incluirlos en la ecuación de diferencias ARMA.
Se dan el criterio de información logarítmica y de Akaike. Seleccione el número de términos que
minimice el criterio de Akaike, pero tenga en cuenta que los términos AR son más "poderosos" que los términos MA. Dos
Los términos AR pueden modelar una periodicidad, por ejemplo.
El objetivo principal del análisis ARMA es eliminar las correlaciones en serie, que de otro modo causarían problemas para
ajuste de modelos y estadísticas. El residuo debe inspeccionarse para detectar signos de autocorrelación, p. Ej.
copiando el residuo de la ventana de salida numérica a la hoja de cálculo y usando el
módulo de autocorrelación. Tenga en cuenta que para muchos conjuntos de datos paleontológicos con datos escasos y
efectos de confusión, el análisis ARMA adecuado (y por lo tanto el análisis de la intervención) será imposible.
El programa se basa en el algoritmo de verosimilitud de Melard (1984), combinado con métodos no lineales
optimización multivariante mediante búsqueda simplex.
Análisis de intervención
El análisis de la intervención procede de la siguiente manera. Primero, realice el análisis ARMA solo en las muestras
antes de la intervención, escribiendo el último número de muestra previa a la intervención en la "última muestra"
caja. También es posible ejecutar el análisis ARMA solo en las muestras después de la intervención, por
escribir la primera muestra posterior a la intervención en el cuadro "primera muestra", pero no se recomienda
debido a la alteración posterior a la intervención. Marque también la casilla "Intervención" para ver la optimización
modelo de intervención.
El análisis sigue a Box y Tiao (1975) al asumir una "función indicadora" u (i) que es una unidad
paso o un pulso unitario, según lo seleccione el usuario. La función del indicador es transformada por un AR (1)
proceso con un parámetro delta, y luego escalado por una magnitud (tenga en cuenta que la magnitud dada por
PAST es el coeficiente de la función del indicador transformado: primero haz y (i) = delta * y (i-1) + u (i), luego escala
y por la magnitud). El algoritmo se basa en la transformación ARMA de la secuencia completa,
luego una transformación ARMA correspondiente de y, y finalmente una regresión lineal para encontrar la magnitud.
El parámetro delta se optimiza mediante una búsqueda exhaustiva sobre [0,1].
Para pequeños impactos en datos ruidosos, delta puede terminar en un nivel subóptimo. Prueba tanto el paso como el pulso
opciones, y vea qué da el error estándar más pequeño en la magnitud. Además, inspeccione el "delta
optimización ", donde el error estándar de la estimación se representa como una función de delta, para ver si
el valor optimizado puede ser inestable.
El modelo de Box-Jenkins puede modelar cambios abruptos y permanentes (función de paso con
delta = 0, o pulso con delta = 1), abrupto y no permanente (pulso con delta <1), o gradual y
permanente (paso con delta <0).
211
Página 212
Tenga cuidado con el error estándar en la magnitud; a menudo se subestimará, especialmente si

el modelo ARMA no encaja bien. Por esta razón, deliberadamente no se calcula un valor p (Murtaugh
2002).
El conjunto de datos de ejemplo (curva azul) es la curva de Sepkoski para la tasa de extinción porcentual a nivel de género desde
el Silúrico, interpolado a un espaciado uniforme en ca. 5,5 millones de años. El pico más grande es el Pérmico-
Extinción del límite del Triásico. El usuario ha especificado un modelo ARMA (2,0). El residual se representa en
rojo. El usuario ha especificado que los parámetros ARMA deben calcularse para los puntos antes de la
Extinción de PT en el intervalo de tiempo 34 y una intervención de tipo pulso. El análisis parece indicar una gran
constante de tiempo (delta) para la intervención, con un efecto que dura en el Jurásico.
Referencias
Box, GEP y GC Tiao. 1975. Análisis de intervenciones con aplicaciones económicas y ambientales.
problemas. Revista de la Asociación Estadounidense de Estadística 70: 70-79.
Melard, G. 1984. Un algoritmo rápido para la probabilidad exacta de modelos de promedios móviles autorregresivos.
Estadísticas aplicadas 33: 104-114.
Murtaugh, PA 2002. Sobre las tasas de rechazo del análisis de intervenciones pareadas. Ecología 83: 1752-1761.
212
Página 213
Modelo de insolación (forzamiento solar)
Este módulo calcula la insolación solar en cualquier latitud y en cualquier momento desde 250 Ma hasta el Reciente (el
los resultados son menos precisos antes de los 50 Ma). El cálculo se puede realizar para una longitud orbital "verdadera",
longitud orbital "media" (correspondiente a una determinada fecha del año), promediada sobre una determinada
mes de cada año, o integrado durante todo un año.
La implementación en PAST es portada del código por Laskar et al. (2004), por cortesía de estos
autores. Consulte Laskar et al. (2004) en cualquier publicación.
Es necesario especificar un archivo de datos que contenga parámetros orbitales. Descargar el archivo
INSOLN.LA2004.BTL.250.ASC de http://vo.imcce.fr/insola/earth/online/earth/earth.html y poner
en cualquier lugar de su computadora. La primera vez que ejecute el cálculo, PAST le pedirá la posición
del archivo.
¡La cantidad de datos puede volverse excesiva para períodos de tiempo prolongados y tamaños de paso cortos!
Referencia
Laskar, J., P. Robutel, F. Joutel, M. Gastineau, ACM Correia y B. Levrard. 2004. A largo plazo
solución numérica para las cantidades de insolación de la Tierra. Astronomía y astrofísica 428: 261-285.
213
Página 214
Eventos puntuales
Espera una columna que contenga tiempos de eventos (por ejemplo, terremotos o divergencias de clados) o posiciones
a lo largo de una línea (por ejemplo, un transecto). Los tiempos no tienen por qué ser en orden creciente.
Tendencia de densidad (prueba de Laplace)
Cox y Lewis (1978) describen la prueba de “Laplace” para una tendencia en densidad (intensidad). Está basado en
la estadística de prueba
L
t -
U = 2
1
L
12 norte
donde t es el tiempo medio del evento, n el número de eventos y L la duración del intervalo. L es
estimado como el tiempo desde el primero hasta el último evento, más el tiempo medio de espera. U es aproximadamente
distribuida normalmente con media cero y varianza unitaria bajo la hipótesis nula de constante
intensidad. Esta es la base del valor p dado .
Si p <0.05, una U positiva indica una tendencia creciente en intensidad (tiempos de espera decrecientes), mientras que una
U negativo indica una tendencia decreciente. Tenga en cuenta que si esta prueba detecta una tendencia, la secuencia se
no estacionario y se violan los supuestos de la prueba exp a continuación.
Prueba exp para el proceso de Poisson
La prueba exp (Prahl 1999) para un proceso de Poisson estacionario (eventos aleatorios independientes) se basa en
el conjunto de n tiempos de espera Δ t i entre eventos sucesivos en la secuencia ordenada. La estadística de prueba es:
⎛ ∆ t yo⎞
= 1 ∑
METRO │1 - │
norte
∆ Tt <
yo
⎝ T ⎠
214
Página 215
donde T es el tiempo medio de espera. M tenderá a cero para un espaciado regular (sobredispersado)
secuencia, y a 1 para una secuencia muy agrupada. Para la hipótesis nula de un proceso de Poisson, M es
Asintóticamente distribuido normalmente con media 1 / e - α / ny desviación estándar β / √ n , donde
α = 0,189 y β = 0,2427. Ésta es la base de la prueba z dada .
En resumen, si p <0.05 la secuencia no es Poisson. A continuación, puede inspeccionar la estadística M ; si es más pequeño
que el valor esperado, esto indica regularidad, si es más alto, indica agrupamiento.
Para ambas pruebas, los valores de p también se estiman mediante simulación de Monte Carlo con 9999 conjuntos de datos aleatorios.
Referencias
Cox, DR y PAW Lewis. 1978. El análisis estadístico de series de eventos . Chapman y Hall,
Londres.
Prahl, J. 1999. Una prueba rápida no combinada sobre agrupación de eventos en procesos de Poisson. Arxiv, Astronomía y
Astrofísica de septiembre de 1999.
215
Página 216
Cadena de Markov
Este módulo requiere una sola columna que contenga una secuencia de datos nominales codificados como enteros
números. Por ejemplo, una secuencia estratigráfica donde 1 significa piedra caliza, 2 significa lutita y 3
significa arena. Una matriz de transición que contiene recuentos o proporciones (probabilidades) de transiciones de estado es
desplegado. Los estados “desde” están en filas, los estados “hasta” en columnas.
También es posible especificar varias columnas, cada una con una o más transiciones de estado (dos
números para una transición, n números para una secuencia que da n -1 transiciones).
La prueba de chi-cuadrado informa la probabilidad de que los datos se hayan tomado de un sistema con
proporciones de transiciones (es decir, sin transiciones preferidas). Las transiciones con frecuencias anómalas
pueden identificarse comparando las matrices de transición observadas y esperadas.
La opción "Incrustado (sin repeticiones)" debe seleccionarse si los datos se han recopilado en un
manera que no son posibles las transiciones al mismo estado (los puntos de datos sólo se recopilan cuando hay un
cambio). La matriz de transición tendrá ceros en la diagonal.
Los algoritmos, incluido un algoritmo iterativo para cadenas de Markov incrustadas, son según Davis
(1986).
Referencia
216
Página 217
Suavizadores simples
Un conjunto de suavizadores para una sola columna de datos espaciados uniformemente. Ver también la spline y LOESS
suaviza en el menú Modelo.
Se admiten los datos faltantes.
Media móvil
Media móvil centrada simple de n puntos ( n debe ser impar). De uso común, pero desafortunadamente
propiedades tales como una respuesta de frecuencia no monótona.
Gaussiano
Promedio móvil ponderado usando un kernel gaussiano con desviación estándar establecida en 1/5 de la ventana
tamaño (de n puntos). Este es un buen método en general.
Mediana móvil
Similar a la media móvil, pero toma la mediana en lugar de la media. Este método es más robusto para
valores atípicos pero produce una apariencia de "bloque".
AR 1 (exponencial)
Filtro recursivo (autorregresivo), y i = α y i -1 + (1- α ) x i con α un coeficiente de suavizado de 0 a 1. Este

corresponde al promedio ponderado con pesos que decaen exponencialmente. Da un retardo de fase y
también un transitorio en el comienzo de la serie. Incluido para completar.
217
Página 218
Savitzky-Golay
El método Savitzky-Golay implementa el ajuste de mínimos cuadrados a un polinomio dentro de una ventana móvil de
tamaño n puntos. Se incluyen polinomios de segundo orden ( m = 2) y cuarto orden ( m = 4). Estos son
Suavizadores “óptimos” en el sentido de que conservan todos los momentos hasta m . Esto tiende a dar mejor
preservación de los valores y anchos de los picos que otros suavizadores.
Medios no locales
Los medios no locales son un método de suavizado potente y relativamente nuevo, que se utiliza principalmente para eliminar el ruido de imágenes
pero también efectivo para series de tiempo (Tracey & Miller 2012). Es un método de promediado como el movimiento
promedio y métodos gaussianos, pero el promedio no se toma sobre puntos vecinos sino sobre puntos
en regiones similares, que pueden estar muy lejos. Esto tiende a preservar los picos y las transiciones mejor que
promedio local. En Pasado, se puede seleccionar el tamaño de las regiones locales (tamaño del parche); podría establecerse en, por ejemplo,
N = 7 o N = 13. El radio de búsqueda se fija en la mitad de la longitud de la serie temporal. El valor de lambda
controla el grado de suavizado. Tracey y Miller (2012) sugieren un valor de aproximadamente 0,6 veces el
desviación estándar del ruido (que generalmente se desconoce, pero se puede estimar a simple vista).
Tracey, B. y Miller, E. 2012. No local significa eliminar el ruido de las señales de ECG. Transacciones IEEE en
Ingeniería Biomédica 59: 2383-2386.
Filtro FIR
El filtrado de ciertas bandas de frecuencia en una serie de tiempo puede ser útil para suavizar una curva, eliminar
variación, o enfatizar ciertas periodicidades (por ejemplo, ciclos de Milankovitch). Una columna de espaciamiento uniforme
Se esperan datos. Para la mayoría de las aplicaciones en el análisis de datos, es crucial que el filtro tenga fase lineal
respuesta. Past, por lo tanto, utiliza filtros FIR (Finite Impulse Response), que están diseñados con el
Algoritmo de Parks-McClellan. Están disponibles los siguientes tipos de filtros: paso bajo, paso alto, paso banda y
parada de banda.
218
Página 219
Parámetros de filtro
Diseñar un filtro óptimo requiere un poco de esfuerzo. Las frecuencias se especifican en el rango 0-0,5, es decir, T 0 / T
donde T 0 es el intervalo de muestreo (no especificado para la computadora) y T es el período requerido. por
ejemplo, si su intervalo de muestreo real es de 1000 años, una frecuencia correspondiente a un período de
23.000 años se especifica como 1.000 / 23.000 = 0,043.
Después de configurar el tipo de filtro, debe seleccionar un ancho de transición (o dejar el valor predeterminado de 0.02).
Disminuir el ancho de transición producirá un filtro más nítido, a costa de una ondulación más grande ("ondas" en el
respuesta frecuente).
Tenga en cuenta que los valores en los campos de texto no se actualizan hasta que presione Entrar. Además, si un inválido
se ingresa una combinación (por ejemplo, una banda de transición que cruza 0 o 0.5, o el límite superior es menor que el límite inferior)
el programa restablecerá algún valor para evitar errores. Por lo tanto, es necesario ingresar los números en un
orden para que el filtro sea siempre válido.
Los tipos de filtro son los siguientes:
1. Paso bajo . La frecuencia From se fuerza a cero. Las frecuencias hasta la frecuencia A pasan
filtrar. Las frecuencias desde To + Transition hasta 0.5 están bloqueadas.
2. Paso alto . La frecuencia To se fuerza a 0,5. Las frecuencias por encima de la frecuencia From pasan
filtrar. Las frecuencias de 0 a Desde - Transición están bloqueadas.
3. Paso de banda . Frecuencias de Desde a Para pasar el filtro. Frecuencias por debajo de Desde - Transición
y arriba A + Transición están bloqueados.
4. Parada de banda . Las frecuencias de Desde a Hasta están bloqueadas. Frecuencias de 0 a Desde - Transición
y de To + Transition a 0.5 pasa el filtro.
219
Página 220
Orden de filtro
El orden de los filtros debe ser lo suficientemente grande para proporcionar un filtro aceptablemente nítido con baja ondulación. Sin embargo, un
El filtro de longitud n dará resultados menos precisos en la primera y última n / 2 muestras de la serie de tiempo,
lo que pone un límite práctico al pedido de filtros para series cortas.
El algoritmo de Parks-McClellan no siempre convergerá. Esto da una frecuencia obviamente incorrecta

respuesta, e intentar aplicar dicho filtro a los datos dará un mensaje de advertencia. Trata de cambiar
el orden del filtro (normalmente aumentarlo) para solucionar el problema.
220
Página 221
Conversión de fecha / hora
Utilidad para convertir fechas y / o horas a una unidad de tiempo continuo para su análisis. El programa espera uno
o dos columnas, cada una con fechas u horas. Si se dan ambos, entonces se agrega tiempo hasta la fecha para dar
el valor de tiempo final.
Las fechas se pueden dar en los formatos Año / Mes / Día o Día / Mes / Año. Los años necesitan todos los dígitos (un año
dado como 11 significará 11 AD, no 2011). Solo se admiten las fechas del calendario gregoriano. Los años bisiestos son
tenido en cuenta.
El tiempo puede expresarse como Horas: Minutos u Horas: Minutos: Segundos (los segundos pueden incluir decimales).
Las unidades de salida pueden ser años (utilizando el año medio gregoriano de 365,2425 días), días (de 86400
segundos), horas, minutos o segundos.
La hora de inicio (hora cero) puede ser la hora más pequeña dada, el comienzo del primer día, el
comienzo del primer año, año 0 (observe la convención "astronómica" donde el año anterior al año 1
es el año 0), o el comienzo del primer día juliano (mediodía, año -4712).
El programa opera con tiempo simple (UT), definido con respecto a la rotación de la Tierra y con un
número fijo de segundos (86400) por día.
Si los datos de entrada constan de valores de fecha y hora separados por espacios, como "2011/12/24 18: 00: 00.00",
entonces puede que tenga que usar la función "Importar archivo de texto" para leer los datos de manera que las fechas y horas
se dividen en columnas independientes.
El cálculo del día juliano (que se usa para encontrar el número de días entre dos fechas) sigue
Meeus (1991):
si el mes <= 2 comienza el año : = año - 1; mes : = mes + 12; fin;
A = piso ( año / 100);
B = 2 - A + piso ( A / 4);
JD = piso (365.25 ( año + 4716)) + piso (30.6001 ( mes +1)) + día + B - 1524.5;
Referencia
Meeus, J. 1991. Algoritmos astronómicos . Willmann-Bell, Richmond.
221
Página 222
Menú geométrico
Direcciones (una muestra)
El módulo traza un diagrama de rosas (histograma polar) de direcciones. Para graficar orientado a la corriente
especímenes, orientaciones de vías, líneas de falla, etc. También es apropiado para datos de hora del día (0-24
horas).
Se espera una columna de datos direccionales (0-360) u orientacionales (0-180) en grados. Direccional o
Los datos periódicos en otras formas (radianes, horas, etc.) deben convertirse a grados utilizando, por ejemplo, el
Evaluar el módulo Expresión (menú Transformar).
De forma predeterminada, se elige la convención de ángulo "matemática" de izquierda a derecha desde el este. Si usa el
convención 'geográfica' de sentido horario desde el norte, marque la casilla.
También puede elegir si las abundancias son proporcionales al radio en el diagrama de rosas, o
proporcional al área (área igual).
La opción "Densidad de kernel" traza una estimación de densidad de kernel circular.
Estadísticas descriptivas
El ángulo medio tiene en cuenta la circularidad:
222
Página 223
θ = bronceado
- ∑ pecado
θ yo
(llevado al cuadrante correcto).
∑ porque
1
θ yo
El intervalo de confianza del 95 por ciento sobre la media se estima según Fisher (1983) . Asume
distribución normal circular, y no es precisa para variaciones muy grandes (intervalo de confianza mayor
de 45 grados) o muestras pequeñas. El intervalo de confianza del 95% bootstrapped sobre los usos medios
5000 réplicas de bootstrap. El gráfico utiliza el intervalo de confianza de arranque.
El parámetro de concentración κ se estima mediante aproximación iterativa a la solución al

ecuación
yo ()κ
1
=
yo0 ()
κ R
donde I 0 e I 1 son funciones de Bessel imaginarias de órdenes 0 y 1, estimadas según Press et al.
(1992), y R se define a continuación (véase, por ejemplo, Mardia 1972).
Prueba de Rayleigh para distribución uniforme
El valor R (longitud media resultante) viene dado por:
2 2
⎛ norte ⎞ ⎛ norte ⎞
R = │∑ porque
θ yo│ + │∑ pecado
θ yo│ .
norte
⎝yo= 1 ⎠ ⎝ yo= 1 ⎠
R se prueba aún más contra una distribución aleatoria utilizando la prueba de Rayleigh para datos direccionales (Davis
1986) . Tenga en cuenta que este procedimiento asume datos distribuidos de manera uniforme o unimodal (von Mises): la prueba
no es apropiado para, por ejemplo, datos bimodales. Los valores p son aproximados según Mardia (1972):
=
RnK
2
⎛ 2 KK- 2 24 K - 132 K 2 + 76 K 3 - 9 K 4
⎞
ep=K - │1 +
│ - 2
│
│
⎝ 4 norte 288 norte ⎠
Prueba de espaciado de Rao para distribución uniforme
La prueba de espaciado de Rao (Batschelet 1981) para distribución uniforme tiene estadístico de prueba
norte
1
U = ∑T yo
-λ,
2 yo= 1
dónde λ = 360 o norte

. Tyo = +θ1yo- θ yo para i < nT, norte= 360 o - θ norte
+ θ 1 . Esta prueba no es paramétrica y no
no asumir, por ejemplo, la distribución de von Mises. El valor p se estima por interpolación lineal de la
tablas de probabilidad publicadas por Russell y Levitin (1995).
También está disponible una prueba de Chi-cuadrado para distribución uniforme, con 4 contenedores.
223
Página 224
La prueba de bondad de ajuste U 2 de Watson para la distribución de von Mises
Sea f la distribución de von Mises para los parámetros estimados de ángulo medio y concentración:
()
κ porque
θ -θ
(
F θ ,;θ κ =
mi ) .
2 π yo0 () κ
La estadística de prueba (por ejemplo, Lockhart y Stevens 1985) es
2 2
⎛ 12yo- ⎞ ⎛ 1⎞ 1
│z yo - │ - zn│ - │ +
=∑
2
U
⎝ 2 norte
⎠ ⎝ 2 ⎠ 12 norte
dónde
∫ = F(θ ,;θ κ )reθ ,

θ
yo
z yo
0
estimado por integración numérica. Los valores críticos para la estadística de prueba se obtienen mediante
interpolación en la Tabla 1 de Lockhart y Stevens (1985). Tienen una precisión aceptable para n > = 20.
Datos axiales
La opción 'Orientaciones' permite el análisis de orientaciones lineales (axiales) (0-180 grados). El Rayleigh
y las pruebas de Watson se llevan a cabo en ángulos duplicados (este truco lo describe Davis 1986); los
Chi-cuadrado usa cuatro contenedores de 0-180 grados; el diagrama de rosas refleja el histograma alrededor del
origen.
Referencias
Batschelet, E. 1981. Estadísticas circulares en biología. Prensa académica.
Fisher, NI 1983. Comentario sobre "Un método para estimar la desviación estándar de las direcciones del viento".
Revista de Meteorología Aplicada 22: 1971.
Lockhart, RA & MA Stephens 1985. Pruebas de ajuste para la distribución de von Mises. Biometrika 72: 647-
652.
Mardia, KV 1972. Estadísticas de datos direccionales. Prensa académica, Londres.
Russell, GS y DJ Levitin 1995 . Una tabla ampliada de valores de probabilidad para la prueba de espaciado de Rao .
Comunicaciones en estadística: simulación y computación 24: 879-888.
224
Página 225
Direcciones (dos muestras)
El módulo espera dos columnas de datos direccionales (0-360) u orientacionales (0-180) en grados.
Prueba de Watson-Williams
La prueba de Watson-Williams para un ángulo medio igual en dos muestras es una prueba paramétrica, suponiendo que von
Distribución de Mises, pero es bastante robusta. El parámetro de concentración κ debe ser mayor que 1.0 para
pruebas precisas. Además, la prueba asume variaciones angulares similares ( valores R ).
Las dos muestras φ y θ tienen valores n 1 y n 2 . La dispersión R de Rayleigh se calcula para cada muestra y
para la muestra combinada:
2 2
⎛ norte
1 ⎞ ⎛ norte 1⎞
R1 = │
│∑ ϕ
porqueyo│ │∑ pecado
│ +│ ϕ yo│
│
⎝ yo= 1 ⎠ ⎝ yo= 1 ⎠
2 2
⎛ norte 2
⎞ ⎛ norte ⎞ 2
│∑ porque
R2 = │ + │∑ pecado
θ yo│ │ θ yo│
│ │
⎝ yo= 1 ⎠ ⎝yo= 1 ⎠
2 2
⎛ norte
1 norte
2 ⎞ ⎛ norte 1 norte
2 ⎞
R= │∑ porque
│ ϕ yo+ ∑ porque │∑ pecado
│ +│
θ yo│ ϕ yo + ∑ pecado
θ yo│
│ .
⎝yo= 1 yo= 1 ⎠ ⎝yo= 1 yo= 1 ⎠
225
Página 226
El estadístico de prueba U se calcula como
RR + -R
U = (norte
- 2) 1 2
.
-(
RRn 1
+ ) 2
La significancia se calcula corrigiendo primero U según Mardia (1972a):
⎧ U
│ nR < 45,0
κ2 1
│1 - +
U =⎨ 8 κ
norte
2 ,
│ ⎛ 3 ⎞
│ │1 + │U nR < 95,0
⎩ ⎝ 8κ ⎠
donde n = n 1 + n 2 . El valor p viene dado por la distribución F con 1 y n -2 grados de libertad. los
El parámetro de concentración combinado κ es la máxima verosimilitud, calculada como se describe en
"Direcciones (una muestra)" arriba.
Prueba de Mardia-Watson-Wheeler
Esta prueba no paramétrica para distribución equitativa se calcula de acuerdo con Mardia (1972b).
⎛C 2 + S 2 C 2 + S 2 ⎞
W = 2│ + 2 │
1 1 2
│ │
⎝ norte
1 norte
2 ⎠
donde, para la primera muestra,
norte norte
C1 = ∑ 2cos( π Nr ),
1
1 yo S1 = 1 ( π Nr )
∑ 2pecado 1 yo
yo= 1 yo= 1
y de manera similar para la segunda muestra ( N = n 1 + n 2 ). Los r 1 i son los rangos de los valores de la primera muestra
dentro de la muestra combinada.
Para N > 14, W es aproximadamente chi-cuadrado con 2 grados de libertad.
Referencias
Mardia, KV 1972a. Estadísticas de datos direccionales. Prensa académica, Londres.
Mardia, KV 1972b. Una prueba de puntajes uniformes de múltiples muestras en un círculo y su competidor paramétrico.
Revista de la Royal Statistical Society Series B 34: 102-113.
226
Página 227
Correlación circular
Prueba de correlación entre dos variantes direccionales u orientacionales. Asume un número "grande" de
observaciones. Requiere dos columnas de datos direccionales (0-360) u orientacionales (0-180) en grados.
Este módulo utiliza el procedimiento de correlación circular y la prueba de significación paramétrica de

Jammalamadaka y Sengupta (2001) .
El coeficiente de correlación circular r entre vectores de ángulos α y β es
( β -β )
norte
(α - α )pecado
∑ pecado yo yo
r =
=1
yo
,
)
norte
(α
∑ pecado 2
yo (
- α )pecado
β yo - β
2
yo= 1
donde los medios angulares se calculan como se describió anteriormente. El estadístico de prueba T se calcula como
(β )
norte norte
(α
∑ pecado 2
k
-α )∑ pecado 2
k
-β
rT =
k =1 k=1
.
)
norte
(α
∑ pecado 2
k
- α )pecado
2
(
βk - β
k =1
Para n grande , este estadístico tiene una distribución asintóticamente normal con media 0 y varianza 1 bajo la
hipótesis nula de correlación cero, que es la base para el cálculo de p .
Referencia
Jammalamadaka, SR y A. Sengupta. 2001. Temas de las estadísticas circulares. World Scientific.
227
Página 228
Datos esféricos (una muestra)
Este módulo crea gráficos estereofónicos de datos esféricos axiales (por ejemplo, mediciones de rumbo
geología) y realiza la prueba de Bingham para una distribución uniforme.
Se pueden usar tres formatos de datos, todos usando la convención de ángulo geográfico (grados, en sentido horario desde
norte):
• Tendencia (acimut) y caída (ángulo hacia abajo desde la horizontal) para datos axiales
• Inmersión de azimut y ángulo de inclinación (hacia abajo desde la horizontal) para planos. El polo (vector normal) de
el avión está trazado.
• Golpe y caída para aviones, usando la convención de la regla de la mano derecha con el descenso hacia la derecha
de la huelga. Se traza el polo al plano.
El contorno de densidad se basa en un algoritmo del método Kamb modificado por Vollmer (1995). Ambos iguales
se encuentran disponibles proyecciones de área (Schmidt) y de ángulo igual (Wulff). Las proyecciones son hacia abajo
hemisferio. Las estimaciones de densidad pueden usar un área inversa, un área inversa al cuadrado o una ley exponencial,
dando un suavizado progresivamente mayor.
La prueba de Bingham para la distribución uniforme de datos axiales se puede utilizar para probar la dirección preferida
(Bingham 1974; Mardia y Jupp 2000, p. 232-233). Past calcula la estadística S de la siguiente manera:
La matriz de dispersión de la muestra se calcula como
norte
1
T = ∑ xxii
T
n 1 yo=
228
Página 229
donde x i es el 3-vector de cosenos de dirección para la muestra i . Luego,
S =
15 ⎛ ()
│tr T 2│ -
norte
1⎞
.
2 ⎝ 3⎠
Un S ajustado se calcula de acuerdo con Jupp (2001):
S
* ⎧
(
= S ⎨1 - 1 segundo
0
+ SBSB
1
+ 2
2
)⎫⎬
⎩ norte ⎭
dónde
31 = - 41 , segundo5 .
segundo , segundo
0 = 42 2 = 1323
1
294
El valor p informado para la uniformidad se estima a partir del valor S * utilizando la distribución chi-cuadrado
con 5 grados de libertad. Una p pequeña ( p . Ej. P <0,05) significa una distribución significativamente no uniforme.
Referencias
Bingham, C. 1974. Una distribución simétrica antípoda en la esfera. Annals of Statistics 2: 1201-
1225.
Jupp, PE 2001. Modificaciones de las pruebas de Rayleigh y Bingham para la uniformidad de direcciones. diario
del análisis multivariado 77: 1-20.
Mardia, KV & Jupp, PE 2000. Estadísticas direccionales. John Wiley & Sons.
Vollmer, FW 1995. Programa C para el contorneado automático de datos de orientación esférica utilizando un
método Kamb modificado. Computadoras y geociencias 21: 31-49.
229
Página 230
Análisis de patrón de puntos: vecinos más cercanos
Este módulo prueba la agrupación o la sobredispersión de puntos dados como coordenadas bidimensionales.
valores. El procedimiento asume que los elementos son pequeños en comparación con sus distancias, que el dominio
es predominantemente convexo y n > 50. Se requieren dos columnas de posiciones x / y . Aplicaciones de este
módulo incluye ecología espacial (se agrupan braquiópodos in situ), morfología (son trilobites
tubérculos sobredispersos) y geología (distribución de, por ejemplo, volcanes, terremotos, manantiales).
El cálculo de las estadísticas de distribución de puntos utilizando el análisis del vecino más cercano sigue a Davis (1986 )
con modificaciones. El área se estima mediante el rectángulo de cierre más pequeño o utilizando el
casco convexo, que es el polígono convexo más pequeño que encierra los puntos. Ambos son inapropiados para
puntos en dominios muy cóncavos. Hay disponibles dos métodos de ajuste de efectos de borde diferentes:
alrededor ("toro") y la corrección de Donnelly. La detección de bordes envolventes solo es apropiada para
dominios rectangulares.
La hipótesis nula es un proceso de Poisson aleatorio, que da un vecino más cercano exponencial modificado
distribución (ver más abajo) con media
n/A
μ =
2
donde A es el área yn el número de puntos.
Se presenta la probabilidad de que la distribución sea de Poisson, junto con el valor de R :
230
Página 231
re = 2 re
R=
μ n/A
donde d es la distancia media observada entre vecinos más cercanos. Los puntos agrupados dan R <1,
Los patrones de Poisson dan R ~ 1, mientras que los puntos sobredispersos dan R > 1.
La distribución esperada (teórica) bajo la hipótesis nula se traza como una curva continua
junto con el histograma de distancias observadas. La función de densidad de probabilidad esperada como
función de la distancia r es
(
rg() = 2 ρ π r Exp - ρ π r ) 2
donde ρ = n / A es la densidad de puntos (Clark y Evans 1954).
También se incluyen las orientaciones (0-180 grados) y las longitudes de las líneas entre los vecinos más cercanos.
Las orientaciones pueden someterse a análisis direccional para comprobar si los puntos están organizados.
a lo largo de lineamientos (ver Hammer 2009 para métodos más avanzados).
Referencias
Clark, PJ & Evans, FC 1954. Distancia al vecino más cercano como medida de las relaciones espaciales en
poblaciones. Ecología 35: 445-453.
Martillo, Ø. 2009. Nuevos métodos para el análisis estadístico de alineaciones de puntos. Ordenadores &
231
Página 232
Análisis del patrón de puntos K de Ripley
La K de Ripley (Ripley 1979) es el recuento de puntos promedio en función de la distancia desde cada punto. Está
útil cuando las características del patrón de puntos cambian con la escala, por ejemplo, sobredispersión en distancias pequeñas
pero agrupados a grandes distancias. Dos columnas de coordenadas x / y en un dominio rectangular son
esperado.
Defina la intensidad estimada del patrón de puntos, con n puntos en un área A , como λ = Un . los
distancia entre los puntos i y j es d ij La estimación de K de Ripley , en función de la distancia, es entonces
calculado como
( )
norte
1
dK() = ∑∑ dI ≤ re ,
λ norte
yo= 1 ij≠
ij
donde la función indicadora I es uno si el argumento es verdadero, cero en caso contrario.
La normalización de K es tal que para una aleatoriedad espacial completa (CSR), se espera que K ( d )
dK = π re2 . La función L ( d ) es una transformación correspondiente
aumenta como el área de los círculos, es decir ()
de K ( d ):
dK()
dL()= π
Para CSR, L ( d ) = d , y L ( d ) - d = 0. Se estima un intervalo de confianza del 95% para CSR utilizando 1000 Monte Carlo
simulaciones dentro del rectángulo delimitador (las versiones anteriores usaban la aproximación 42,1 n / A ).
232
Página 233
Se incluye la corrección de borde de Ripley, que da pesos a los recuentos según la proporción de la prueba
círculo que está dentro del dominio rectangular.
El ejemplo anterior muestra la ubicación de las tuberías volcánicas. L ( d ) - d está por debajo del intervalo de confianza del 95% de
CSR, que indica inhibición lateral, hasta una distancia de aprox. 70 m. Para distancias mayores, la curva se aplana
en la forma esperada de RSE.
Zona
Para el cálculo correcto de la K de Ripley , se debe conocer el área. En la primera ejecución, el área es
calculado utilizando el rectángulo delimitador más pequeño, pero esto puede sobrestimar o subestimar el valor real
zona. Por lo tanto, el usuario puede ajustar el área. Un área sobreestimada generalmente se mostrará como
una fuerte tendencia lineal general con pendiente positiva para L ( d ) - d .
Dimensión fractal
La dimensión fractal (si la hubiera) se puede estimar como la pendiente lineal asintótica en una gráfica log-log de K ( d ).
Para CSR, la pendiente log-log debe ser 2.0. Los fractales deben tener pendientes inferiores a 2.
Referencia
Ripley, BD 1979. Pruebas de "aleatoriedad" para patrones de puntos espaciales. Diario de la estadística real
Sociedad, ser. B 41: 368-374.
233
Página 234
Análisis de correlación de longitud
El análisis de correlación de longitud (Cartwright & Whitworth 2004; Cartwright et al. 2011) investiga la
distribución espacial de un patrón de puntos a diferentes escalas, y es una alternativa a K de Ripley.
Se esperan columnas de coordenadas x / y en un dominio rectangular. CLA es simplemente un histograma de todos
distancias por pares entre puntos, es decir, un total de N (N-1) / 2 distancias (curva negra).
La curva esperada de un patrón de puntos aleatorios (curva azul) y su intervalo de confianza del 95% (rojo
curvas) se calculan a partir de 1000 simulaciones Monte Carlo de aleatoriedad espacial completa (CSR) en un
rectángulo de las mismas dimensiones que el rectángulo delimitador de los datos originales. Por lo tanto, distancias
donde la curva CLA de los datos (curva negra) excede la curva roja superior, han
frecuencias más altas de lo esperado de un patrón aleatorio.
Una prueba de significancia general se basa en la distancia media total observada en comparación con la
distancia media esperada de las simulaciones de Monte Carlo.
El usuario puede configurar el número de contenedores y debe ser pequeño para reducir el ruido, pero lo suficientemente grande para
capturar detalles.
La opción "Residual" aplana las curvas en la media esperada (curva azul), es decir, la media esperada
se resta de las curvas en todas las distancias. Esto puede hacer que la figura sea más clara, especialmente cuando
el intervalo de confianza es estrecho.
Una comparación entre K de Ripley y el análisis de longitud de correlación para un conjunto de datos geológicos viene dada por
Cartwright y col. (2011).
Referencias
Cartwright, A. & Whitworth, AP 2004. El análisis estadístico de los cúmulos estelares. Avisos mensuales del
Royal Astronomical Society 348: 589-597
Cartwright, A., Moss, J. & Cartwright, J. 2011. Nuevos métodos estadísticos para investigar submarinos
marcas de viruela. Computadoras y geociencias 37: 1595-1601.
234
Página 235
Análisis mínimo del árbol de expansión
El análisis de árbol de expansión mínima (Cartwright y Whitworth 2004; Cartwright et al. 2011) investiga
la distribución espacial de un patrón de puntos con enfoque en escalas pequeñas, comparable al vecino más cercano
análisis pero con propiedades algo diferentes. Dos columnas de coordenadas x / y en un rectángulo
Se esperan dominios. El método se basa en un histograma de todas las longitudes de los segmentos de línea en el
árbol de expansión mínimo (MST). El propio MST se puede trazar en el módulo de gráfico XY (menú Trazar).
La curva esperada de un patrón de puntos aleatorios (curva azul) y su intervalo de confianza del 95% (rojo
curvas) se calculan a partir de 1000 simulaciones Monte Carlo de aleatoriedad espacial completa (CSR) en un
rectángulo de las mismas dimensiones que el rectángulo delimitador de los datos originales. Por lo tanto, segmentar
longitudes donde el histograma de los datos (curva negra) excede la curva roja superior, tienen
frecuencias significativamente más altas de lo esperado de un patrón aleatorio.
Una prueba de significancia general se basa en la longitud media total observada en comparación con la
longitud media de las simulaciones de Monte Carlo.
El usuario puede configurar el número de contenedores y debe ser pequeño para reducir el ruido, pero lo suficientemente grande para
capturar detalles.
La opción "Residual" aplana las curvas en la media esperada (curva azul), es decir, la media esperada
se resta de las curvas en todas las distancias. Esto puede hacer que la figura sea más clara, especialmente cuando
el intervalo de confianza es estrecho.
Una comparación entre el vecino más cercano y el análisis de árbol de expansión mínimo para datos geológicos
El conjunto está dado por Cartwright et al. (2011).
Referencias
Cartwright, A. & Whitworth, AP 2004. El análisis estadístico de los cúmulos estelares. Avisos mensuales del
Royal Astronomical Society 348: 589-597
Cartwright, A., Moss, J. & Cartwright, J. 2011. Nuevos métodos estadísticos para investigar submarinos
marcas de viruela. Computadoras y geociencias 37: 1595-1601.
235
Página 236
Densidad de grano
Crea un mapa uniforme de densidad de puntos en 2D. Dos columnas de coordenadas x / y en un dominio rectangular
son esperados. El usuario puede especificar el tamaño de la cuadrícula (número de filas y columnas). El "radio"
value establece la escala r del kernel. Actualmente no hay una selección automática de radio "óptimo", por lo que
este valor debe ser establecido por el usuario en función de la escala de interés.
La estimación de la densidad se basa en una de las cuatro funciones del núcleo, con el parámetro de radio r . Con
reyo = (xx- ) (+
yo
2
aa- )
yo
2:
1 ⎛ reyo2 ⎞
Gaussiano (predeterminado): ,F()yx = ∑ Exp││- │
2 │
πr 2 yo ⎝ 2r ⎠
⎧ reyo2
3 │1 - rdyo ≤
Paraboloide: ,F()
yx = ∑ ⎨ r2
2πr yo │ 0
2
⎩ reyo > r
⎧
2 │ - reyo reyo ≤ r
Triangular: ,F()yx = ∑ ⎨1 r
πr 2 yo │
⎩ 0 reyo > r
⎧1 reyo ≤ r
Uniforme: ,F()yx = 1 ∑⎨
πr 2 yo ⎩0 reyo > r
236
Página 237
La escala proporciona una estimación del número de puntos por área, no una densidad de probabilidad. los
los núcleos gaussianos y paraboloides (cuadráticos) suelen funcionar mejor. El grano uniforme da muy bajo
suavidad.
Alineaciones de puntos
Detección de alineaciones lineales en un patrón de puntos 2D, utilizando el método de sector continuo (Hammer
2009). Las aplicaciones típicas son en geología y geografía, para estudiar la distribución de terremotos,
volcanes, manantiales, etc. asociados con fallas y otras estructuras lineales.
El parámetro Radio establece la escala de análisis. En el ejemplo anterior, lineamientos de 1200 m de longitud
(el doble del radio) se detectan.
Alpha establece el nivel de significancia para la prueba de Rayleigh utilizada por el procedimiento. Tenga en cuenta que esta es una
significancia puntual, no corregida para la prueba múltiple de todos los puntos.
El filtro de dispersión desactiva las alineaciones con distribución desigual de puntos a lo largo del alineamiento.
Los números de vista enumeran las posiciones de alineación y sus orientaciones, que pueden someterse a
estadísticas si es necesario (módulo de direcciones).
Referencia
Martillo, Ø. 2009. Nuevos métodos para la detección estadística de alineaciones de puntos. Ordenadores &
237
Página 238
Recuentos de cuadrantes
Este módulo proporciona estadísticas sobre la distribución de puntos en cuadrantes. Los datos de entrada consisten en un
columna única de recuentos de puntos en cuadrantes de igual tamaño (el orden es arbitrario). Por un punto al azar
patrón, se espera que los datos sigan una distribución de Poisson.
Se espera que el índice de Morisita (Morisita 1959) tenga un valor Id = 1 para un patrón aleatorio, Id <1 para un
patrón sobredispersado (espaciado) e Id > 1 (hasta Id = n ) para un patrón agrupado. Se calcula como
sigue:
∑X -∑X ,
2
yo∂ = norte
()∑ ∑X - X 2
donde n es el número de cuadrantes yx son los recuentos. La prueba de significancia sigue a Morisita
(1959), con relación F
yo∂ (∑ X - 1)+ norte

-∑X
F0 = .
-1
norte
Los grados de libertad son n -1 y ∞. Además, se realiza una prueba de Monte Carlo con 9999
réplicas, cada una con distribución aleatoria de puntos en cuadrantes.
Los límites de confianza del 95% (inferior y superior) alrededor de Id = 1 (patrón aleatorio) se denominan uniforme
y los índices agrupados, respectivamente (Krebs 1999):
+∑X
χ 2975,0 - norte
Mu =
∑ X- 1
+∑X
χ 2025.0 - norte
Mc =
∑ X-1
donde χ 2
0.975 es el punto percentil 97.5 de la distribución chi-cuadrado con n -1 grados de libertad.
Smith-Gill (1975) sugirió el Índice Morisita Estandarizado, MIS . Va de -1 a 1, con

MIS = 0 para un patrón aleatorio y con límites de confianza del 95% [-0,5, 0,5]. Se calcula de la siguiente manera:
MI -
>:1
yoδ ≥ METRO MAL = 5.05.0
+ δ C
C
-
Minnesota
C
yoδ - 1
> yoδ ≥ : 1
METRO MAL = 5,0 (esta ecuación es incorrecta en algunos artículos)
C
METRO
C
-1
yoδ - 1
1 > yoδ > METRO
tu : MAL = - 5,0
METRO
tu
-1
238
Página 239
MI -
1 > METRO> yoδ : MAL = - 5.05.0
+ δ tu
tu
METRO
tu
Referencias
Krebs, CJ 1999. Ecological Methodology, 2ª ed. Editores Benjamin Cummings.
Morisita, M. 1959. Medición de la dispersión de individuos y análisis de la distribución

patrones. Memorias de la Facultad de Ciencias, Universidad de Kyushu, Serie E (biología) 2: 215-235.
Smith-Gill, SJ 1975. Base citofisiológica de patrones pigmentarios disruptivos en la rana leopardo,

Rana pipiens . II. Patrones específicos de células mutantes y de tipo salvaje. Revista de morfología 146: 35–54.
Autocorrelación espacial (I de Moran)
Autocorrelación espacial en el pasado requiere tres columnas, que contienen X e Y las coordenadas y
valores de datos correspondientes z para varios puntos. La estadística de correlación I de Moran es entonces
calculados dentro de cada una de una serie de clases de distancia (bins), que van desde distancias pequeñas a grandes.
El valor crítico de una cola para p <0.05 se puede trazar para cada contenedor. Los valores I de Moran superan el
El valor crítico puede considerarse significativo, pero Bonferroni u otro ajuste para pruebas múltiples
debe considerarse debido a los varios contenedores.
239
Página 240
El cálculo sigue a Legendre y Legendre (1998). Para cada clase de distancia d , calcule
norte norte
1 ( )( )
- -
dI() = W ∑∑1 zzzzw

Hola h yo
h = 1 yo= 1
norte
.
∑ (zz - ) yo
2
norte
yo= 1
Aquí, n es el número total de puntos, W es el número de pares de puntos que tienen distancias dentro del
clase distancia, y w hi una función de ponderación de tal manera que w hi = 1 si los puntos h y i se encuentran dentro de la clase de distancia
y w hi = 0 en caso contrario (delta de Kronecker). Tenga en cuenta que esta ecuación es incorrecta en algunas publicaciones.
Para el nivel crítico de una cola I 0.05 , calcule
norte norte
1
S1 = ∑∑ (w Hola
+ w eh )2
2 h = 1 yo= 1
norte
S2 = ∑ (w +
yo
+ w + yo)2
yo= 1
norte
∑ (zzyo -
norte ) 4
=
segundo
2
yo= 1
2
⎛ norte ⎞
│∑ (zzyo - )2
│
⎝ yo= 1 ⎠
nn [( 2
- 3 norte )
+ 3 S 1 - nS 2 + 3W 2 - nótese 2
- Sn
bien ]( [ ) - 2 nS 2 + 6W 2
]- 1
Var ()
yo =
2 1
(norte
- 1 ) norte
( - 2 ) norte
( - 3 )W 2 (norte
- 1)2
Var () (norte
- 1)
-
yo05.0 = .1 6452 kI - 05.0
1
Aquí w i + y w + i son las sumas de filas y columnas. El factor de corrección k 0.05 se establece en
∙ = 707,0 - Wn< ) ( - 3 norte
≤ 24 norte + , de )
1 lo contrario k 0.05 = 1.
(
05.010 4 norte
si
Referencia
Legendre, P. y Legendre, L. 1998. Ecología numérica, 2ª ed. Inglesa. Elsevier, 853 págs.
240
Página 241
Gridding (interpolación espacial)
"Gridding" es la operación de interpolación espacial de puntos de datos 2D dispersos en una grilla regular.
Se requieren tres columnas con la posición (x, y) y los valores de datos correspondientes.
Gridding permite la producción de un mapa que muestra una estimación espacial continua de alguna variante como
como abundancia fósil o espesor de una unidad de roca, según puntos de datos dispersos. El usuario puede especificar
el tamaño de la cuadrícula (número de filas y columnas). Se genera la cobertura espacial del mapa
automáticamente como un cuadrado que cubre los puntos de datos. Al trazar, esto se puede reducir al convexo
casco de las puntas.
Una superficie lineal de mínimos cuadrados (tendencia) se ajusta automáticamente a los datos y se elimina antes de la cuadrícula.
y finalmente se vuelve a agregar. Esto es principalmente útil para el modelado de semivariogramas y el kriging
método.
Validación cruzada : esta opción eliminará cada punto de datos a su vez y volverá a calcular la superficie según
en los puntos restantes ("navaja"). Las diferencias entre los valores de los datos originales y los
Los valores validados indican la precisión de predicción del modelo de superficie. Estas diferencias son
reportado para cada punto, junto con el error cuadrático medio (MSE) sobre todos los puntos.
Hay cuatro algoritmos de interpolación disponibles:
Ponderación de distancia inversa

El valor en un nodo de la cuadrícula es simplemente el promedio de los N puntos de datos más cercanos, según lo especificado por el usuario
(el valor predeterminado es utilizar todos los puntos de datos). Los puntos se ponderan en proporción inversa a la distancia. Esta
El algoritmo es rápido pero no siempre dará buenos (fluidos) resultados. Un artefacto típico son los "ojos de buey"
alrededor de los puntos de datos. Una ventaja es que los valores interpolados nunca excederán el rango de la
241
Página 242
puntos de datos. Al establecer N = 1, este algoritmo se reduce al método del vecino más cercano , que establece el
valor en un nodo de la cuadrícula al valor del punto de datos más cercano.
Ranura de placa delgada

Interpolador de máxima suavidad. Puede sobrepasar en presencia de curvas pronunciadas en la superficie. Esto es un
método de base radial con función de base radial φ = r ln r .
Multicuadric
Función de base radial φ = r . Popular para el modelado de terrenos.
Kriging
El usuario debe especificar un modelo para el semivariograma, eligiendo uno de los cuatro
modelos y parámetros correspondientes para ajustar las semivarianzas empíricas (la suma residual de cuadrados
debe ser lo más pequeño posible). El semivariograma se calcula dentro de cada uno de varios contenedores.
Usando la opción de histograma, elija un número de bins para que cada bin (excepto posiblemente el más a la derecha
unos) contiene al menos 30 distancias.
El parámetro nugget es una constante agregada al modelo. Implica una varianza distinta de cero en cero
distancia, y por lo tanto permitirá que la superficie no pase exactamente a través de los puntos de datos dados. los
rango controla la extensión de la curva a lo largo del eje de distancia. En las ecuaciones siguientes, el
el valor de distancia normalizado h representa la distancia / rango . La escala controla la extensión de la curva.
a lo largo del eje de varianza.
⎧ ⎛ ⎞
│pepita + escala│3 h - 1 h 3 │ h < 1
Esférico : γ ()
h =⎨ ⎝2 2 ⎠
│
⎩ pepita + escala h≥1
h = pepita + escala(1 - mi
γ () )
-
Exponencial : h
Gaussiano : γ () -h
h = pepita + escala1 - mi ( ) 2
⎧ + escala(7 h 2 - 75,8 h 3 + 5.3 h 5 - 75,0 h 7 ) h < 1

Cúbico : γ ()h = ⎨pepita
⎩ pepita + escala h≥1
El botón "Optimizar todo" seleccionará el modelo y los parámetros que den la suma residual más pequeña de
cuadrados en el semivariograma. Puede que esto no sea lo que desea: por ejemplo, es posible que desee utilizar un
modelo específico o tener nugget cero para asegurar una interpolación exacta. Esto requerirá configuración
los valores manualmente.
El procedimiento de kriging también proporciona una estimación de los errores estándar en el mapa (esto depende de
siendo exacto el modelo de semivariograma). Kriging en PAST no proporciona anisotrópicos
semivarianza.
Advertencia: Kriging es lento, no lo intente durante más de ca. 1000 puntos de datos en una cuadrícula de 100x100.
242
Página 243
Véase, por ejemplo, Davis (1986) o de Smith et al. (2009) para obtener más información sobre la cuadrícula.
Referencias
de Smith, MJ, MF Goodchild y PA Longley. 2009. Análisis geoespacial, 3ª ed. Matador.
243
Página 244
Alometría multivariante AÚN NO EN LOS ÚLTIMOS 3
Este módulo se utiliza para investigar la alometría en un conjunto de datos morfométricos multivariados. Espera un
conjunto de datos multivariados con variables (medidas de distancia) en columnas, muestras en filas.
Este método para investigar la alometría en un conjunto de datos multivariados se basa en Jolicoeur (1963) con
extensiones de Kowalewski et al. (1997) . Los datos se transforman (automáticamente) logarítmicamente y se someten
a PCA. El primer componente principal (PC1) se considera entonces como un eje de tamaño (esto solo es válido si el
la variación representada por PC1 es grande, digamos más del 80%). El coeficiente alométrico para cada
La variable original se estima dividiendo la carga de PC1 para esa variable por la carga media de PC1
sobre todas las variables.
Los intervalos de confianza del 95% para los coeficientes alométricos se estiman mediante muestras de arranque.
Se realizan 2000 réplicas de bootstrap.
Referencias
Jolicoeur, P. 1963. La generalización multivariante de la ecuación alométrica. Biometrics 19: 497-499.
Kowalewski, M., E. Dyreson, JD Marcot, JA Vargas, KW Flessa y DP Hallmann. 1997. Phenetic

discriminación de simplones biométricos: implicaciones paleobiológicas de morfoespecies en la lingulida
braquiópodo Glottidia . Paleobiología 23: 444-469.
244
Página 245
PCA de puntos de referencia 2D (deformaciones relativas)
Este módulo es muy similar al módulo PCA estándar, pero con algunas funciones adicionales para
analizar configuraciones de puntos de referencia 2D. Los datos esperados son ejemplares en filas, alternando X y Y
coordenadas en columnas. Se recomienda la estandarización de Procrustes.
Las deformaciones relativas (componentes principales) se ordenan según su importancia, y la primera y

los segundos warps suelen ser los más informativos. Tenga en cuenta que este módulo hace un PCA sencillo de
los puntos de referencia, lo que significa que el componente afín se incluye en el análisis.
Las deformaciones relativas se visualizan con vectores y / o rejillas de transformación de splines de placa delgada. Cuando
aumenta o disminuye el factor de puntuación desde cero, la configuración original del punto de referencia y
la cuadrícula se deformará progresivamente de acuerdo con la deformación relativa seleccionada. Los vectores se extraen de
la media a la posición de referencia deformada (punto).
245
Página 246
Splines de placa delgada para puntos de referencia 2D
Este módulo muestra una deformación de la forma de una configuración de referencia a otra. Lo esperado
los datos son ejemplares en filas alternas, X e Y las coordenadas de las columnas. Estandarización de Procrustes
recomendado.
Cualquier forma seleccionada en el menú "Desde forma" se toma como referencia, con un cuadrado asociado
cuadrícula. Se pueden ver las deformaciones de este a todos los demás especímenes. También puedes elegir la forma media
como referencia.
La opción 'Factores de expansión' mostrará el factor de expansión (o contracción) del área alrededor de cada
hito en números amarillos, que indica el grado de crecimiento local. Esto se calcula usando el
Jacobiano de la urdimbre. Además, las expansiones están codificadas por colores para todos los elementos de la cuadrícula, con verde para
expansión y violeta para contracción.
En cada hito, también se pueden mostrar las cepas principales, con la cepa mayor en negro y menor
cuele en marrón. Estos vectores indican estiramiento direccional.
Dryden y Mardia (1998) ofrecen una descripción de las rejillas de transformación de placas delgadas .
Referencia
Regresión lineal de puntos de referencia 2D
Espera especímenes en filas, con una sola columna de datos independientes (por ejemplo, tamaño) seguida de pares de
columnas con posiciones de hito equipadas con Procrustes. La salida incluye rejillas de deformación y
vectores de desplazamiento, extraídos de la media a las posiciones de referencia deformadas (puntos).
246
Página 247
Análisis de componentes alométricos comunes para puntos de referencia 2D
El análisis de componentes alométricos comunes (CAC) para puntos de referencia fue sugerido por primera vez por Mitteroecker et
Alabama. (2004). El principio es simple y lógico: haga una regresión lineal de la forma en función del tamaño (el
componente alométrico) y luego un PCA en los residuos (los componentes de forma residual). los
los datos requeridos son una columna de tamaños, seguida de pares de columnas que contienen xy ajustado por Procrustes
coordenadas de los puntos de referencia. Los datos se pueden obtener de los puntos de referencia originales utilizando el
Función “Transformar-> Puntos de referencia-> Procrustes” y seleccionar “Añadir columna de tamaño”. Una característica final de
El análisis CAC es que si se especifican grupos, los datos se centran en las medias del grupo antes de
análisis, eliminando eficazmente la variación entre grupos.
X es la matriz n x m de coordenadas de forma (ajustadas por Procrustes), centradas en las medias del grupo. s es el n-
vector con el logaritmo del tamaño del centroide (en Pasado también puede optar por omitir la transformación logarítmica de
Talla). El vector del "componente alométrico común" es
a = ( X t s ) / ( s t s ),
normalizado como a ' = a / √ a t a . Este componente alométrico común se proyecta para producir una reducción
matriz de datos
W = X ( I - a ' ( a' ) t ).
Los componentes principales de W constituyen los componentes de forma residual. En el pasado, puedes producir
diagramas de dispersión de puntuaciones en el componente alométrico común y los componentes de forma residual,
y las deformaciones de los puntos de referencia a lo largo de todos los componentes se pueden visualizar utilizando desplazamientos vectoriales y
rejillas estriadas de placa delgada, en relación con la forma media.
Referencia
Mitteroecker, P., Gunz, P., Bernhard, M., Schaefer, K., Bookstein, FL 2004. Comparación de
trayectorias ontogenéticas entre grandes simios y humanos. Journal of Human Evolution 46: 679-698.
247
Página 248
PCA de puntos de referencia 3D
Muestras en filas, puntos de referencia 3D en tripletes de columnas (primero deben ajustarse Procrustes). los
El módulo es similar al módulo PCA estándar, pero permite la visualización de los componentes principales.
como vectores 3D (flechas) alejados de la configuración media.
Regresión lineal de puntos de referencia 3D
Espera muestras en filas, con una sola columna de datos independientes (por ejemplo, tamaño) seguida de tripletes
de columnas con posiciones de hito equipadas con Procrustes. La salida incluye un gráfico 3D del desplazamiento
vectores, extraídos de la media a las posiciones de referencia deformadas.
Análisis de componentes alométricos comunes para puntos de referencia 3D
Consulte más arriba para obtener una descripción de CAC para puntos de referencia 2D. Espera especímenes en filas, con un solo
columna de tamaños seguida de tripletes de columnas con posiciones de hito ajustadas por Procrustes. En esto
módulo, los vectores de desplazamiento se pueden visualizar en 3D.
248
Página 249
El tamaño de los puntos de referencia (2D o 3D) AÚN NO ESTÁ EN EL PASADO 3
Digitized x / y o x / y / z coordenadas señal. Muestras en filas, coordenadas alternando xey

(yz para 3D) valores en columnas. ¡No debe ajustarse ni normalizarse el tamaño de Procrustes!
Calcula el tamaño del centroide para cada espécimen (norma euclidiana de las distancias desde todos los puntos de referencia hasta
el centroide).
Los valores en la columna 'Normalizado' son tamaños de centroides divididos por la raíz cuadrada del número de
puntos de referencia: esto puede ser útil para comparar especímenes con diferentes números de puntos de referencia.
Normalizar tamaño
La opción 'Normalizar tamaño' en el menú Transformar le permite eliminar el tamaño dividiendo todo
coordinar los valores por el tamaño del centroide para cada espécimen. Para datos 2D, puede usar
Procrustes coordenadas, que también están normalizadas con respecto al tamaño.
Véase Dryden y Mardia (1998), pág. 23-26.
Referencia
249
Página 250
Distancia desde puntos de referencia (2D o 3D) AÚN NO HAY EN EL PASADO 3

(yz para 3D) valores en columnas. Puede que Procrustes se ajuste o normalice o no para el tamaño.
Calcula las distancias euclidianas entre dos puntos de referencia fijos para uno o varios especímenes. Tú
debe elegir dos puntos de referencia: estos se nombran de acuerdo con el nombre de la primera columna para el
hito ( valor x ).
Todas las distancias desde puntos de referencia (EDMA) AÚN NO HAN PASADO 3
(yz para 3D) valores en columnas. Puede que Procrustes se ajuste o normalice o no para el tamaño.
Esta función reemplazará los datos de los puntos de referencia en la matriz de datos con un conjunto de datos que consta de distancias
entre todos los pares de puntos de referencia, con un espécimen por fila. El número de pares es N (N-1) / 2 para N
puntos de referencia. Esta transformación permitirá el análisis multivariado de datos de distancia, que no son
sensible a la rotación o traslación de las muestras originales, por lo que un ajuste Procrustes no es obligatorio
antes de tal análisis. El uso de datos de distancia también permite la transformación logarítmica y el análisis del ajuste al
ecuación alométrica para pares de distancias.
Editar líneas / polígonos de referencia
Esta función en el menú Geometría en Marcas (2D) y Marcas (3D) permite la selección
de puntos de referencia que se vincularán con líneas en las parcelas morfométricas (PCA, splines de placa delgada, etc.), para
mejorar la legibilidad. Los puntos de referencia deben estar presentes en la hoja de cálculo principal antes de que los enlaces puedan ser
definido.
La ventana contiene una lista de líneas o polígonos cerrados. En el siguiente ejemplo, el usuario ha especificado
un polígono (que consta de cuatro puntos de referencia) y una línea (dos puntos de referencia). Haga clic en un punto de referencia y
presione la tecla Eliminar para eliminarlo de la lista. Los datos se escribirán en el archivo Pasado cuando se guarden.
250
Página 251
Análisis de forma elíptica de Fourier
Requiere coordenadas x / y digitalizadas alrededor de los contornos. Muestras en filas, coordenadas de x alterna
y y valores de las columnas. El análisis de forma elíptica de Fourier es en varios aspectos superior al simple
Análisis de forma de Fourier. Una ventaja es que el algoritmo puede manejar formas complicadas que
puede no ser expresable como función única en coordenadas polares. Las formas elípticas de Fourier son ahora un
método estándar de análisis de esquemas. El algoritmo utilizado en PAST es descrito por Ferson et al. (1985) .
Coeficientes EFA
Coseno y componentes sinusoidales de x y Y incrementos a lo largo del contorno de los primeros 30 armónicos se
dado, pero solo deben usarse los primeros N / 2 armónicos, donde N es el número de puntos digitalizados.
El tamaño y la traslación posicional se normalizan y no entran en los coeficientes. El tamaño
(antes de la normalización) se da en la primera columna. La estandarización opcional para rotación o
punto de partida, siguiendo a Ferson et al., a veces cambia las formas. Esto debe comprobarse con
la 'Vista de forma' (ver más abajo) - puede ser necesario quitar tales muestras.
Los coeficientes se pueden copiar a la hoja de cálculo principal para un análisis posterior, como discriminante
análisis.
La ventana 'Vista de forma' permite la visualización gráfica de la (s) aproximación (es) de forma elíptica de Fourier.
EFA PCA
Análisis de componentes principales de los coeficientes EFA de los esquemas dados, con visualización de los
componentes principales como deformaciones EFA. Para obtener más detalles sobre PCA en el pasado, consulte la descripción de
PCA.
Referencia
Ferson, SF, FJ Rohlf y RK Koehn. 1985. Midiendo la variación de forma de contornos bidimensionales.
Zoología sistemática 34: 59-68.
251
Página 252
Análisis de forma de Hangle Fourier
Requiere coordenadas x / y digitalizadas alrededor de los contornos. Muestras en filas, coordenadas de x alterna
y y valores de las columnas.
El método "Hangle" para analizar contornos cerrados, propuesto por Haines & Crampton (2000) es un
competidor del Análisis Elíptico de Fourier. Hangle tiene ciertas ventajas sobre EFA, la más importante
siendo que se necesitan menos coeficientes para capturar el contorno con una precisión dada. Esto es de
importancia para las pruebas estadísticas (por ejemplo, MANOVA) y el análisis discriminante. La implementación en
Past se basa en el paquete Hangle / Hmatch / Htree / Hshape de Haines & Crampton (gracias al
autores por proporcionar el código fuente).
La salida consta de 46 coeficientes de Fourier, que son los coeficientes cos y sen de los primeros 24
armónicos (modos), comenzando en el armónico número 2. Copie estos números en una hoja de cálculo anterior
para un análisis de forma multivariante adicional.
Normalización del punto de partida

Por lo general, deje en 'Match all', ya sea con el método 'Hmatch' o (quizás preferiblemente) el método 'Htree' para
alinear todos los contornos. Alternativamente, seleccione 2.-4. armónico, que cambiará de fase cada contorno
según el modo seleccionado (consulte Haines & Crampton 2000).
Suavizado
El aumento del parámetro de suavizado puede reducir el ruido de alta frecuencia, a costa de amortiguar
información de forma de alta frecuencia potencialmente informativa.
Vista de forma
Utilice esta función para inspeccionar las formas reconstruidas a partir de los coeficientes de Fourier. Compruebe que el
La rutina de coincidencia no ha girado ninguna forma de forma incorrecta. Además, use esta función para seleccionar el mínimo
número de modos necesarios para capturar la forma. En un ejemplo, el número de modos se ha
establecido en 14, que captura el 99,88% de la potencia integrada total (amplitud al cuadrado) del seleccionado
forma. El número de modos se muestra con la línea roja en el espectro de potencia; asegúrese de que el
las características principales del espectro están a la izquierda de esta línea para todas las formas.
Nota : La visualización y regresión de PCA (como para EFA) aún no se ha implementado para Hangle.
Referencia
Haines, AJ y JS Crampton. 2000. Mejoras en el método de análisis de formas de Fourier aplicado

en estudios morfométricos. Paleontología 43: 765-783
252
Página 253
Transformación de coordenadas
Conversión entre coordenadas geográficas en diferentes cuadrículas y datums. El número de entrada

columnas depende del tipo de datos, como se describe a continuación.
Grados decimales (WGS84)
Dos columnas: latitud y longitud, en grados decimales (60,5 son 60 grados, 30 minutos). Negativo
valores para el sur del ecuador y el oeste de Greenwich. Referenciado al datum WGS84.
Grados / minutos decimales (WGS84)
Cuatro columnas: grados de latitud, minutos decimales (40,5 son 40 minutos, 30 segundos), longitud
grados, minutos decimales. Referenciado al datum WGS84.
Grados / min / seg (WGS84)
Seis columnas: grados de latitud, minutos, segundos, grados de longitud, minutos, segundos. Referenciado a
el datum WGS84.
UTM-ED50 (Internacional 1924)
Tres columnas: este (metros), norte (metros) y zona. Utilice números de zona negativos para
hemisferio sur. El manejo de zonas UTM tiene en cuenta los casos especiales de Svalbard
y el oeste de Noruega. Referenciado al datum europeo ED50 en Potsdam.
UTM-WGS84 (WGS84)
Tres columnas: este (metros), norte (metros) y zona. Referenciado al datum WGS84.
UTM-NAD27 (Clarke 1866)
Tres columnas: este (metros), norte (metros) y zona. Referenciado al dato NAD27.
La conversión a / desde este formato es ligeramente imprecisa (5-6 metros).
UTM-NAD83 (GRS80)
Tres columnas: este (metros), norte (metros) y zona. Referenciado al datum NAD83
(prácticamente idéntico a WGS84).
Suecia (RT90)
Dos columnas: Este (metros) y Norte (metros).
Las transformaciones se basan en código proporcionado generosamente por I. Scollar.
253
Página 254
Abrir mapa de calles
Toma dos columnas de latitudes y longitudes en grados decimales (WGS84) y muestra un

Ventana de mapa de calles con las coordenadas dadas como: Puntos con símbolos tomados del pasado
hoja de cálculo, polígonos rellenos o líneas de varios segmentos. Para polígonos y líneas, el color se toma de
el color de la fila del primer punto. Utilice una columna de grupo adicional para especificar varios polígonos o líneas.
Se puede utilizar una tercera columna opcional para especificar el tamaño de las burbujas (radio en km) o el grosor de
líneas (píxeles).
Este módulo requiere conexión a Internet.
254
Página 255
Menú de estratigrafía
Asociaciones unitarias
El análisis de asociaciones unitarias (Guex 1991) es un método de correlación bioestratigráfica (ver Angiolini
& Bucher 1999 para una aplicación típica). La entrada de datos consiste en una matriz de presencia / ausencia con
muestras en filas y taxones en columnas. Las muestras pertenecientes a la misma sección (localidad) deben ser
asignados al mismo grupo, y ordenados estratigráficamente dentro de cada sección de modo que el
la muestra más baja entra en la fila más baja.
Resumen del método
El método de las Asociaciones Unitarias es lógico, pero bastante complicado, y consta de una serie de
pasos. Para obtener más detalles, consulte Guex (1991 ). La implementación en PAST incluye la mayoría de las características encontradas
en el programa original, llamado BioGraph (Savary & Guex 1999), y gracias a una fructífera cooperación
con Jean Guex también incluye una serie de opciones y mejoras adicionales.
La idea básica es generar una serie de zonas de ensamblaje (similares a las 'zonas de Oppel') que son
óptimo en el sentido de que dan máxima resolución estratigráfica con un mínimo de
contradicciones superposicionales. Un ejemplo de tal contradicción sería una sección que contiene una
especie A sobre una especie B, mientras que el conjunto 1 (que contiene la especie A) se coloca debajo del conjunto 2
(que contiene la especie B). PAST realiza los siguientes pasos:
255
Página 256
1. Horizontes máximos residuales
El método hace la suposición de rango a través, lo que significa que se considera que los taxones han sido
presente en todos los niveles entre la primera y la última aparición en cualquier sección. Entonces, cualquier muestra con un
Se descarta el conjunto de taxones que está contenido en otra muestra. Las muestras restantes se llaman
Horizontes máximos residuales . La idea detrás de este descarte de datos es que los taxones ausentes en el
Es posible que las muestras desechadas simplemente no se hayan encontrado aunque existieran originalmente. Ausencias
por lo tanto, no son tan informativos como las presencias.
2. Superposición y coexistencia de taxones
A continuación, todos los pares (A, B) de taxones se inspeccionan para determinar sus relaciones de superposición: A debajo de B, B debajo
A, A junto con B, o desconocido. Si A ocurre debajo de B en una localidad y B debajo de A en otra,
se consideran coexistentes aunque nunca se han encontrado juntos.
Las superposiciones y co-ocurrencias de taxones se pueden ver en el gráfico bioestratigráfico . En esto

gráfico, los taxones se codifican como números. Las co-ocurrencias entre pares de taxones se muestran en azul sólido
líneas. Las superposiciones se muestran como líneas rojas punteadas, con guiones largos desde el punto anterior.
taxón y guiones cortos del taxón que aparece a continuación.
Algunos taxones pueden aparecer en los llamados subgrafos prohibidos , que indican inconsistencias en su
relaciones de superposición. Dos de los varios tipos de tales subgráficos se pueden trazar en PASADO: C n
ciclos , que son ciclos de superposición (A-> B-> C-> A), y circuitos S 3 , que son inconsistencias de la
tipo 'A co-ocurre con B, C por encima de A y C por debajo de B'. Interpretaciones de tales subgráficos prohibidos
son sugeridos por Guex (1991).
256
Página 257
3. camarillas máximas
Las camarillas máximas son grupos de taxones concurrentes que no están contenidos en ningún grupo mayor de taxones concurrentes.
taxones. Las camarillas máximas son candidatas al estatus de asociaciones unitarias, pero estarán más lejos
procesado a continuación. En PASADO, las camarillas máximas reciben un número y también reciben el nombre de una
horizonte en el conjunto de datos original que es idéntico a, o está contenido en (marcado con un asterisco), el
camarilla máxima.
4. Superposición de camarillas máximas
Las relaciones de superposición entre las camarillas máximas se deciden inspeccionando el

relaciones de superposición entre sus taxones constituyentes, calculadas en el paso 2. Contradicciones
(algunos taxones de la camarilla A se encuentran debajo de algunos taxones de la camarilla B, y viceversa) se resuelven por
votar'. Las contradicciones entre camarillas se pueden ver en PASADO.
Las superposiciones y co-ocurrencias de camarillas se pueden ver en el gráfico de camarillas máxima . En esto
gráfico, las camarillas se codifican como números. Las co-ocurrencias entre pares de camarillas se muestran como sólidas
líneas azules. Las superposiciones se muestran como líneas rojas punteadas, con guiones largos desde el punto anterior.
camarilla y guiones
a continuación) cortos
pueden de como
verse la camarilla
líneas que aparece a continuación. Además, los ciclos entre camarillas máximas (ver
verdes.
5. Resolución de ciclos
A veces ocurrirá que las camarillas máximas ahora se ordenan en ciclos: A está por debajo de B, que es
por debajo de C, que está por debajo de A nuevamente. Esto es claramente contradictorio. El 'eslabón más débil' (superposicional
relación sustentada por la menor cantidad de taxones) en tales ciclos se destruye.
6. Reducción a camino único
En esta etapa, idealmente deberíamos tener un único camino (cadena) de relaciones de superposición entre
camarillas máximas, de abajo hacia arriba. Sin embargo, este no suele ser el caso, por ejemplo, si A y B son
por debajo de C, que está por debajo de D, o si tenemos caminos aislados sin ninguna relación (A por debajo de B y C
debajo de D). Para producir un solo camino, es necesario fusionar camarillas de acuerdo con reglas especiales.
7. Post-procesamiento de camarillas máximas
Finalmente, se llevan a cabo una serie de manipulaciones menores para 'pulir' el resultado: Generación del
propiedad de 'unos consecutivos', reinserción de co-ocurrencias virtuales residuales y superposiciones, y
compactación para eliminar cualquier camarilla no máxima generada. Para obtener detalles sobre estos procedimientos, consulte
Guex (1991). Por fin, ahora tenemos las Asociaciones Unitarias, que se pueden ver en PASADO.
257
Página 258
Las asociaciones unitarias tienen asociado un índice de similitud de una UA a la siguiente,

llamado D:
D i = | UA i -UA i-1 | / | UA i | + | UA i-1 -UA i | / | UA i-1 |
8. Correlación mediante las asociaciones unitarias
Las muestras originales ahora se correlacionan utilizando las asociaciones unitarias. Una muestra puede contener taxones
que lo coloca de forma única en una asociación unitaria, o puede carecer de taxones clave que puedan diferenciar
entre dos o más asociaciones unitarias, en cuyo caso sólo se puede dar un rango. Estas
las correlaciones se pueden ver en PASADO.
9. Matriz de reproducibilidad
Algunas asociaciones unitarias pueden identificarse en solo una o unas pocas secciones, en cuyo caso
considere fusionar asociaciones unitarias para mejorar la reproducibilidad geográfica (ver más abajo). los
Se debe inspeccionar la matriz de reproducibilidad para identificar tales asociaciones unitarias. Una UA que es
identificado de forma única en una sección se muestra como un cuadrado negro, mientras que los rangos de UA (como se indica en el
lista de correlaciones) se muestran en gris.
10. Gráfico de reproducibilidad y fusiones de AU sugeridas (biozonificación)
El gráfico de reproducibilidad (Gk 'en Guex 1991) muestra las superposiciones de asociaciones unitarias que
se observan realmente en las secciones. PAST reducirá internamente este gráfico a una ruta máxima única
(Guex 1991, sección 5.6.3), y en el proceso de hacerlo puede fusionar algunas AU. Estas fusiones son
258
Página 259
se muestra como líneas rojas en el gráfico de reproducibilidad. La secuencia de AU únicos y fusionados puede ser
visto como una biozonificación sugerida.
Funcionalidad especial
La implementación del método de Asociaciones Unitarias en PAST incluye una serie de opciones y
funciones que aún no se han descrito en la literatura. Si tiene preguntas sobre estos,
Contáctenos.
Referencias
Angiolini, L. y H. Bucher. 1999. Taxonomía y biocronología cuantitativa del guadalupiano.

braquiópodos de la Formación Khuff, sureste de Omán. Geobios 32: 665-699.
Guex, J. 1991. Correlaciones biocronológicas. Springer Verlag.
Savary, J. y J. Guex. 1999. Escalas biocronológicas discretas y asociaciones unitarias: descripción de

el programa informático BioGraph. Meomoires de Geologie (Lausana) 34.
259
Página 260
Escala de clasificación
Ranking-Scaling (Agterberg & Gradstein 1999) es un método para bioestratigrafía cuantitativa basado en
eventos en una serie de pozos o secciones. La entrada de datos consta de pozos en filas con un pozo por
fila y eventos (por ejemplo, DCP y / o DCP) en columnas. Los valores de la matriz son profundidades de cada
evento en cada pozo, aumentando hacia arriba (es posible que desee utilizar valores negativos para lograr esto).
Las ausencias se codifican como cero. Si solo se conoce el orden de los eventos, esto se puede codificar como creciente
números enteros (rangos, con posibles vínculos para eventos concurrentes) dentro de cada pozo.
La implementación de la escala de clasificación en PAST no es completa y los usuarios avanzados

se refirió a los programas RASC y CASC de Agterberg y Gradstein.
Resumen del método
El método de escalamiento de clasificación procede en dos pasos:
1. Clasificación
El primer paso de Ranking-Scaling es producir un ordenamiento estratigráfico único y completo de

eventos, incluso si los datos contienen contradicciones (evento A sobre B en un pozo, pero B sobre A en otro),
o ciclos más largos (A sobre B sobre C sobre A). Esto se hace por 'mayoría de votos', contando el número de
veces cada evento ocurre arriba, abajo o junto con todos los demás. Técnicamente, esto se logra
Preclasificación seguida por el método del heno modificado (Agterberg & Gradstein 1999) .
2. Escala
El análisis bioestratigráfico puede terminar con una clasificación, pero se puede obtener información adicional
estimar distancias estratigráficas entre los eventos consecutivos. Esto se hace contando el
número de relaciones de superposición observadas (A por encima o por debajo de B) entre cada par (A, B) de
eventos consecutivos. Un número reducido de contradicciones implica una gran distancia.
Algunas distancias calculadas pueden resultar negativas, lo que indica que el orden dado por el
El paso de clasificación no fue óptimo. Si esto sucede, los eventos se reordenan y las distancias se reordenan.
calculado para asegurar solo distancias positivas entre eventos.
RASC en PASADO
Parámetros
• Umbral de pozo: el número mínimo de pozos en los que debe ocurrir un evento para
incluido en el análisis
• Umbral de par: el número mínimo de veces que una relación entre los eventos A y B debe
ser observado para que el par (A, B) se incluya en el paso de clasificación
• Umbral de escala: umbral de par para el paso de escala
• Tolerancia: se utiliza en el paso de clasificación (ver Agterberg & Gradstein)
Clasificación
Se da el orden de los eventos después del paso de clasificación, con el primer evento al final de la lista.
La columna "Rango" indica incertidumbre en la posición.
260
Página 261
Escalada
Se da el orden de los eventos después del paso de escala, con el primer evento al final de la lista.
Para obtener una explicación de todas las columnas, consulte Agterberg y Gradstein (1999).
Distribución de eventos
Un gráfico que muestra el número de eventos en cada pozo, con los pozos ordenados según el número de
eventos.
Diagramas de dispersión
Para cada pozo, la profundidad de cada evento en el pozo se traza contra la secuencia óptima (después
escalada). Idealmente, los eventos deberían trazarse en una secuencia ascendente. Una línea de correlación (LOC) puede ser
ajustado a los datos. Primero se intenta un polinomio de segundo grado (parábola). Si el resultado
El polinomio no es monótono dentro del intervalo, los datos se ajustan a una línea recta.
Dendrograma
Gráfica de las distancias entre eventos en la secuencia escalada, incluido un dendrograma que puede ayudar
en zonificación.
Análisis de varianza
Para cada evento, esta función traza las desviaciones de la línea de correlación (ver arriba) en todos los
los pozos. Esto da una representación gráfica de la calidad bioestratigráfica de cada evento.
Referencia
Agterberg, FP y FM Gradstein. 1999. El método RASC para la clasificación y escalado de bioestratigráficos

Eventos. En: Proceedings Conference 75th Birthday CW Drooger, Utrecht, noviembre de 1997. Earth
Science Review 46 (1-4): 1-25.
261
Página 262
Optimización restringida (CONOP)
Tabla de profundidades / niveles, con pozos / secciones en filas y pares de eventos en columnas: DCP en columnas impares
y LAD en columnas pares. Eventos faltantes codificados con ceros.
PAST incluye una versión simple de Optimización restringida (Kemple et al. 1989 ). Tanto FAD como LAD
de cada taxón debe especificarse en columnas alternas. Usando el llamado recocido simulado, el
El programa busca una secuencia global (compuesta) de eventos que implica una cantidad mínima total de
extensión del rango (penalización) en los pozos / secciones individuales. Los parámetros para la optimización
El procedimiento incluye una temperatura de recocido inicial, el número de pasos de enfriamiento, la relación de enfriamiento
(porcentaje inferior a 100) y el número de intentos por paso. Para una explicación y
recomendaciones, ver Kemple et al. (1989) .
Las ventanas de salida incluyen el historial de optimización con la temperatura y la penalización en función de
paso de enfriamiento, la solución global compuesta y los rangos implicados en cada sección individual.
La implementación de CONOP en PAST se basa en un núcleo de optimización FORTRAN proporcionado por Sadler
y Kemple.
Referencia
Kemple, WG, PM Sadler y DJ Strauss. 1989. Un prototipo de solución de optimización restringida para
problema de correlación de tiempo. En Agterberg, FP & GF Bonham-Carter (eds), Aplicaciones estadísticas en
las Ciencias de la Tierra. Estudio Geológico de Canadá Documento 89-9: 417-425.
262
Página 263
Intervalos de confianza de rango
Estimación de los intervalos de confianza para la primera o última aparición o rango estratigráfico total, para uno
taxón.
Suponiendo una distribución aleatoria (Poisson) de horizontes fosilíferos, y dada la primera aparición
datum (nivel), datum de la última ocurrencia y número total de horizontes donde se encuentra el taxón, podemos
calcular los intervalos de confianza para el rango estratigráfico de un taxón (Strauss & Sadler 1989,
Marshall 1990).
No se necesitan datos en la hoja de cálculo. El programa preguntará el número de horizontes donde

se encuentra el taxón y los niveles o fechas de la primera y última aparición. Si es necesario, use valores negativos
para garantizar que el último dato de aparición tenga un valor numérico superior al de la primera aparición
dato. Los intervalos de confianza del 80%, 95% y 99% se calculan para el FAD considerado de forma aislada,
LAD considerado de forma aislada y el rango total.
El valor α es la longitud del intervalo de confianza dividido por la longitud del rango observado.
Para el caso de un único punto final:
α = (1 - C 1 )
- 1H -1 )
( -, 1
donde C 1 es el nivel de confianza y H el número de horizontes fosilíferos.
Para el caso del punto final conjunto (rango total), α se encuentra mediante la solución iterativa de la ecuación
C 2 = 121
- ( +α )(
- H -1 )
+ (21+ α )(
- H - )1
.
La suposición de distribución aleatoria, por supuesto, no se mantendrá en muchas situaciones reales.
Referencias
Marshall, CR 1990. Intervalos de confianza en rangos estratigráficos. Paleobiología 16: 1-10.
Strauss, D. y PM Sadler. 1989. Intervalos de confianza clásicos y estimaciones de probabilidad bayesiana para
extremos de los rangos de taxones locales. Geología matemática 21: 411-427.
263
Página 264
Intervalos de confianza de rango libre de distribución
Estimación de intervalos de confianza para primeras o últimas apariciones. Asume que no hay correlación
entre la posición estratigráfica y el tamaño de la brecha. La sección debe muestrearse continuamente. Espera uno
columna por taxón, con niveles o fechas de todos los horizontes donde se encuentra el taxón. Este método
(Marshall 1994) no asume una distribución aleatoria de horizontes fosilíferos. Requiere que
Se dan los niveles o fechas de todos los horizontes que contienen el taxón. El programa produce salidas superiores y
límites inferiores en las longitudes de los intervalos de confianza, utilizando una probabilidad de confianza del 95 por ciento,
para niveles de confianza del 50, 80 y 95 por ciento. Los valores que no se pueden calcular se marcan con un
asterisco (ver Marshall 1994).
Referencia
Marshall, CR 1994. Intervalos de confianza en rangos estratigráficos: relajación parcial del supuesto
de horizontes fósiles distribuidos al azar. Paleobiología 20: 459-469.
264
Página 265
Carta estratigráfica
Este módulo de trazado flexible puede producir registros de pozos y registros de secciones estratigráficas. Proporciona
múltiples parcelas, llamadas paneles, de diferentes tipos, lo que permite combinar, por ejemplo, biozonas,
Registros geoquímicos y geofísicos y diagrama de polen en una figura. La configuración de trazado es
guardado automáticamente en su archivo pasado junto con los datos en la hoja de cálculo.
Nota: este módulo está en construcción; espere errores y falta de funciones. Especialmente, no deberías
eliminar, agregar o reorganizar columnas mientras trabaja con un gráfico estratigráfico, esto causará
comportamiento impredecible.
La hoja de cálculo debe contener una o más columnas de niveles estratigráficos (típicamente niveles de metros),
y varias columnas de datos recopilados en los niveles dados. Al abrir el módulo verá un
página en blanco. Utilice el botón "Agregar panel" para agregar parcelas. Los botones de Zoom son útiles para navegar en
gráficos grandes.
Configuración global
Sobre el gráfico se encuentran los ajustes que afectan a todos los paneles. La altura del gráfico es la altura del
gráfico en píxeles. Los niveles Inferior y Superior son los límites verticales del gráfico. Los niveles son profundidades
La opción controla la orientación vertical: seleccione esta opción si sus niveles aumentan hacia abajo en la sección
o núcleo.
Configuración del panel
Estos son los ajustes que afectan a cada panel. El ancho es el ancho del panel en píxeles. Conjuntos de niveles
la columna que contiene los niveles verticales para cada punto de datos. El inicio y el final de los datos establecen el rango
265
Página 266
de columnas para los datos de este panel. A menudo, cada panel mostrará solo una serie de datos y luego Data
El inicio y el final de los datos deben ser idénticos.
Tipo establece el tipo de trazado (Línea, Puntos, Línea + puntos, Silueta, Barras, Apilado, Eje, Zonas).
El diagrama de huso se utiliza para ocurrencias fósiles (abundancias o presencia-ausencia).
La gráfica de Zonas muestra una sucesión estratigráfica de intervalos como biozonas, períodos o etapas (ver
el panel más a la izquierda en el ejemplo anterior). Los niveles representan los niveles basales de cada intervalo. Un
Se requiere un punto de datos adicional para la parte superior del último intervalo. Los datos deben ser una sola columna de tipo
'String', con los nombres de los intervalos. Unidades cronoestratigráficas como 'Precámbrico',
'Ordovícico', 'Ordovícico superior', 'Pliensbachiano' son reconocidos por el programa y serán graficados
utilizando los colores especificados por la Comisión Internacional de Estratigrafía.
266
Página 267
Scripting
Past incluye un lenguaje de scripting bastante rico, que le permite programar sus propios módulos tomando
ventaja de la interfaz de usuario anterior, el paquete de gráficos y las rutinas matemáticas y estadísticas. los
scripter ya es completamente funcional, pero se ampliará sustancialmente en versiones futuras.
Estructura del lenguaje
Los scripts están escritos en sintaxis estilo Pascal. Los elementos fundamentales del lenguaje son:
start .. end constructor

declaraciones de procedimiento y función
si .. entonces .. else constructor
for .. to .. do .. step constructor
mientras .. hacer constructor
repetir .. hasta constructor
prueba .. excepto y prueba .. finalmente bloquea
declaraciones de caso
constructores de matrices (x: = [1, 2, 3];)
^, *, /, y, +, -, o, <>,> =, <=, =,>, <, div, mod, xor, shl, shr operadores
acceso a las propiedades y métodos del objeto ( ObjectName.SubObject.Property )
Estructura del guion
Un script se compone de dos bloques principales: a) declaraciones de funciones y procedimientos yb) bloque principal. Ambos
son opcionales, pero al menos uno debe estar presente. No es necesario que el bloque principal esté adentro
comenzar .. fin. Podría ser una sola declaración. Algunos ejemplos:
GUIÓN 1:
procedimiento DoSomething;
empezar
CallSomethingElse;
terminar ;
empezar
Hacer algo;
terminar ;
GUIÓN 2:
empezar
CallSomethingElse;
terminar ;
267
Página 268
GUIÓN 3:
función MyFunction;
empezar
resultado: = '¡Ok!' ;
terminar ;
GUIÓN 4:
CallSomethingElse;
Las declaraciones deben terminar con ";" personaje. Los bloques Begin..end se utilizan para agrupar
declaraciones.
Identificadores
Los nombres de los identificadores en el script (nombres de variables, nombres de funciones y procedimientos, etc.) deben comenzar con un
carácter (a..z o A..Z), o '_', y puede ir seguido de caracteres alfanuméricos o el carácter '_'. Ellos no pueden
contener otros caracteres o espacios.
Identificadores válidos:
VarName
_Algunos
V1A2
_____Algunos____
Identificadores inválidos:
2 Var
Mi nombre
Algo mas
Esto, es , no , válida
Asignar declaraciones
Asignar declaraciones (asignando un valor o resultado de expresión a una variable o propiedad de objeto) se construyen
usando ": =". Ejemplos:
MyVar: = 2 ;
Button.Caption: = 'Este' + 'está bien.' ;
Cadenas de caracteres
Las cadenas (secuencia de caracteres) se declaran mediante comillas simples ('). Las comillas dobles (") son
no utilizado. También puede usar #nn para declarar un carácter dentro de una cadena. No es necesario utilizar el '+'
operador para agregar un carácter a una cadena. Algunos ejemplos:
A: = 'Esto es un texto' ;
Str: = 'Texto' + 'concat' ;
B: = 'Cadena con caracteres CR y LF al final' # 13 # 10 ;
C: = 'Cadena con' # 33 # 34 'caracteres en el medio' ;
268
Página 269
Comentarios
Los comentarios se definen mediante // caracteres o bloques (* *) o {}. Con el carácter //, el comentario terminará en
el final de la línea.
// Este es un comentario antes de ShowMessage

ShowMessage ( 'Aceptar' );
(* Este es otro comentario *)
ShowMessage ( '¡Más ok!' );
{Y este es un comentario
con dos líneas}
ShowMessage ( 'Fin de las autorizaciones' );
Variables
No es necesario declarar tipos de variables. Por lo tanto, declara una variable simplemente usando la directiva var
y su nombre. Además, es opcional declarar variables. Las variables y sus tipos son implícitamente
declarado en el primer uso. Ejemplos:
GUIÓN 1:
procedimiento Msg;
var S;
empezar
S: = '¡Hola mundo!' ;
ShowMessage (S);
terminar ;
GUIÓN 2:
var A;
empezar
A: = 0 ;
A: = A + 1 ;
terminar ;
GUIÓN 3:
var S: cadena ;
empezar
S: = '¡Hola mundo!' ;
ShowMessage (S);
terminar ;
Las declaraciones Var no son estrictamente necesarias en ninguno de los scripts anteriores.
Indexación
Las cadenas, matrices y propiedades de matriz se pueden indexar utilizando caracteres "[" y "]". Por ejemplo, si Str es un
variable de cadena, la expresión Str [3] devuelve el tercer carácter de la cadena denotada por Str, mientras
Str [I + 1] devuelve el carácter inmediatamente después del indexado por I. Más ejemplos:
MyChar: = MyStr [ 2 ];
MyStr [ 1 ]: = 'A' ;
MyArray [ 1 , 2 ]: = 1530 ;
269
Página 270
Lines.Strings [ 2 ]: = 'Algún texto' ;
Matrices
Para construir una matriz, use los caracteres "[" y "]". Puede construir matrices de índices múltiples, matrices anidadas
constructores. A continuación, puede acceder a las matrices mediante índices. Una variable es una matriz si se asignó mediante
un constructor de matriz o si se creó utilizando los procedimientos de matriz o vector. Algunos ejemplos:
NewArray: = [ 2 , 4 , 6 , 8 ];
Num: = NewArray [ 1 ]; // Num recibe "4"
MultiArray: = [[ 'verde' , 'rojo' , 'azul' ], [ 'manzana' , 'naranja' , 'limón' ]];
Str: = MultiArray [ 0 , 2 ]; // Str recibe 'azul'
MultiArray [ 1 , 1 ]: = 'naranja nueva' ;
V: = vector (100);
A: = matriz (100,100);
Las matrices definidas mediante los constructores de matrices pueden contener elementos de cualquier tipo, pero las matrices definidas por
los procedimientos de vector y arreglo son de tipo Double.
Las matrices construidas utilizando los constructores de matrices se indexan desde 0. Además, las matrices definidas mediante el
Los procedimientos de vector y matriz se indexan desde 0, pero el elemento 0 a menudo no se usa y estos
las matrices contienen n + 1 elementos, indexados de 0 a n.
Si declaraciones
Hay dos formas de declaración if: if ... then y if ... then ... else. Si la expresión if es verdadera, la
se ejecuta la sentencia (o bloque). Si hay una parte else y la expresión es falsa, la declaración (o
block) después de que se ejecute else. Ejemplos:
si J <> 0 entonces Resultado: = I / J;

si J = 0 entonces Salir de lo contrario Resultado: = I / J;
si J <> 0 entonces
empezar
Resultado: = I / J;
Cuenta: = Cuenta + 1 ;
fin
más
Hecho: = Verdadero;
declaraciones while
Una instrucción while se usa para repetir una instrucción o un bloque, mientras que una condición de control (expresión) es
evaluado como verdadero. La condición de control se evalúa antes de la declaración. Por tanto, si el control
La condición es falsa en la primera iteración, la secuencia de instrucciones nunca se ejecuta. La declaración while
ejecuta su declaración constitutiva (o bloque) repetidamente, probando la expresión antes de cada
iteración. Siempre que la expresión devuelva True, la ejecución continúa. Ejemplos:
mientras que Datos [I] <> X hago : = I + 1 ;
270
Página 271
mientras yo> 0 lo hago

empezar
si es impar (I) entonces Z: = Z * X;
I: = I div 2 ;
X: = Sqr (X);
terminar ;
mientras que no Eof (InputFile) hacer

empezar
Readln (InputFile, Line);
Proceso (línea);
terminar ;
repetir declaraciones
La sintaxis de una instrucción repeat es instrucción repeat1; ...; declaraciónn; hasta expresión donde
expresión devuelve un valor booleano. La declaración de repetición ejecuta su secuencia de constituyentes
declaraciones continuamente, probando la expresión después de cada iteración. Cuando la expresión devuelve True,
la declaración de repetición termina. La secuencia siempre se ejecuta al menos una vez porque expresión
no se evalúa hasta después de la primera iteración. Ejemplos:
repetir
K: = yo mod J;
I: = J;
J: = K;
hasta J = 0 ;
repetir
Write ( 'Ingrese un valor (0..9):' );
Readln (I);
hasta (I> = 0 ) y (I <= 9 );
para declaraciones
Las instrucciones for tienen la siguiente sintaxis: for counter: = initialValue to finalValue do statement
La instrucción For establece el contador en initialValue, repite la ejecución de la instrucción (o bloque) y

incrementa el valor del contador hasta que el contador llega a finalValue. Ejemplos:
GUIÓN 1:
para c: = 1 a 10 hacer
a: = a + c;
GUIÓN 2:
para yo: = a a b hacer

empezar
j: = yo ^ 2 ;
suma: = suma + j;
terminar ;
271
Página 272
declaraciones de caso
Las declaraciones de casos tienen la siguiente sintaxis:
selector de casos Expresión de

caseexpr1: sentencia1;
...
caseexprn: sentencian;
más
elsestatement;
fin
si selectorExpression coincide con el resultado de una de las expresiones caseexprn, la declaración respectiva
(o bloque) se ejecutará. De lo contrario, se ejecutará elsestatement.
la declaración es opcional. Una declaración Case no necesita usar solo valores ordinales. Puedes usar
expresiones de cualquier tipo tanto en la expresión de selector como en la expresión de caso. Ejemplo:
caso mayúscula (fruta) de

'lima' : ShowMessage ( 'verde' );
'naranja' : ShowMessage ( 'naranja' );
'manzana' : ShowMessage ( 'rojo' );
más
ShowMessage ( 'negro' );
terminar ;
declaración de función y procedimiento
La declaración de funciones y procedimientos es similar a Pascal, con la diferencia de que no

especificar tipos de variables. Para devolver valores de función, use la variable de resultado declarada implícitamente .
También se pueden utilizar parámetros por referencia, con la restricción mencionada: no es necesario especificar
tipos de variables. Algunos ejemplos:
procedimiento HelloWord;
empezar
ShowMessage ( '¡Hola mundo!' );
terminar ;
procedimiento UpcaseMessage (Msg);

empezar
ShowMessage (mayúsculas (Msg));
terminar ;
function TodayAsString;
empezar
resultado: = DateToStr (Fecha);
terminar ;
función Max (A, B);

empezar
si A> B entonces
resultado: = A
más
resultado: = B;
terminar ;
272
Página 273
procedimiento SwapValues ( var A, B);

Var Temp;
empezar
Temp: = A;
A: = B;
B: = Temp;
terminar ;
La ventana de salida
Cuando ejecuta un script, se abre automáticamente una ventana de salida. Contiene tres pestañas: Texto,
gráfico y tabla.
La pestaña de texto
La pestaña de texto contiene una ventana en la que el script puede escribir la salida. El texto se puede copiar y pegar en
otros programas por parte del usuario. Están disponibles los siguientes procedimientos:
Borrar texto; Borra la ventana de texto

textout (s); Escribe una línea en la ventana de texto. Maneja tipos numéricos, de cadena, vectoriales y de matriz.
La pestaña gráfica
Un lienzo gráfico redimensionable con la funcionalidad Pasada habitual, como una ventana de preferencias de gráficos con
exportar a formatos vectoriales (SVG o PDF) o de mapa de bits. La ventana se escalará automáticamente a su contenido,
por lo que no es necesario considerar la escala de coordenadas. Para mayor eficiencia, no aparecerán gráficos hasta
se llama al procedimiento de redibujado.
Los colores deben darse como una de las siguientes constantes: negro, rojo, azul, verde, violeta, amarillo, gris,
marrón.
volver a dibujar Redibujar la ventana gráfica con rangos de ejes automáticos

setaxes (x1, x2, y1, y2) Vuelva a dibujar el gráfico con los rangos de eje dados
cleargraphic Borra la ventana gráfica
savegraphic (nombre de archivo) Dependiendo de la extensión del archivo, guardará el gráfico en una
de los siguientes formatos: svg, pdf, jpg, tif, gif, png, bmp
puntos de dibujo (x, y, color) Dibuja un punto (si xey son números únicos) o varios (si x
ey son vectores). El color es un solo entero (ver arriba).
dibuja símbolos (x, y, color, símbolo) Dibuja un símbolo (si xey son números únicos) o varios
(si xey son vectores). El color y el símbolo son números enteros simples,
consulte 'spreadsheet_symbols' para la codificación de símbolos.
drawline (x1, y1, x2, y2, color) Una línea de (x1, y1) a (x2, y2)
drawpolyline (x, y, color) Una polilínea con listas de coordenadas xey en los vectores xey
drawrectangle (x1, y1, x2, y2, color) Un rectángulo con las esquinas dadas
drawellipse (x, y, mayor, menor, ángulo, color)
Una elipse con centro (x, y), dados los ejes mayor y menor y
con el eje mayor en el ángulo dado (radianes) al eje x.
273
Página 274
drawtext (x, y, cadena) Dibuja texto en la posición (x, y); puede reposicionarse para reducir
superposición
drawmatrix (A, interpolar) Dibuja la matriz A. Establezca interpolar en falso o verdadero para seleccionar
modo de dibujo. Realiza un redibujo automático.
drawhistogram (V, nbins, color, kde) Un histograma del vector V, con el número dado de bins. Si
kde = true, también se extrae una estimación de la densidad del núcleo.
barras de tiro (V, color) Un gráfico de barras del vector V.
drawboxplot (V, x, valores atípicos) Un diagrama de caja del vector V en la posición x dada. Los valores atípicos son ciertos
o falso.
dibujar casco convexo (Vx, Vy, color) El casco convexo de los puntos en los vectores Vx y Vy.
extracción de rosa (V, n, equalarea, kde) Un diagrama de rosas de ángulos en V (grados), con n contenedores. Equalarea
y kde (estimación de la densidad del núcleo) son verdaderos o falsos.
La pestaña de la tabla
Una ventana de tabla (hoja de cálculo) con función de copiar y pegar.
tamaño de tabla (filas, columnas: entero) Establecer el número de filas y columnas en la tabla
tableout (fila, columna, valor) Escriba el valor en una celda particular de la tabla, comenzando la indexación
en 0.
Accediendo a la hoja de cálculo Pasado principal
matriz_hoja_de_cálculo Devuelve una matriz que contiene el área seleccionada en el pasado.

hoja de cálculo. Las columnas de grupo no están incluidas
columna_hoja_cálculo (n: entero) Devuelve un vector con los números de la columna n en el pasado.
hoja de cálculo.
spreadsheet_groups (n: integer) Devuelve un vector con números de grupo correspondientes a la

filas en spreadsheetarray. Para n = 1, la primera columna de grupo es
devuelto, para n = 2 la segunda columna de grupo (si corresponde), etc.
spreadsheet_rowlabels Devuelve un vector de cadena con las etiquetas de fila en el seleccionado

zona.
spreadsheet_columnlabels Devuelve un vector de cadena con las etiquetas de columna en el seleccionado

zona.
spreadsheet_symbols Devuelve un vector con números (0-15) que identifican los símbolos
correspondiente a las filas en spreadsheetarray. 0 = punto, 1 = +,
2 = cuadrado, 3 = X, 4 = triángulo, 5 = O, 6 = diamante, 7 = -, 8 = l,
9 = cuadrado, 10 = *, 11 = óvalo, 12 = triángulo de relleno 13 = triángulo,
14 = relleno de triángulo, 15 = relleno de diamante
spreadsheet_set (fila, columna, s) Establece el contenido de la celda en (fila, columna) en el pasado
274
Página 275
hoja de cálculo a s (número o cadena). La indexación comienza desde 0

(etiquetar celdas).
Operaciones de matrices y vectores
Array (m, n: integer) Asigna y devuelve una matriz Float (Double) con m filas yn columnas,
indexación a partir de 1.
Vector (n: entero) Asigna y devuelve un vector (matriz unidimensional) con n elementos,
indexación a partir de 1
Columna (A, n) Devuelve la columna n en la matriz A, como un vector
Fila (A, m) Devuelve la fila n en la matriz A, como un vector
Ncols (A) Devuelve el número de columnas de la matriz A
Nrows (A) Devuelve el número de filas en la matriz A
Inv (A) Inversa de la matriz cuadrada A
Arrmult (A, B) Devuelve la multiplicación de matrices A * B
Media (V) Media del vector V
Varianza (V) Varianza del vector V
Inclinar (V) Desviación del vector V
Curtosis (V) Curtosis del vector V
Svd (A) Descomposición de valores singulares de A, que devuelve V aumentado por un
columna que contiene D.
cov (A) Devuelve la matriz de varianza-covarianza de A.
eig (A) Devuelve los autovectores de A, aumentados por una columna extra con el
valores propios.
linfit (x, y) Regresión ordinaria de mínimos cuadrados de vectores x, y. Devuelve un 4-vector con
pendiente, intersección, error estándar de pendiente, error estándar de intersección.
Algunas funciones matemáticas comunes están disponibles para matrices y vectores, para mayor eficiencia. los
La función se aplica a cada elemento de la matriz o vector, devolviendo una matriz o vector.
ArrAbs (A) Valor absoluto

ArrCos (A) Coseno (radianes)
ArrExp (A) ex
ArrLn (A) Logaritmo natural (base e )
ArrSin (A) Seno (radianes)
ArrSqrt (A) Raíz cuadrada
ArrTan (A) Tangente (radianes)
Funciones matemáticas escalares
Abs (x) Valor absoluto
Arctan (x) Tangente inversa (radianes)
Arctan2 (y, x) Tangente inversa de y / x extendida al cuadrante correcto.
Porque (x) Coseno (radianes)
Exp (x) ex
275
Página 276
Frac (x) Parte fraccionaria de x

Fresnel (x) Devuelve un 2-vector con las integrales de Fresnel S y C ax.
Ln (x) Logaritmo natural (base e )
Normal (m, s) Número aleatorio normalmente distribuido, media = m, stdev = s.
Gamma (k) Número aleatorio distribuido en gamma, forma = k, escala = 1.
Invnorm (x) Inversa de la distribución normal acumulada, media = 0, stdev = 1, 0 <x <1
Invchi2 (x, df) Inversa de la distribución acumulada de chi-cuadrado con gl grados de libertad
Impar (x) Verdadero si x es impar
Aleatorio Número aleatorio, distribución uniforme, 0 <= x <1
Ronda (x) Redondea al entero más cercano
Pecado (x) Seno (radianes)
Cuadrado (x) Cuadrado ( x * x )
Cuadrado (x) Raíz cuadrada
Bronceado (x) Tangente (radianes)
Trunc (x) Redondea hacia abajo
E / S de archivos
función Append (var F: Archivo): Integer;
Prepara un archivo existente para agregar texto al final. F es una variable de archivo de texto y debe ser
asociado con un archivo externo, utilizando AssignFile. Si el archivo externo no existe, se produce un error. Si
F ya está abierto, se cierra y luego se vuelve a abrir. La posición actual del archivo se establece al final del archivo.
función AssignFile (var F: Archivo; Nombre de archivo: Cadena): Entero;
Asocia el nombre de un archivo externo con una variable de archivo. Después de llamar a AssignFile, F es
asociado con el archivo externo hasta que F se cierre. Todas las demás operaciones en la variable de archivo F operan
en el archivo externo nombrado por FileName.
procedimiento ChDir (S: cadena);

Cambia el directorio actual a la ruta especificada por S.
procedimiento CloseFile (var F: Archivo);
Termina la asociación entre una variable de archivo y un archivo de disco externo. F es una variable de archivo
se abre usando Reset, Rewrite o Append. El archivo externo asociado con F está completamente actualizado
y luego se cierra, liberando el identificador del archivo para su reutilización.
función Eof (var F: Archivo): Booleano;
Comprueba si la posición del archivo está al final de un archivo.
función FilePos (var F: File): Integer;
276
Página 277
Úselo en un archivo abierto para determinar la posición actual. Si la posición actual está en el
al principio, FilePos devuelve 0. De lo contrario, FilePos devuelve el desplazamiento de bytes desde el principio del archivo.
función FileSize (var F: File): Integer;

Devuelve el número de registros de un archivo.
procedimiento ReadLn (var F: Archivo; var S: cadena);

Lee una línea de texto y luego salta a la siguiente línea del archivo.
procedimiento Reset (var F: Archivo);

Abre el archivo externo existente con el nombre asignado a F. Se produce un error si no existe
existe un archivo externo con el nombre dado o si el archivo no se puede abrir. Si F ya está abierto, es primero
cerrado y luego reabierto. La posición actual del archivo se establece al principio del archivo.
procedimiento Reescribir (var F: Archivo);
Crea un nuevo archivo externo con el nombre asignado a F. F está asociado con un archivo externo
utilizando AssignFile. Si ya existe un archivo con el mismo nombre, se elimina y se crea un nuevo archivo vacío.
creado en su lugar. Si F ya está abierto, primero se cierra y luego se vuelve a crear. La posición actual del archivo
se establece al principio del archivo vacío.
procedimiento WriteLn (var F: Archivo; S: cadena);

Escribe en un archivo de texto y agrega un marcador de final de línea.
Operaciones de cadena
función Chr (X: Byte): Char;

Devuelve el carácter de un valor ASCII especificado.
función CompareStr (S1, S2: cadena): Entero;

Compara S1 con S2, con distinción entre mayúsculas y minúsculas. El valor de retorno es menor que 0 si S1 es menor que S2,
0 si S1 es igual a S2, o mayor que 0 si S1 es mayor que S2.
función CompareText (S1, S2: cadena): Entero;

Compara S1 con S2, sin distinción entre mayúsculas y minúsculas. El valor de retorno es menor que 0 si S1 es menor que
S2, 0 si S1 es igual a S2, o mayor que 0 si S1 es mayor que S2.
función Copiar (S: cadena; Índice: Entero; Recuento: Entero): cadena;
Devuelve una subcadena de una cadena S. Index y Count son expresiones de tipo entero. Copiar
devuelve una subcadena o subarreglo que contiene elementos o caracteres Count que comienzan en S [Index].
277
Página 278
función FloatToStr (Valor: Doble): cadena;

C onvierte el valor de punto flotante dado por Value a su representación de cadena. los
la conversión utiliza un formato numérico general con 15 dígitos significativos.
procedimiento Insertar (Fuente: cadena; var Dest: cadena; Índice: Entero);

Inserta una subcadena en una cadena, desde una posición especificada. Si el índice es menor que 1, se establece en
1. Si ha pasado del final de Dest, se establece en la longitud de Dest, convirtiendo la operación en un anexo.
función IntToStr (Valor: Entero): cadena;

Convierte un número entero en una cadena que contiene su representación decimal.
función Longitud (S: cadena): Entero;

Devuelve el número de caracteres de una cadena.
función LowerCase (S: cadena): cadena;

Devuelve una cadena con el mismo texto que en S, pero con todas las letras convertidas a minúsculas.
función Pos (SubStr, Str: string; Offset: Integer): Integer ;
Devuelve un índice de la primera aparición de Substr en Str, comenzando la búsqueda en Offset. Devoluciones
cero si Substr no se encuentra o Offset no es válido.
función StrToFloat (S: cadena): Doble;
Convierte una cadena en un valor de punto flotante (los espacios en blanco iniciales y finales se ignoran).
función StrToInt (S: cadena): Integer;

Convierte una cadena que representa un número entero en un número.
función StrToIntDef (S: cadena; Predeterminado: Integer): Integer;
Convierte la cadena S, que representa un número entero, en un número. Si S no representa un

número válido, StrToIntDef devuelve Default.
función Trim (S: string): string;
Recorta los espacios iniciales y finales y los caracteres de control de una cadena.
función TrimRight (S: cadena): cadena;
Recorta los espacios finales y los caracteres de control de una cadena.
función UpperCase (S: cadena): cadena;

278
Página 279
Devuelve una copia de una cadena en mayúsculas.
Otras funciones
procedimiento ShowMessage (S: cadena);
Muestra un cuadro de mensaje y espera a que el usuario haga clic en Aceptar.
función InputQuery (Caption, Prompt: string; var Value: string): Boolean;
Muestra un cuadro de diálogo de entrada que permite al usuario introducir un valor. El título es el título del
caja de diálogo. Solicitar es el texto que solicita al usuario que ingrese una entrada. Valor es el valor que aparece en
el cuadro de edición cuando aparece el cuadro de diálogo por primera vez y devuelve el valor que ingresa el usuario. InputQuery
devuelve verdadero si el usuario elige Aceptar, falso si el usuario elige Cancelar o presiona Esc.
procedimiento de reposo (ms: entero);
Suspende la ejecución del script durante el número de milisegundos especificado.
Llamar a funciones dll (solo Windows)
Past permite importar y llamar a funciones DLL externas, mediante declaración de rutinas de script, indicando
el nombre de la biblioteca y, opcionalmente, la convención de llamada, además de la firma de la función. Externo
Las bibliotecas se cargan mediante Past bajo demanda, antes de las llamadas a funciones, si no se han cargado (dinámicamente o
inactivamente). Para cargar y descargar bibliotecas explícitamente, las funciones LoadLibrary y FreeLibrary de la unidad
Se puede utilizar Windows.
Sintaxis
función functionName (argumentos): resultType; [Convención de llamadas];

externo 'libName.dll' [nombre ExternalFunctionName];
Por ejemplo, la siguiente declaración:
función MiFunción (arg: integer): integer; externo 'CustomLib.dll';
importa una función llamada MyFunction de CustomLib.dll . Convención de llamada predeterminada, si no

especificado, es registro. Scripter también permite declarar una convención de llamada diferente (stdcall, register,
pascal, cdecl o safecall) y usar un nombre diferente para la función DLL, como la siguiente declaración:
279
Página 280
función MessageBox (hwnd: pointer; text, caption: string; msgtype:

entero): entero; stdcall; nombre externo 'User32.dll' 'MessageBoxA';
que importa la función 'MessageBoxA' de User32.dll (biblioteca API de Windows), llamada 'MessageBox' a
ser utilizado en script.
La declaración anterior se puede utilizar para funciones y procedimientos (rutinas sin valor de resultado).
Tipos admitidos
Past admite los siguientes tipos de datos básicos sobre argumentos y resultado de funciones externas:
Entero
Booleano
Carbonizarse
Extendido
Cuerda
Puntero
PChar
Objeto
Clase
WideChar
PWideChar
AnsiString
Moneda
Variante
Interfaz
WideString
Longint
Cardenal
Longword
Soltero
Byte
Shortint
Palabra
Smallint
Doble
Real
Fecha y hora
Descendientes de TObject (la clase debe estar registrada en scripter con DefineClass)
Todavía no se admiten otros tipos (registros, matrices, etc.). Los argumentos de los tipos anteriores se pueden pasar por
referencia, agregando var en la declaración param de la función.
280
Página 281
Bibliotecas y clases
Formas y componentes
Para una entrada de usuario más compleja que la proporcionada por la función InputQuery (ver arriba), puede construir
sus propios formularios (ventanas) con los siguientes componentes: Etiquetas, ediciones (donde el usuario puede ingresar
texto y números), botones y casillas de verificación.
Formar
Un formulario se define con una variable de tipo TForm y se crea usando “TForm.CreateNew (nil, 0)”. Algunos
Las propiedades útiles de la clase TForm son:
Subtítulo El texto en la parte superior del formulario

Anchura Ancho en píxeles
Altura Altura en píxeles
El método showModal muestra el formulario, devolviendo mrOk o mrCancel dependiendo de los botones
hizo clic en el formulario (ver Botón a continuación).
Etiqueta
Una etiqueta, de tipo TLabel, creada con Tlabel.create (parentform) muestra un texto simple. Propiedades del
La clase TLabel incluye
Padre: El formulario principal, debe especificarse aquí además de en TLabel.create

Texto El texto de la leyenda
Posición.x posición x, en píxeles, relativa al formulario principal
Posición y posición y, en píxeles
Editar
Un cuadro, de tipo TEdit, creado con TEdit.create (parentform), donde el usuario puede ingresar texto o
números. Las propiedades de la clase TEdit incluyen
Padre: El formulario principal, debe especificarse aquí además de en TEdit.create

Botón
281
Página 282
Un botón, de tipo TButton, creado con TButton.create (parentform). Propiedades de la clase TButton
incluir
Padre: El formulario principal, debe especificarse aquí además de en TButton.create

Altura Altura en píxeles
modalResult Se puede establecer en mrOk o mrCancel. Cuando se hace clic en el botón, este valor es devuelto por
el método showModal del formulario.
Casilla de verificación
Una casilla de verificación, de tipo TCheckBox, creada con TCheckBox.create (parentform). Propiedades del
La clase TCheckBox incluye
Padre: El formulario principal, debe especificarse aquí además de en TCheckBox.create

está chequeado Booleano (verdadero o falso). Solo lectura, no establezca True desde el código, no funcionará
Ejemplo
El siguiente script muestra un formulario con una etiqueta, un control de edición y un botón Aceptar. Cuando el usuario
hace clic en el botón, el texto del control de edición se escribe en la ventana de texto.
var
fm: TForm;
lb: TLabel;
ed: TEdit;
bt: TButton;
empezar
fm: = TForm.CreateNew (nulo, 0);
fm.Caption: = '¡Una nueva forma!';
fm.Ancho: = 300;
fm.Altura: = 150;
lb: = TLabel.Create (fm);

lb.Parent: = fm;
lb.Position.X: = 10;
lb.Position.Y: = 10;
lb.Text: = 'Su nombre:';
ed: = TEdit.Create (fm);
282
Página 283
ed.Parent: = fm;
ed.Position.X: = lb.Position.X;
ed.Position.Y: = lb.Position.Y + lb.Height + 10;
bt: = TButton.Create (fm);

bt.Parent: = fm;
bt.Position.X: = ed.Position.X;
bt.Position.Y: = ed.Position.Y + ed.Height + 10;
bt.Text: = 'Ok';
bt.Default: = True;
bt.ModalResult: = mrOk;
fm.ActiveControl: = ed; // Establece el foco en el control de edición
si fm.ShowModal = mrOk entonces

textout ('Hola' + ed.Text + '!');
fm.Free;
fin;
283

Manual Past 2 PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Past 2 PDF

Cargado por

Copyright:

Formatos disponibles

9/10/2020 Manual de referencia

Museo de Historia Natural

¡Bienvenido al PASADO! .................................................. .................................................. ...................... 11

Instalación ................................................. .................................................. .......................................... 12

Inicio rápido ................................................ .................................................. ........................................... 13

¿Cómo exporto gráficos? .................................................. .................................................. ............. 13

¿Cómo organizo los datos en grupos ? .................................................. .............................................. 13

La hoja de cálculo y el menú Editar ............................................ .................................................. ....... 14

Ingresando datos ................................................ .................................................. ................................... 14

Seleccionar áreas ................................................ .................................................. ................................. 14

Mover una fila o una columna ............................................ .................................................. .................. 14

Renombrar filas y columnas .............................................. .................................................. ............ 15

Aumentando el tamaño de la matriz ............................................ .................................................. ........... 15

Cortar, copiar, pegar ............................................. .................................................. .................................. 15

Eliminar ................................................. .................................................. ........................................... 15

Colores y símbolos de filas .............................................. .................................................. .................... 15

Seleccionar tipos de datos para columnas y especificar grupos ......................................... ........................ 15

Eliminar filas / columnas no informativas ............................................. ................................................. dieciséis

Transponer ................................................. .................................................. ....................................... dieciséis

Columnas agrupadas a multivar .............................................. .................................................. ........... dieciséis

Filas agrupadas para multivar .............................................. .................................................. ................. 17

Observaciones a la tabla de contingencia .............................................. .................................................. ... 17

Apilar filas agrupadas en columnas ............................................. .................................................. ...... 17

Pares de valores a matriz .............................................. .................................................. ......................... 17

Muestras a eventos (UA a RASC) .......................................... .................................................. ............ 17

Eventos a muestras (RASC a UA) .......................................... .................................................. ............ 18

Cargando y guardando datos .............................................. .................................................. .................... 18

Importando datos desde Excel .............................................. .................................................. ................. 19

Lectura y escritura de archivos Nexus ............................................. .................................................. ......... 19

Mostrador ................................................. .................................................. ........................................... 19

Menú Transformar ................................................ .................................................. .................................. 20

Logaritmo ................................................. .................................................. ....................................... 20

Restar media ................................................ .................................................. ................................. 20

Eliminar tendencia ................................................ .................................................. .................................. 20

Porcentaje de fila ................................................ .................................................. ............................... 20

Longitud de normalización de fila ............................................... .................................................. ....................... 20

Box-Cox ............................................... .................................................. ............................................. 21

Transformaciones de datos composicionales ............................................... .................................................. ........ 21

Quitar tamaño de distancias .............................................. .................................................. .............. 23

Puntos de referencia, ajuste de Procusto .............................................. .................................................. ............ 24

Monumentos, montaje de Bookstein .............................................. .................................................. ............. 24

Proyecto al espacio tangente AÚN NO EN EL PASADO 3 ......................................... ........................................... 25

Transformar hitos ................................................ .................................................. ...................... 25

Interpolación regular ................................................ .................................................. ...................... 25

Evaluar expresión ................................................ .................................................. ......................... 26

Menú de gráfico ................................................ .................................................. ............................................ 27

Grafico ................................................. .................................................. .............................................. 27

Gráfico XY ................................................ .................................................. ........................................... 28

Gráfico XY con barras de error ............................................. .................................................. .................... 29

Histograma ................................................. .................................................. ....................................... 30

Gráfico de barras / diagrama de caja ............................................. .................................................. .............................. 31

Gráfico circular ................................................ .................................................. ........................................... 33

Gráfico apilado ................................................ .................................................. ................................... 34

Percentiles ................................................. .................................................. ...................................... 36

Gráfico de probabilidad normal ............................................... .................................................. .................... 37

Ternario ................................................. .................................................. ........................................... 38

Gráfico de burbujas ................................................ .................................................. ...................................... 39

Gráfico de matriz ................................................ .................................................. ....................................... 40

Parcela de mosaico ................................................ .................................................. ...................................... 41

Carta de radar ................................................ .................................................. ...................................... 42

Gráfico polar ................................................ .................................................. ......................................... 43

Gráfico de red ................................................ .................................................. ................................... 44