Traducción - A Protocol For Data Exploration To Avoid Common Statistical Problems

A protocol for data exploration to avoid common statistical
problems
Resumen:
Mientras enseñaban estadística a ecólogos, los autores principales de este documento
notaron problemas estadísticos comunes. Si se seleccionara una muestra aleatoria de su
trabajo (incluidos artículos científicos) producido antes de realizar estos cursos, la mitad
probablemente contendría violaciones de los supuestos subyacentes de las técnicas
estadísticas empleadas.
Algunas violaciones tienen poco impacto en los resultados o conclusiones ecológicas,
mientras que otras aumentan los errores tipo I o tipo II, lo que potencialmente conduce a
conclusiones ecológicas erróneas. La mayoría de estas violaciones se pueden evitar
aplicando una mejor exploración de datos. Estos problemas son especialmente
problemáticos en ecología aplicada, donde a menudo están en juego decisiones de gestión
y políticas.
Aquí, proporcionamos un protocolo para la exploración de datos; discutimos herramientas
actuales para detectar valores atípicos, heterogeneidad de varianza, colinealidad,
dependencia de observaciones, problemas con interacciones, dobles ceros en análisis
multivariados, inflación de ceros en modelado lineal generalizado y el tipo correcto de
relaciones entre variables dependientes e independientes; y brindamos consejos sobre
cómo abordar estos problemas cuando surgen. También abordamos conceptos erróneos
sobre la normalidad y brindamos consejos sobre transformaciones de datos.
La exploración de datos evita errores tipo I y tipo II, entre otros problemas, reduciendo así la
probabilidad de conclusiones ecológicas erróneas y recomendaciones deficientes. Por lo
tanto, es esencial para una gestión de calidad y políticas basadas en análisis estadísticos.
Introducción
En las últimas tres décadas, ha habido una enorme expansión de las herramientas
estadísticas disponibles para los ecólogos aplicados. Una breve lista de técnicas disponibles
incluye regresión lineal, modelo lineal generalizado (mixto), modelo aditivo generalizado
(mixto), árboles de regresión y clasificación, análisis de supervivencia, redes neuronales,
análisis multivariante con todos sus muchos métodos como el análisis de componentes
principales (PCA), el análisis de correspondencia canónica (CCA), el escalado
multidimensional (NMDS) (no) métrico, varias técnicas de series temporales y espaciales,
etc. Aunque algunas de estas técnicas han existido por algún tiempo, el desarrollo de
computadoras rápidas y software disponible gratuitamente como R (Equipo de Desarrollo R
Core 2009) hace posible aplicar rutinariamente técnicas estadísticas sofisticadas en
cualquier tipo de datos. Este documento no trata sobre estos métodos. En cambio, se trata
del paso vital que debería, pero con frecuencia no, preceder a su aplicación.
Todas las técnicas estadísticas tienen en común el problema de "basura entra, basura sale".
En algunos métodos, por ejemplo, un solo valor atípico puede determinar los resultados y
conclusiones finales. La heterogeneidad (diferencias en la variación) puede causar
problemas graves en los modelos de regresión lineal y análisis de varianza (Fox 2008), y
con ciertos métodos multivariados (Huberty 1994).
Cuando la pregunta subyacente es determinar qué covariables están impulsando un
sistema, entonces el aspecto más difícil del análisis probablemente es cómo lidiar con la
colinealidad (correlación entre covariables), que aumenta los errores de tipo II (es decir, la
falla al no rechazar la hipótesis nula cuando es falsa). En el análisis multivariado aplicado a
datos de comunidades ecológicas, la presencia de dobles ceros (por ejemplo, dos especies
que están ausentes conjuntamente en varios sitios) contribuye a la similitud en algunas
técnicas (por ejemplo, PCA), pero no en otras. Sin embargo, otras técnicas multivariadas
son sensibles a especies con distribuciones agrupadas y baja abundancia (por ejemplo,
CCA). En técnicas de análisis univariado como el modelado lineal generalizado (GLM) para
datos de conteo, la inflación de ceros en la variable de respuesta puede causar
estimaciones sesgadas de los parámetros (Cameron y Trivedi 1998).
Cuando las técnicas multivariadas utilizan métodos de permutación para obtener valores P,
por ejemplo, en CCA y análisis de redundancia (RDA, ter Braak & Verdonschot 1995), o la
prueba de Mantel (Legendre & Legendre 1998), la correlación temporal o espacial entre las
observaciones puede aumentar los errores de tipo I (rechazo de la hipótesis nula cuando es
verdadera).
Lo mismo ocurre con las técnicas de tipo regresión aplicadas en observaciones temporal o
espacialmente correlacionadas. Una de las técnicas más utilizadas y mal utilizadas es, sin
duda, la regresión lineal. A menudo, esta técnica se asocia con patrones lineales y
normalidad; ambos conceptos a menudo son mal comprendidos. La regresión lineal es más
que capaz de ajustar relaciones no lineales, por ejemplo, utilizando interacciones o términos
cuadráticos (Montgomery & Peck 1992). El término "lineal" en la regresión lineal se refiere a
la forma en que se utilizan los parámetros en el modelo y no al tipo de relaciones que se
modelan. Saber si tenemos patrones lineales o no lineales entre las variables de respuesta
y explicativas es crucial para cómo aplicamos la regresión lineal y técnicas relacionadas.
También necesitamos saber si los datos están equilibrados antes de incluir interacciones.
Por ejemplo, Zuur, Ieno y Smith (2007) utilizaron las covariables sexo, ubicación y mes para
modelar el índice gonadosomático (el peso de los órganos reproductivos en relación con el
peso corporal total) del calamar. Sin embargo, ambos sexos no fueron medidos en todas las
ubicaciones en cada mes debido a un muestreo desequilibrado. De hecho, los datos
estaban tan desequilibrados que tenía más sentido analizar sólo un subconjunto de los
datos y abstenerse de incluir ciertas interacciones.
Con esta gran cantidad de posibles problemas, asegurarse de que el científico no descubra
un falso efecto de covariable (error de tipo I), descarte erróneamente un modelo con una
covariable particular (error de tipo II) o produzca resultados determinados por solo algunas
observaciones influyentes, requiere que se aplique una exploración detallada de datos
antes de cualquier análisis estadístico. El objetivo de este artículo es proporcionar un
protocolo de exploración de datos que identifique posibles problemas (Fig. 1). En nuestra
experiencia, la exploración de datos puede llevar hasta el 50% del tiempo dedicado al
análisis.
Aunque la exploración de datos es una parte importante de cualquier análisis, es importante
que se separe claramente de las pruebas de hipótesis. Las decisiones sobre qué modelos
probar deben hacerse a priori basándose en la comprensión biológica del sistema por parte
del investigador (Burnham y Anderson 2002). Cuando esa comprensión es muy limitada, la
exploración de datos se puede utilizar como un ejercicio generador de hipótesis, pero esto
es fundamentalmente diferente del proceso que defendemos en este artículo. El uso de
aspectos de la exploración de datos para buscar patrones ("pesca de datos") puede
proporcionar orientación para trabajos futuros, pero los resultados deben ser considerados
con mucha precaución y se deben evitar inferencias sobre la población en general. En su
lugar, se deben recopilar nuevos datos en función de las hipótesis generadas y se deben
realizar pruebas independientes. Cuando se utiliza la exploración de datos de esta manera,
tanto el proceso utilizado como las limitaciones de cualquier inferencia deben declararse
claramente.
A lo largo del artículo nos centramos en el uso de herramientas gráficas (Chatfield 1998;
Gelman, Pasarica y Dodhia 2002), pero en algunos casos también es posible aplicar
pruebas de normalidad y homogeneidad. Sin embargo, la literatura estadística advierte
contra ciertas pruebas y aboga por herramientas gráficas (Montgomery y Peck 1992; Draper
y Smith 1998, Quinn y Keough 2002).
Laä¨ra¨ (2009) da siete razones por las cuales no se deben aplicar pruebas preliminares
para la normalidad, incluyendo: la mayoría de las técnicas estadísticas basadas en la
normalidad son resistentes a la violación; para conjuntos de datos más grandes, la teoría
del límite central implica aproximadamente normalidad; para muestras pequeñas, el poder
de las pruebas es bajo; y para conjuntos de datos más grandes, las pruebas son sensibles a
pequeñas desviaciones (contradiciendo la teoría del límite central).
Todos los gráficos fueron producidos usando el paquete de software R (R Development
Core Team 2008). Todo el código R y los datos utilizados en este artículo están disponibles
en el Apéndice S1 (Información de soporte) y en http://www.highstat.com.
Paso 1: ¿Hay valores atípicos en Y y X?
En algunas técnicas estadísticas, los resultados son dominados por valores atípicos; otras
técnicas los tratan como cualquier otro valor. Por ejemplo, los valores atípicos pueden
causar sobredispersión en un GLM de Poisson o binomial cuando el resultado no es binario
(Hilbe 2007). En contraste, en el NMDS que utiliza el índice de Jaccard (Legendre y
Legendre 1998), las observaciones se ven esencialmente como presencias y ausencias, por
lo que un valor atípico no influye en el resultado del análisis de ninguna manera especial. En
consecuencia, es importante que el investigador entienda cómo responde una técnica
particular a la presencia de valores atípicos. Por el momento, definimos un valor atípico
como una observación que tiene un valor relativamente grande o pequeño en comparación
con la mayoría de las observaciones.
Una herramienta gráfica que se utiliza típicamente para la detección de valores atípicos es
el diagrama de caja. Este muestra la mediana y la dispersión de los datos. Dependiendo del
software utilizado, la mediana se presenta típicamente como una línea horizontal con los
cuartiles 25% y 75% formando una caja alrededor de la mediana que contiene la mitad de
las observaciones.
Se trazan líneas desde las cajas y cualquier punto más allá de estas líneas se etiqueta
como valor atípico. Algunos investigadores eliminan rutinariamente (pero erróneamente)
estas observaciones. La Figura 2a muestra un ejemplo de tal gráfico que utiliza 1295
observaciones de una variable morfométrica (longitud del ala del gorrión de marisma
Ammodramus caudacutus; Gjerdrum, Elphick y Rubega 2008). El gráfico lleva a creer (tal
vez erróneamente, como veremos en un momento) que hay siete valores atípicos.
Otra herramienta gráfica muy útil, pero altamente descuidada, para visualizar valores
atípicos es el gráfico de puntos de Cleveland (Cleveland 1993). Este es un gráfico en el que
se traza el número de fila de una observación frente al valor de la observación, lo que
proporciona mucha más información detallada que un diagrama de caja. Los puntos que
sobresalen en el lado derecho o en el lado izquierdo son valores observados que son
considerablemente más grandes o más pequeños que la mayoría de las observaciones, y
requieren una investigación adicional. Si existen tales observaciones, es importante verificar
los datos sin procesar en busca de errores y evaluar si los valores observados son
razonables. La Figura 2b muestra un gráfico de puntos de Cleveland para los datos de
longitud de ala de gorrión; tenga en cuenta que las observaciones identificadas por el
diagrama de caja no son especialmente extremas después de todo. La tendencia "hacia
arriba" en la Figura 2b surge simplemente porque los datos en la hoja de cálculo se
ordenaron por peso. Hay una observación de una longitud de ala de aproximadamente 68
mm que sobresale a la izquierda aproximadamente a la mitad del gráfico. Este valor no es
considerablemente mayor que los demás valores, por lo que aún no podemos decir que sea
un valor atípico.
La Figura 3 muestra un Cleveland dotplot de paneles múltiples para todas las variables
morfométricas medidas; observe que algunas variables tienen unos pocos valores
relativamente grandes. Tales valores extremos podrían indicar verdaderos errores de
medición (por ejemplo, algunos se ajustan a las características de "distracción del
observador" sensu Morgan 2004, donde el ojo del observador se desvía al número
equivocado en una escala de medición). Observe que no se debe argumentar que tales
valores grandes podrían haber ocurrido por casualidad. Si así fuera, entonces valores
intermedios también deberían haber sido generados por casualidad, pero no lo fueron. (Un
ejercicio útil es generar, repetidamente, un número equivalente de observaciones aleatorias
de una distribución adecuada, por ejemplo, la distribución Normal, y determinar cómo se
comparan el número de puntos extremos con los datos empíricos). Cuando la explicación
más probable es que las observaciones extremas son errores de medición (del observador),
deben eliminarse porque su presencia es probable que domine el análisis. Por ejemplo,
aplicamos un análisis discriminante en el conjunto completo de datos de gorriones para ver
si las observaciones diferían entre observadores, y encontramos que los dos primeros ejes
fueron determinados principalmente por los valores atípicos.
Hasta ahora, hemos definido de manera imprecisa un "valor atípico" como una observación
que se destaca del resto. Un enfoque más riguroso es considerar si las observaciones
inusuales ejercen una influencia indebida en un análisis (por ejemplo, en los parámetros
estimados). Hacemos una distinción entre las observaciones influyentes en la variable de
respuesta y en las covariables. Un ejemplo de lo segundo es cuando se modelan las
abundancias de especies como una función de la temperatura, con casi todos los valores de
temperatura entre 15 y 20 °C, pero uno de 25 °C. En general, este no es un diseño de
muestreo ideal porque el rango de 20-25 °C está muestreado de manera insuficiente. Sin
embargo, en un estudio de campo, puede haber habido solo una oportunidad de muestrear
la temperatura más alta. Con un tamaño de muestra grande, esas observaciones pueden
eliminarse, pero con conjuntos de datos relativamente pequeños, la reducción consiguiente
en el tamaño de la muestra puede ser indeseable, especialmente si hay valores atípicos
para otras variables explicativas. Si no es posible omitir dichas observaciones, entonces
considere transformar las variables explicativas.
En técnicas de regresión, los valores atípicos en las variables de respuesta son más
complicados de tratar. Transformar los datos es una opción, pero como la variable de
respuesta es de interés primario, es mejor elegir un método estadístico que use una
distribución de probabilidad que permita una mayor variación para valores medios grandes
(por ejemplo, gamma para datos continuos; Poisson o binomial negativa para datos de
conteo) porque esto nos permite trabajar con los datos originales. Para análisis
multivariados, este enfoque no es una opción porque estos métodos no se basan en
distribuciones de probabilidad. En cambio, podemos usar una medida de asociación
diferente. Por ejemplo, la distancia euclidiana es bastante sensible a los valores grandes
porque se basa en el teorema de Pitágoras, mientras que la distancia de cordón reduce el
peso de los valores grandes (Legendre y Legendre 1998).
Algunos paquetes estadísticos vienen con una serie de herramientas de diagnóstico para
identificar observaciones influyentes. Por ejemplo, la estadística de Cook en la regresión
lineal (Fox 2008) proporciona información sobre el cambio en los parámetros de regresión a
medida que se omite cada observación de manera secuencial e individual. El problema con
tales herramientas es que cuando hay múltiples "valores atípicos" con valores similares, no
serán detectados. Por lo tanto, se debe investigar la presencia de tales observaciones
utilizando las herramientas gráficas discutidas en este artículo, antes de aplicar un análisis
estadístico.
En última instancia, es responsabilidad del ecólogo decidir qué hacer con los valores
atípicos. Los valores atípicos en una covariable pueden surgir debido a un diseño
experimental deficiente, en cuyo caso eliminar la observación o transformar la covariable
son opciones sensatas. Los errores del observador y de medición son una justificación
válida para eliminar observaciones. Pero los valores atípicos en la variable de respuesta
pueden requerir un enfoque más refinado, especialmente cuando representan una variación
genuina en la variable que se está midiendo. Tomar notas detalladas de campo o
experimento puede ser especialmente útil para documentar cuándo ocurren eventos
inusuales y, por lo tanto, proporcionar información objetiva con la que volver a examinar los
valores atípicos. Independientemente de cómo se aborde el problema, es importante saber
si hay valores atípicos y reportar cómo se manejaron; la exploración de datos permite
hacerlo.
Paso 2: ¿Tenemos homogeneidad de varianza?
La homogeneidad de varianza es una suposición importante en el análisis de varianza

(ANOVA), otros modelos relacionados con la regresión y en técnicas multivariadas como el
análisis discriminante. La Figura 4 muestra diagramas de caja condicionales de las tasas de
ingesta de alimento de los agujones de Hudson (Limosa haemastica), una ave migratoria de
larga distancia, en una zona intermareal en Argentina (E. Ieno, datos no publicados). Para
aplicar un ANOVA a estos datos y probar si las tasas medias de ingesta difieren por sexo,
período de tiempo o una combinación de estas dos variables (es decir, una interacción),
debemos asumir que (i) la variación en las observaciones entre los sexos es similar; (ii) la
variación en las observaciones de los tres períodos de tiempo es similar; y (iii) la variación
entre los tres períodos de tiempo dentro de los sexos es similar. En este caso, parece haber
ligeramente menos variación en los datos de invierno para los machos y más variación en
los datos de los machos en verano. Sin embargo, estas pequeñas diferencias en la
variación no son motivo de preocupación. Ejemplos más graves de violación se pueden
encontrar en Zuur et al. (2009a). Fox (2008) muestra que para un modelo de regresión lineal
simplista, la heterogeneidad degrada seriamente los estimadores de mínimos cuadrados
cuando la relación entre la varianza más grande y la más pequeña es de 4 (conservador) o
más.
En modelos de tipo regresión, la verificación de la homogeneidad debe hacerse utilizando
los residuos del modelo; es decir, trazando los residuos frente a los valores ajustados y
haciendo un conjunto similar de diagramas de caja condicionales para los residuos. En
todos estos gráficos, la variación residual debe ser similar. La solución a la heterogeneidad
de varianza es una transformación de la variable de respuesta para estabilizar la varianza, o
la aplicación de técnicas estadísticas que no requieren homogeneidad (por ejemplo,
mínimos cuadrados generalizados; Pinheiro y Bates 2000; Zuur et al. 2009a).
Paso 3: ¿Los datos siguen una distribución normal?
Varias técnicas estadísticas asumen normalidad, lo que ha llevado a muchos de nuestros

participantes en cursos de postgrado a producir histogramas tras histogramas de sus datos
(p. ej., Fig. 5a). Sin embargo, es importante saber si la técnica estadística a utilizar asume
normalidad, y ¿qué es exactamente lo que se supone que sigue una distribución normal?
Por ejemplo, un análisis de componentes principales (PCA) no requiere normalidad (Jolliffe
2002). La regresión lineal sí asume normalidad, pero es razonablemente robusta contra la
violación de esta suposición (Fitzmaurice, Laird y Ware 2004). Si se desea aplicar una
prueba estadística para determinar si hay separación significativa entre grupos en un
análisis discriminante, la normalidad de las observaciones de una variable particular dentro
de cada grupo es importante (Huberty 1994). Las pruebas simples de t, también suponen
que las observaciones en cada grupo siguen una distribución normal; por lo tanto, se deben
examinar los histogramas de los datos sin procesar de cada grupo.
En la regresión lineal, en realidad asumimos la normalidad de todas las observaciones

replicadas en un valor particular de covariable (Fig. 6; Montgomery y Peck 1992), una
suposición que no se puede verificar a menos que se tenga muchas repeticiones en cada
valor de covariable muestreado. Sin embargo, la normalidad de los datos sin procesar
implica la normalidad de los residuos. Por lo tanto, podemos hacer histogramas de los
residuos para tener una impresión de la normalidad (Quinn y Keough 2002; Zuur et al.
2007), aunque no podemos probar completamente la suposición.
Incluso cuando se viola aparentemente la suposición de normalidad, la situación puede ser

más complicada de lo que parece. La forma del histograma en la Fig. 5a, por ejemplo, indica
asimetría, lo que puede sugerir que se necesita una transformación de datos. La Fig. 5b
muestra un histograma de varios paneles para la misma variable, excepto que los datos se
grafican por mes; esto nos permite ver que la asimetría del histograma original
probablemente se deba a cambios en el peso del gorrión con el tiempo. En estas
circunstancias, no sería recomendable transformar los datos.
Paso 4: ¿Hay muchos ceros en los datos?
Elphick y Oring (1998, 2003) investigaron los efectos del manejo de la paja sobre la
abundancia de aves acuáticas en campos de arroz inundados. Un posible análisis
estadístico es modelar el número de aves como función del tiempo, profundidad del agua,
finca, método de manejo del campo, temperatura, etc. Debido a que este análisis involucra
modelar un conteo, el GLM es el análisis apropiado. La Figura 7 muestra un gráfico de
frecuencia que ilustra la frecuencia con que ocurrió cada valor para la abundancia total de
aves acuáticas. El número extremadamente alto de ceros nos dice que no debemos aplicar
un GLM de Poisson o binomial negativo ordinario, ya que esto produciría estimaciones
sesgadas de los parámetros y errores estándar. En su lugar, se debe considerar un GLM
con inflación de ceros (Cameron y Trivedi 1998; Zuur et al. 2009a).
También es posible analizar los datos de múltiples especies simultáneamente mediante
técnicas multivariadas. Para tales análisis, debemos considerar lo que significa cuando dos
especies están ausentes conjuntamente. Este resultado podría decir algo importante sobre
las características ecológicas de un sitio, por ejemplo, que contiene condiciones
desfavorables para ambas especies. Por extensión, cuando dos sitios tienen las mismas
ausencias conjuntas, esto podría significar que los sitios son ecológicamente similares. Por
otro lado, si una especie tiene una distribución altamente agrupada, o es simplemente rara,
entonces las ausencias conjuntas podrían surgir por casualidad y no decir nada sobre la
idoneidad de un sitio dado para una especie, la similitud entre las necesidades de hábitat de
especies o la similitud ecológica de los sitios. Una alta frecuencia de ceros puede complicar
mucho la interpretación de tales análisis. Independientemente de nuestra actitud hacia las
ausencias conjuntas, necesitamos saber si hay doble ceros en los datos. Esto significa que,
para cada par de especies, necesitamos calcular con qué frecuencia ambas tuvieron una
abundancia cero para la misma observación (por ejemplo, sitio). Podemos presentar esta
información en una tabla o utilizar herramientas gráficas avanzadas como un corrgram (Fig.
8; Sarkar 2008). En nuestro ejemplo de aves acuáticas, la frecuencia de doble cero es muy
alta. Todos los círculos azules corresponden a especies que tienen más del 80% de sus
observaciones conjuntamente en cero. Este resultado es consistente con la biología de las
especies estudiadas, la mayoría de las cuales forman grandes bandadas y tienen
distribuciones altamente agrupadas. Un PCA etiquetaría a tales especies como similares,
aunque su uso ecológico de hábitats a menudo es bastante diferente (por ejemplo, Elphick
& Oring 1998). Se discuten análisis multivariados alternativos que ignoran los dobles ceros
en Legendre & Legendre (1998) y Zuur et al. (2007).
Paso 5: ¿Hay colinealidad entre las covariables?
Si la pregunta subyacente en un estudio es qué covariables están impulsando las

variable(s) de respuesta, entonces el mayor problema a superar a menudo es la
colinealidad. La colinealidad es la existencia de correlación entre covariables. Ejemplos
comunes son covariables como peso y longitud, o profundidad del agua y distancia a la
línea de costa. Si se ignora la colinealidad, es probable que se termine con un análisis
estadístico confuso en el que nada es significativo, pero en el que eliminar una covariable
puede hacer que las otras sean significativas, e incluso cambiar el signo de los parámetros
estimados. El efecto de la colinealidad se ilustra en el contexto de la regresión lineal
múltiple, pero problemas similares existen en el análisis de varianza, modelos de efectos
mixtos, RDA, CCA, GLMs o GAMs. La Tabla 1 muestra los resultados de una regresión
lineal múltiple en la que el número de gorrión de marisma capturados en una parcela de
estudio se modela como función de covariables que describen la abundancia relativa de
varias especies de plantas (para más detalles, ver Gjerdrum, Elphick y Rubega 2005;
Gjerdrum et al. 2008). La segunda columna de la tabla muestra los valores p estimados de
las t-estadísticas para cada parámetro de regresión cuando se incluyen todas las
covariables en el modelo. Note que solo una covariable, la del porcentaje de cobertura de la
especie de juncos Juncus gerardii, es débilmente significativa al nivel del 5%.
En la regresión lineal, una expresión para las varianzas de los parámetros bj se da por
(Draper y Smith 1998; Fox 2008):
El término Sj depende de los valores de las covariables, n es el tamaño de la muestra y r2
es la varianza de los residuos, pero estos términos no son relevantes para la discusión
actual (y por lo tanto su formulación matemática no se presenta aquí). Es la primera
expresión la que es importante. El término R2 es el R2 de un modelo de regresión lineal en
el que la covariable Xj se utiliza como variable de respuesta y todas las demás covariables
como variables explicativas. Un alto R2 en tal modelo significa que la mayoría de la
variación en la covariable Xj se explica por todas las demás covariables, lo que significa que
hay colinealidad. El precio que se paga por esta situación es que los errores estándar de los
parámetros se inflan con la raíz cuadrada de 1 / (1-R2), también llamado factor de inflación
de la varianza (VIF), lo que significa que los valores P son mayores, lo que hace más difícil
detectar un efecto. Este fenómeno se ilustra en la Tabla 1; la tercera columna de la tabla
muestra los valores de VIF para todas las covariables y muestra que hay un alto nivel de
colinealidad. Una estrategia para abordar este problema es eliminar secuencialmente la
covariable con el VIF más alto, recalcular los VIF y repetir este proceso hasta que todos los
VIF sean menores que un umbral preseleccionado. Montgomery y Peck (1992) usaron un
valor de 10, pero un enfoque más riguroso es usar valores tan bajos como 3 como lo
hicimos aquí. La colinealidad alta o incluso moderada es especialmente problemática
cuando las señales ecológicas son débiles. En ese caso, incluso un VIF de 2 puede causar
estimaciones de parámetros no significativos, en comparación con la situación sin
colinealidad. Siguiendo este proceso, se eliminaron tres variables de nuestro análisis: la
Spartina alterniflora alta y las de altura y densidad de tallo de la planta. Con el problema de
colinealidad resuelto, se muestra que la variable Juncus es altamente significativa (Tabla 1).
Eliminar secuencialmente más términos no significativos uno a la vez da como resultado un
modelo con solo las variables Juncus y Arbusto, pero con poco cambio adicional en los
valores P, lo que muestra cómo la eliminación de variables colineales puede tener un
impacto mayor en los valores P que la eliminación de covariables no significativas.
Otras formas de detectar la colinealidad incluyen gráficos de dispersión entre pares de
covariantes, coeficientes de correlación o un biplot de PCA (Jolliffe 2002) aplicado a todas
las covariantes. También se puede esperar colinealidad si se usan variables temporales
(por ejemplo, mes, año) o espaciales (por ejemplo, latitud, longitud) junto con covariantes
como la temperatura, la lluvia, etc. Por lo tanto, siempre se deben graficar todas las
covariantes en relación con las covariantes temporales y espaciales. La forma más sencilla
de resolver la colinealidad es eliminando las covariantes colineales. La elección de cuáles
covariantes eliminar puede basarse en los VIF, o quizás mejor aún, en el sentido común o el
conocimiento biológico. Otra consideración alternativa, especialmente cuando se realizarán
trabajos futuros sobre el tema, es la facilidad con la que se pueden medir las covariantes
alternativas en términos de esfuerzo y costo. Siempre que dos covariantes X y Z sean
colineales, y Z se utiliza en el análisis estadístico, entonces la discusión biológica en la que
se explica el efecto de Z debe incluir una mención de la colinealidad, y reconocer que podría
ser X el que está impulsando el sistema (cf. Gjerdrum et al. 2008). Para una discusión de la
colinealidad en combinación con errores de medición en las covariantes, consulte Carroll et
al. (2006).
Paso 6: ¿Cuáles son las relaciones entre las variables Y y X?
Otra parte esencial de la exploración de datos, especialmente en el análisis univariado, es

trazar la variable de respuesta versus cada covariable (Fig. 9). Se debe tener en cuenta que
la variable para el porcentaje de junco alto en una parcela (% Junco alto) debe ser
eliminada de cualquier análisis, ya que solo tiene un valor distinto de cero. Este resultado
muestra que los diagramas de caja y los diagramas de puntos de Cleveland no solo deben
aplicarse a la variable de respuesta, sino también a las covariables (es decir, no deberíamos
haber calculado los VIF con % Junco alto incluido en la sección anterior). No hay patrones
claros en la Fig. 9 entre la variable de respuesta y las variables explicativas, excepto quizás
para la cantidad de Juncus (ver también la Tabla 1). Tenga en cuenta que la ausencia de
patrones claros no significa que no haya relaciones; simplemente significa que no hay
relaciones claras de dos vías. Un modelo con múltiples variables explicativas aún puede
proporcionar un buen ajuste.
Además de visualizar las relaciones entre variables, los diagramas de dispersión también
son útiles para detectar observaciones que no cumplen con el patrón general entre dos
variables. La Figura 10 muestra un diagrama de dispersión de múltiples paneles (también
llamado gráfico de pares) para los 1295 gorriones de marisma salada para los que tenemos
datos morfológicos. Cualquier observación que se destaque de la nube negra necesita una
investigación adicional; estos pueden ser especies diferentes, errores de medición, errores
de escritura o pueden ser valores correctos después de todo. Tenga en cuenta que la
observación de gran longitud de ala que recogimos con el diagrama de puntos de Cleveland
en la Fig. 2b tiene valores promedio para todas las demás variables, lo que sugiere que es
algo que debería ser verificado. Los paneles inferiores en la Fig. 10 contienen coeficientes
de correlación de Pearson, que pueden verse afectados por valores atípicos, lo que significa
que los valores atípicos incluso pueden contribuir a la colinealidad.
Paso 7: ¿Deberíamos considerar las interacciones?
Siguiendo con los datos morfométricos de los gorriones, supongamos que alguien pregunta
si la relación entre la longitud del ala y el peso cambia a lo largo de los meses y difiere entre
los sexos. Un enfoque común para este análisis es aplicar un modelo de regresión lineal en
el que el peso es la variable de respuesta y la longitud del ala (continua), el sexo
(categórico) y el mes (categórico) son covariables. Los resultados mostraron que la
interacción de tres vías es significativa, lo que indica que la relación entre el peso y la
longitud del ala está cambiando efectivamente a lo largo de los meses y entre los sexos. Sin
embargo, hay un problema con este análisis. La figura 11 muestra los datos en un coplot,
que es una excelente herramienta gráfica para visualizar la presencia potencial de
interacciones. El gráfico contiene varios diagramas de dispersión de la longitud del ala y el
peso; uno para cada combinación de mes y sexo. Se agrega una línea de regresión lineal
bivariante a cada diagrama de dispersión; si todas las líneas son paralelas, entonces
probablemente no hay una interacción significativa (aunque solo el análisis de regresión
puede decirnos si este es efectivamente el caso). En nuestro ejemplo, las líneas tienen
pendientes diferentes, lo que indica la presencia potencial de interacciones. En algunos
meses, sin embargo, el número de observaciones es muy pequeño, y no hay datos en
absoluto de los machos en septiembre. Un enfoque sensato sería repetir el análisis solo
para el período de junio a agosto.
Paso 8: ¿Son las observaciones de la variable de respuesta independientes?
Una suposición crucial en la mayoría de las técnicas estadísticas es que las observaciones
son independientes entre sí (Hurlbert 1984), lo que significa que la información de una
observación no debe proporcionar información sobre otra después de que se hayan tenido
en cuenta los efectos de otras variables. Este concepto se explica mejor con ejemplos.
Las observaciones del conjunto de datos de abundancia de gorriones se tomaron en
múltiples lugares. Si las aves en lugares cercanos entre sí tienen características más
similares entre sí que a las aves de lugares separados por distancias mayores, violaríamos
la suposición de independencia. Otro ejemplo es cuando se muestrean múltiples individuos
de la misma familia (por ejemplo, todos los jóvenes de un nido); estos individuos podrían ser
más similares entre sí que los individuos aleatorios en la población, porque comparten una
composición genética similar y una historia de alimentación parental similar.
Cuando surge esta dependencia, el modelo estadístico utilizado para analizar los datos
debe tener en cuenta esto. Por ejemplo, modelando cualquier relación espacial o temporal,
o anidando datos en una estructura jerárquica (por ejemplo, los polluelos podrían estar
anidados dentro de los nidos).
Sin embargo, probar la independencia no siempre es fácil. En Zuur et al. (2009a), se
analizaron un gran número de conjuntos de datos en los que la dependencia entre
observaciones desempeñó un papel. Ejemplos incluyen la cantidad de bioluminiscencia en
sitios a lo largo de un gradiente de profundidad oceánica, las proporciones de isótopos de
nitrógeno en los dientes de ballena en función de la edad, los valores de pH en los ríos
irlandeses, el número de anfibios muertos por automóviles en varios lugares a lo largo de
una carretera, el comportamiento alimentario de diferentes agujas en una playa, el número
de esporas patógenas que afectan a las larvas de abejas de múltiples colmenas y el número
de llamadas de los búhos jóvenes a la llegada de un progenitor. Otra situación comúnmente
encontrada en la que se debe abordar la falta de independencia es cuando hay estructura
filogenética (es decir, dependencia debido a un ancestro compartido) dentro de un conjunto
de datos. Existen muchas formas de incluir una estructura de dependencia temporal o
espacial en un modelo para su análisis. Estas incluyen el uso de variables de respuesta
rezagadas como covariables (Brockwell y Davis 2002), modelos de efectos mixtos (Pinheiro
y Bates 2000), imponer una estructura de correlación residual utilizando mínimos cuadrados
generalizados (Zuur et al. 2009a) o permitir que los parámetros de regresión cambien con el
tiempo (Harvey 1989). También es posible ajustar un modelo con y sin una estructura de
correlación y comparar los modelos utilizando un criterio de selección o prueba de hipótesis
(Pinheiro y Bates 2000). La presencia de una estructura de dependencia en los datos
crudos se puede modelar con una covariable como el mes o la temperatura, o la inclusión
de una función de suavizado del tiempo o un suavizador bidimensional de las coordenadas
espaciales (Wood 2006). Independientemente del método utilizado, los residuos del modelo
no deben contener ninguna estructura de dependencia. Con bastante frecuencia, una
estructura de correlación residual es causada por una covariable importante que no fue
medida. Si este es el caso, puede que no sea posible resolver el problema.
Cuando se utilizan técnicas de regresión, la suposición de independencia es bastante
importante y la violación puede aumentar el error de tipo I. Por ejemplo, Ostrom (1990)
demostró que ignorar la autocorrelación puede dar como resultado valores P inflados en un
400%.
Por lo tanto, es importante comprobar si hay dependencia en los datos brutos antes de
realizar el análisis y también los residuos después. Estas comprobaciones se pueden
realizar trazando la variable de respuesta frente al tiempo o las coordenadas espaciales.
Cualquier patrón claro es una señal de dependencia. Este enfoque es más difícil si no hay
una secuencia clara en las observaciones (por ejemplo, múltiples observaciones en el
mismo objeto), pero en este caso se puede incluir una estructura de dependencia utilizando
efectos aleatorios. La Figura 12a, muestra una serie temporal corta que ilustra la
abundancia observada de dos especies de aves en una zona de fango en Argentina durante
un período de 52 semanas (E. Ieno, datos no publicados). La primera serie temporal
muestra altos números de correlimos culiblancos Calidris fuscicollis durante las primeras 20
semanas, seguidos de ceros (porque la especie emigra), y luego un aumento de la
abundancia después de 38 semanas. La segunda serie temporal no muestra un patrón claro
en la abundancia de gaviotas cocineras (Larus dominicanus).
Una forma más formal de evaluar la presencia de dependencia temporal es trazar las
funciones de autocorrelación (ACF) para series de tiempo regularmente espaciadas, o
variogramas para series de tiempo irregulares y datos espaciales (Schabenberger y Pierce
2002). Un ACF calcula la correlación de Pearson entre una serie de tiempo y la misma serie
de tiempo desplazada por k unidades de tiempo. Las Figuras 12b, muestran la
autocorrelación de las series de tiempo en los paneles (a) y (c). El panel (b) muestra una
correlación significativa con un rezago temporal de k = 1 y k = 2. Esto significa que las
abundancias en el tiempo t dependen de las abundancias en el tiempo t-1 y t-2, y cualquiera
de los métodos mencionados anteriormente podría aplicarse. Para la serie temporal de L.
dominicanus, no hay autocorrelación significativa.
Discusión
Todos los problemas descritos en este artículo, así como las estrategias para abordarlos, se
aplican en toda la investigación ecológica, pero son particularmente relevantes cuando los
resultados se utilizarán para guiar decisiones de gestión o políticas públicas debido a las
repercusiones de cometer un error. En los últimos años se ha prestado cada vez más
atención al conjunto de datos que respaldan prácticas de gestión particulares (Roberts,
Stewart & Pullin 2006; Pullin & Knight 2009), y los ecólogos aplicados se han vuelto cada
vez más sofisticados en los métodos estadísticos que utilizan (por ejemplo, Ellison 2004;
Stephens et al. 2005; Robinson & Hamann 2008; Koper & Manseau 2009; Law et al. 2009;
Sonderegger et al. 2009). Pero las preguntas más fundamentales sobre la adecuación de
los datos subyacentes para un análisis dado pueden ser igual de importantes para asegurar
que se deriven las mejores políticas de los estudios ecológicos.
En este artículo, hemos discutido una serie de problemas que pueden influir seriamente en
los resultados de un análisis. Algunos de estos problemas son bien conocidos, otros menos,
pero incluso las suposiciones bien conocidas siguen siendo violadas con frecuencia en la
literatura ecológica. En todos los casos, los problemas pueden llevar a modelos estadísticos
incorrectos. Tales problemas sólo pueden evitarse aplicando una exploración sistemática de
los datos antes de embarcarse en el análisis (Fig. 1).
Aunque hemos presentado nuestro protocolo como una secuencia lineal, debería utilizarse
de manera flexible. No todos los conjuntos de datos requieren cada paso. Por ejemplo,
algunas técnicas estadísticas no requieren normalidad (por ejemplo, PCA), por lo que no
tiene sentido hacer histogramas. El mejor orden para aplicar los pasos también puede
depender del conjunto de datos específico. Y para algunas técnicas, las suposiciones solo
se pueden verificar aplicando pasos de exploración de datos después de que se haya
realizado el análisis. Por ejemplo, en la regresión lineal, la normalidad y la homogeneidad
deben verificarse utilizando los residuos producidos por el modelo. En lugar de seguir
simplistamente el protocolo, tachando cada punto en orden, animamos a los usuarios a
tratarlo como una serie de preguntas que se hacen de los datos. Una vez satisfechos de
que se han abordado adecuadamente cada problema de manera que tenga sentido
biológico, el conjunto de datos debería estar listo para el análisis principal.
Los datos ecológicos de campo tienden a ser ruidosos, las condiciones en el campo son
impredecibles y a menudo el conocimiento previo es limitado. En el ámbito aplicado, los
cambios en la financiación, las políticas y las prioridades de investigación complican aún
más las cosas. Esta situación es especialmente compleja en los estudios a largo plazo,
donde los objetivos iniciales a menudo cambian con las circunstancias (por ejemplo, el uso
de muchos conjuntos de datos para examinar las respuestas de las especies al cambio
climático). Por todas estas razones, la situación idealizada en la que un ecólogo diseña
cuidadosamente su análisis a priori y luego recopila datos puede verse comprometida o ser
irrelevante. Tener la flexibilidad analítica para ajustar el análisis a tales circunstancias es
una habilidad importante para un ecólogo aplicado, pero requiere una comprensión
exhaustiva de las suposiciones restrictivas impuestas por un conjunto de datos dado.
Cuando surgen problemas, las mejores soluciones varían. Con frecuencia, sin embargo, los
ecólogos simplemente transforman los datos para evitar violaciones de suposiciones. Hay
tres razones principales para una transformación; para reducir el efecto de valores atípicos
(especialmente en covariables), para estabilizar la varianza y para linearizar las relaciones.
Sin embargo, el uso de técnicas más avanzadas como GLS y GAMs puede solucionar
problemas de heterogeneidad y no linealidad, lo que hace que la transformación sea menos
importante. Zuur et al. (2009a) mostraron cómo el uso de una transformación de datos
resultó en conclusiones diferentes sobre las tendencias a largo plazo en comparación con
un análisis apropiado utilizando datos sin transformar; por lo tanto, puede ser mejor evitar la
transformación de las variables de respuesta.
Si se utiliza una transformación, las herramientas de selección automática como la regla
abultada de Mosteller y Tukey (Mosteller y Tukey, 1977) deben usarse con precaución
porque estos métodos ignoran los efectos de las covariables. Otro argumento en contra de
las transformaciones es la necesidad de volver a transformar los valores para hacer
predicciones; puede que no siempre esté claro cómo hacer esto y aún así poder interpretar
los resultados en la escala original de la variable de respuesta. También es importante
asegurarse de que la transformación realmente resuelva el problema en cuestión; incluso
las transformaciones comúnmente recomendadas no siempre funcionan. En resumen, la
elección de una transformación específica es una cuestión de prueba y error.
Es un hecho dado que la exploración de datos no debe utilizarse para definir las preguntas
que un estudio busca responder. Cada paso de la exploración debe ser informado, y
cualquier valor atípico eliminado debe ser justificado y mencionado. Las razones para las
transformaciones de datos deben justificarse en función del análisis exploratorio (por
ejemplo, evidencia de que se violaron las suposiciones del modelo y que la transformación
rectificó la situación).
Aplicar la exploración de datos (por ejemplo, gráficos de dispersión para visualizar las
relaciones entre las variables de respuesta y explicativas) para crear hipótesis y luego
utilizar los mismos datos para probar estas hipótesis debe evitarse. Si uno tiene
conocimientos limitados a priori, entonces un enfoque válido es crear dos conjuntos de
datos; aplicar la exploración de datos en el primer conjunto de datos para crear hipótesis y
utilizar el segundo conjunto de datos para probar las hipótesis. Sin embargo, este proceso
solo es práctico para conjuntos de datos más grandes. Independientemente de la situación
específica, el uso rutinario y la presentación transparente de la exploración sistemática de
datos mejorarían la calidad de la investigación ecológica y cualquier recomendación
aplicada que produzca.

Traducción - A Protocol For Data Exploration To Avoid Common Statistical Problems

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Traducción - A Protocol For Data Exploration To Avoid Common Statistical Problems

Cargado por

Copyright:

Formatos disponibles

A protocol for data exploration to avoid common statistical

Paso 1: ¿Hay valores atípicos en Y y X?

Paso 2: ¿Tenemos homogeneidad de varianza?

La homogeneidad de varianza es una suposición importante en el análisis de varianza

Paso 3: ¿Los datos siguen una distribución normal?

Varias técnicas estadísticas asumen normalidad, lo que ha llevado a muchos de nuestros

En la regresión lineal, en realidad asumimos la normalidad de todas las observaciones

Incluso cuando se viola aparentemente la suposición de normalidad, la situación puede ser

Si la pregunta subyacente en un estudio es qué covariables están impulsando las

Otra parte esencial de la exploración de datos, especialmente en el análisis univariado, es

También podría gustarte