Está en la página 1de 14

La Estadstica no Paramtrica para el Anlisis e Interpretacin de Estudios de Plagas: Alternativas al Anlisis de Varianza

Bielinski M. Santos1, James P. Gilreath1, Ramn Arbona2 y Angel R. Pimentel2

RESUMEN. El uso del anlisis de varianza (ANAVA) paramtrico en datos de distribucin libre, tales como poblaciones de hongos, malezas y nematodos, as como variables cualitativas, como ndices de severidad, se ha generalizado en la literatura de manejo de plagas agrcolas. Sin embargo, dicha metodologa no es la ms apropiada para el anlisis e interpretacin de datos que no cumplen los supuestos del ANAVA. Por lo tanto, el objetivo de este trabajo fue presentar algunas metodologas no paramtricas, tales como las pruebas de Chi-cuadrado (2) y de Friedman, como alternativas al recurrido ANAVA. Se incluyeron estudios de casos especficos, as como ejemplos de programas y salidas de anlisis estadstico. Palabras clave: Biometra, anlisis estadstico, diseo experimental, Chicuadrado, Kruskal-Wallis, Friedman. Investigador Asociado y Profesor Asociado, respectivamente, Gulf Coast Research and Education Center, University of Florida, Bradenton, Florida, EUA. bmsantos@yahoo.com
1

Encargado de Programa e Investigador, respectivamente, Programa de Races y Tubrculos, Instituto Dominicano de Investigaciones Agropecuarias y Forestales, Santo Domingo, Repblica Dominicana.
2

ABSTRACT. Analysis and interpretation of pest studies with nonparametric statistics: alternatives to the analysis of variance. The usage of parametric analysis of variance (ANOVA) on non-parametric data, such as disease, weed, and nematode populations, and on cualitative variables, such as severity indexes, is generalized in the pest management literature. However, ANOVA is not the most appropriate method to analyze data that do not meet the basic assumptions for the parametric anlisis. Therefore, the objective was to revisit some non-parametric methodologies, such as 2 and the Friedmans test, as alternatives to the ANOVA. Specific case studies, and statistical software programs and outputs are included. Keywords: Statistics, experimental design, contingency tables, KruskalWallis, Friedman.

Introduccin El manejo estadstico de estudios con plagas agrcolas en condiciones controladas es uno de los mayores desafos que enfentan los investigadores de proteccin vegetal al momento de disear experimentos, analizar datos y presentar conclusiones. El mtodo de anlisis ms comnmente utilizado es el anlisis de varianza (ANAVA), el cual procura aceptar o rechazar la hiptesis nula (Ho) que establece igualdad de respuesta entre todos los tratamientos considerados en el anlisis. La prueba estadstica utilizada provee una probabilidad estimada (valor p), el cual es el resultado de la

comparacin de un valor F calculado con relacin a un valor F obtenido a partir de la respectiva curva de distribucin de probabilidades, dados unos grados de libertad provenientes del tamao de muestra seleccionado. Una vez realizada la prueba de hiptesis para cada variable en estudio, se procede a establecer conclusiones sobre los compartamientos de los datos obtenidos o a realizar otros anlisis que permiten clarificar las conclusiones preliminares encontradas. Sin embargo, frecuentemente el ANAVA es aplicado sin considerar los supuestos estadsticos que lo sostienen, conduciendo a conclusiones errneas sobre las variables consideradas o reduciendo la potencia del anlisis como tal. Para la correcta aplicacin de ANAVA se requiere el cumplimiento de cuatro supuestos estadsticos que sustentan la validez de las conclusiones de esta prueba: a) respuestas normalmente distribudas, b) homogeneidad de varianzas, c) error experimental distribudo homogneamente, y d) un modelo matemtico conocido (Ott et al., 2000; Triola, 1992). Desgraciadamente, los experimentos que envuelven el comportamiento de poblaciones de plagas, tales como hongos, nemtodos y malezas, normalmente no cumplen con uno o varios de los supuestos para el uso del ANAVA. Ms an, debido al relativo desconocimiento sobre la existencia de otras metodologas para examinar datos, se pueden encontrar publicaciones en las cuales se presentan conclusiones a partir de uso de ANAVA, que frecuentemente fueran diferentes si se hubiese utilizado otro mtodo de anlisis. Por lo tanto, el presente trabajo pretende comparar datos

experimentales de estudios con plagas, a travs del uso de mtodos estadsticos alternativos que permitan mejorar la conduccin, anlisis e interpretacin de los mismos.

Pruebas no Paramticas: Estudios de Casos Existe un amplia diversidad de pruebas no paramtricas, las cuales pueden ser utilizadas dependiendo de los objetivos y los juegos de hiptesis planteadas en un estudio especfico para establecer conclusiones sobre el comportamiento de variables bajo estudio. Estas pruebas ofrecen algunas de las ventajas con respecto a sus contrapartes paramtricas, destacndose la rapidez del anlisis y facilidad de interpretacin del mismo (Berenson and Levine, 1992).

Prueba de 2. Una de las pruebas no paramtricas ms conocidas es la que usa la distrubucin de 2, la cual permite: a) hacer comparaciones directas de dos poblaciones o muestras, en las cuales no se conoce su distribucin o la normalidad de las mismas es dudosa, b) examinar las igualdades de varianzas de dos poblaciones o muestras bajo estudio, y c) determinar la bondad de ajuste de frecuencias observadas con relacin a frecuencias esperadas de ocurrencia de un evento (Ott et al., 2002). Una derivacin importante del uso de 2 son las llamadas tablas de contingencia, las cuales buscan probar la hiptesis nula de independencia de ocurrencia de

eventos (Berenson and Levine, 1992). Un ejemplo de este ltimo uso aplicado a la investigacin agrcola se presenta en la Tabla 1.

Tabla 1. Se estudiaron tres cultivares de papa (Solanum tuberosum) con respecto a su resistencia al tizn tardo (Phytophthora infestans). Se desea saber si los cultivares responden igual a la presin de la enfermedad o si existe diferencia entre ellos. Para probar esto, se seleccionan al azar 100 plantas de cada cultivar a los 60 das de la siembra y se tabulan las observaciones de incidencia de la enfermedad (Santos y Rodriguez, 2002. Datos no publicados). Sntomas Con Sin 12 88 8 92 21 79 valor p = 0.0233

Cultivar Floresta IDIAFRIT Granola 2 0.05, 2 = 7.51;

En dicho estudio la H0 establece que no existe diferencia en la incidencia de la enfermedad en los tres cultivares. En otras palabras, la aparicin del tizn tardo es independiente del cultivar utilizado. Para probar dicha H0 se calcul el valor 2 basado en las desviaciones de las frecuencias observadas de cada valor con respecto a su fila (C: cultivares) y a su columna (S: sntomas), basados en (C1)(S1) grados de libertad (gl) para la distribucin (Ott et al., 2000). Por lo tanto, la frecuencia esperada de plantas de Granola con sntomas sera (12+8+21)[(100)/300)]=13.67, lo que quiere decir que se debera haber esperado aproximadamente 14 plantas de

Granola infectadas. Este valor se calcula para cada celda y su sumatoria permite obtener un valor 2 tabular, que se le compara al 2 calculado. Considerando un =0.05, el valor p derivado del 2 calculado (p= 0.0233) indica que se debe rechazar la H0, por lo que la aparicin del tizn tardo depende del cultivar utilizado, bajo las condiciones del estudio en cuestin. Todo esto sin la necesidad de recurrir a un ANAVA para determinar si hay diferencias entre los materiales probados. La discusin anterior sirve para demostrar como con el uso de metodologas simples de anlisis estadstico se puede arribar rpidamente a conclusiones planteadas basada en la aceptacin o no de un juego de hiptesis preestablecido. Sin embargo, algunas limitaciones aplican a esta metodologa. Entre stas, el anlisis no nos permite determinar directamente los niveles de diferencias en la resistencia de los cultivares. Para ello, se puede recurrir a otros tipos de anlisis como el descrito ms abajo.

ANAVA no Paramtrico de Dos Vas o Prueba de Friedman. Esta es la alternativa no paramtrica ms recurrida al ANAVA de datos obtenidos a partir de un diseo de bloques completos al azar. En ella se pretende probar la igualdad de medias entre los tratamientos (H0: 1=...=n), utilizando observaciones, tales como el rden o las medianas de los valores, para probar las hiptesis bajo estudio. Estos valores son seleccionados porque frecuentemente son menos sensibles a la presencia de variaciones entre las repeticiones de un mismo tratamiento y por lo tanto son menos

afectados por los cambios en la variabilidad interna del experimento. En el caso de las medianas, la hiptesis a probar anloga al ANAVA sera H0: m1=...=mn, donde m representa la mediana del tratamiento en cuestin. Algunas condiciones deben ser satisfechas para poder aplicar la prueba de Friedman a datos experimentales: a) los tratamientos deben ser independientes entre s, y b) los valores deben ser seleccionados aleatoriamente (Berenson and Levine, 1992). Existen innumerables situaciones bajo las cuales la prueba de Friedman puede ser de utilidad. A travs de los aos, se ha hecho una costumbre analizar variables recogidas en campo directamente con ANAVA, sin determinar primero si las mismas cumplen con los supuestos que le dan validez al anlisis. Algunas de esas prcticas comunes es la que tiene que ver con el exmen de valores para abundancia de malezas o para ndices de severidad de enfermedades. En el primer caso, las poblaciones de malezas rara vez cumplen con el supuesto de normalidad, ya que las mismas no colonizan un terreno aleatoriamente, ms bien stas crecen sin patrn definido por lo que el ANAVA no sera la prueba que refleje con mayor potencia las diferencias que tiendan a rechazar la Ho planteada. El segundo caso pretende convertir variables claramente categricas, como son los ndices de severidad, en variables cuantitativas contnuas. Un ejemplo comparando el uso de mtodos paramtricos y no paramticos es presentado en la Tabla 2.

Tabla 2. Se conduce un estudio de campo con fresas (Fragaria x ananassa) para determinar la eficacia de seis herbicidas en el control de malezas gramneas. Las gramneas fueron contadas dentro de cada tratamiento y examinadas con ANAVA. Las medias de los tratamientos fueron separadas utilizando la prueba de diferencia mnima significativa (DMS) de Fisher al 5% de significancia (tomado de Gilreath et al., 2003).

ANAVA Herbicid Nmero as de

Prueba de Friedman Herbicid Nmero as de

ANAVA Herbicid Nmero as de frutos

gramneas gramneas Medias Medianas Medias 1 90.7 a* 1 40 a 4 776.7 a 6 39.5 b 6 17 b 3 763.5 a 5 30.3 b 5 16 b 5 689.0 b 2 28.5 b 2 14 b 6 661.8 b 4 10.50 b 4 4c 2 651.6 b 3 5.10 b 3 3c 1 545.5 c *Valores seguidos por la misma letra no difieren al 5% de significancia segn DMS.

Claramente, los datos de rendimiento expresados en nmero de frutos cosechados lucen razonables. Los tratamientos que recibieron los herbicidas 3 y 4 tuvieron los mayores rendimientos, seguidos por los herbicidas 2, 5 y 6. Sin embargo, los resultados del ANAVA para los conteos de malezas gramneas no ofrecen mucha informacin que concuerde con los datos de rendimiento. Cmo se puede explicar que 39.5 gramneas en promedio sean estadsticmaente igual a 5.1? La respuesta yace en la gran variabilidad
8

inicial que exista en la distribucin de las gramneas en el campo bajo estudio, la cual violaba los supuestos de normalidad y de homogeneidad de varianza, como lo expresan las pruebas de Shapiro-Wilk (p<0.0001) para normalidad y de Bartlett para homogeneidad de varianzas (p=0.0023). Cuando los mismos datos de enmalezamiento fueron sometidos a la prueba de Friedman, los resultados indicaron que los tratamientos con menos malezas gramneas fueron los de mayor rendimiento.

Pruebas no Paramtricas: Anlisis de Datos El anlisis de datos con distribucin libre puede realizarse con la mayora de los paquetes estadsticos que contengan rutinas no paramtricas. En las tablas 3 y 4, se presentan ejemplos de programas y sus respectivas salidas para anlisis de tablas de contingencia (2) y para la prueba de Friedman. Ambos fueron ejecutados con el programa Statistical Anlisis System (SAS, 1999).

Tabla 3. Se realizaron muestreos de incidencia del tizn tardo del tomate (Phytophthora infestans) en tres zonas de produccin de Florida (Bradenton, Immokalee y Gainesville), en las cuales se siembra la misma variedad del cultivo. En cada zona se eligieron 1000 plantas al azar y se determin la presencia o no de sntomas (con o sin). Se desea determinar si existe una dependencia entre la presencia de la enfermedad y la zona de siembra.
Comandos Programa SAS Explicacin

data tizon; input zona $ sintomas $ numero; cards; bradenton con 140 bradenton sin 860 immokalee con 240 immokalee sin 760 gainesville con 100 gainesville sin 900 proc freq; table zona*sintomas/chisq; weight numero; run; The FREQ Procedure Table of zona by sintomas Frequency Percent Row Pct Col Pct con Bradenton Gainesville Immokalee Total

Comando que identifica los datos a ser examinados. Comando que indica el orden en que se van a presentar los datos. Datos presentados en el siguiente orden: zona, incidencia, numero de plantas afectadas.

Comandos para estudio de frecuencias y tablas de contingencia (3x2), analizados con Chi-cuadrado. Salida SAS Salida presentando la tabla de contingencia 3x2 requerida en el programa.

sin 140 4.67 140.00 29.17 100 3.33 100.00 20.83

Total 1000 33.33

860 28.67 860.00 34.13 900 30.00 900.00 35.71 760 25.33 760.00 30.16

1000 33.33

240 8.00 240.00 50.00

1000 33.33

480 2520 3000 16.00 84.00 100.00 Statistics for Table of zona by sintomas DF Value Prob

Statistic

Chi-Square 2 Likelihood Ratio Chi-Square 2 Mantel-Haenszel Chi-Square 1 Phi Coefficient Contingency Coefficient Cramer's V Sample Size = 3000

7.7381 0.0209 7.5767 0.0226 3.7078 0.0542 0.1606 0.1586 0.1606

Salida presentando valores de Chi-cuadrado para la prueba de hiptesis.

10

En este caso, el valor p de 2 fue 0.0209, lo que indica que se debe rechazar la hiptesis nula al 5% de significancia, la cual indicaba que la incidencia de tizn tardo era independiente de la zona de siembra. Por lo tanto, se acepta la hiptesis alterna que establece que la incidencia de la enfermedad depende de la localidad en que se siembre tomate.

Tabla 4. En un estudio de campo se probaron tres herbicidas preemergentes para el control de coquillo (Cyperus rotundus) en fresas. El estudio se condujo en bloques completos al azar con 4 repeticiones. A las 6 semanas despus de la aplicacin, se contaron las densidades de la maleza en cada una de las unidades experimentales. Se desea saber cul herbicida fue ms efectivo controlando la maleza.
Comandos data fresas; input herb bloque coq; cards; 1 1 102 1 2 125 1 3 108 1 4 95 2 1 2 2 2 4 2 3 3 2 4 0 3 1 10 3 2 8 3 3 5 3 4 7 proc univariate data=fresas normal plot; var coq; run; proc sort; by bloque; proc rank data=fresas out=ranked; by bloque; Programa SAS Explicacin Comando que identifica los datos a ser examinados. Comando que indica el orden en que se van a presentar los datos. Datos presentados en el siguiente orden: herbicida, bloques, densidad de coquillo.

Comandos para estudio de distribuciones y normalidad. Comandos para ordenar los datos en orden ascendente por bloque Comandos para estudio de variables ordinales.

11

var coq; ranks rcoq; run; proc glm data=ranked; class herb bloque; model rcoq = herb bloque; means herb/lsd; run;

Comandos para el modelo de bloques completos al azar sy separacin de medias con DMS.

Salida SAS The UNIVARIATE Procedure Variable: coq Test Shapiro-Wilk Kolmogorov-Smirnov Cramer-von Mises Anderson-Darling Tests for Normality ---Statistic--W D W-Sq A-Sq The GLM 0.702204 0.382268 0.331308 1.747916 Procedure ---p Value--Pr Pr Pr Pr < > > > W 0.0009 D <0.0100 W-Sq <0.0050 A-Sq <0.0050

Salida abreviada presentando las diferentes pruebas de normalidad de datos. El estadgrafo de ShapiroWilk es significativo (p=0.009) al 5% de significancia para la variable rcoq. Salida abreviada presentando la significancia del modelo y de los herbicidas (p<0.001) al 5% de significancia para la variable rcoq.

Dependent Variable: rcoq Source Model Error Total R-Square 1.0000 Source herb bloque DF 5 18 23 Sum of Squares 64.0000 0.0000 64.0000

Rank for Variable coq Mean Square 12.8000 0.0000 rcoq Mean 3.5000 F Value Infty . Pr>F <.0001 . F Value Infty Pr>F <.0001

Coeff Var 0 DF 2 3

Root MSE 0

Type I SS Mean Square 64.0000 32.0000 0.0000 0.0000 The GLM Procedure t Tests (LSD) for rcoq

Alpha Error Degrees of Freedom Error Mean Square Critical Value of t Least Significant Difference t Grouping A B C Mean 5.500 3.500 1.500

0.05 18 0 2.10092 0 N 8 8 8 herb 1 3 2

Salida abreviada presentando la separacin de medianas (medias ordenadas) de los tratamientos.

Los datos analizados conducen al rechazo de la hiptesis nula (p<0.001). Por consiguiente, existen diferencias en la eficacia de los
12

herbicidas para el control de coquillo. La prueba de separacin de medias indica que las mayores densidades de coquillo ocurrieron con el herbicida 1, seguido por el 3, y luego el 2. Los procedimientos estadsticos no paramtricos descritos buscan ayudar en la planificacin, conduccin e interpretacin de experimentos. En todo caso, se debe tener precaucin en cuanto al uso apropiado de stos y consultar a un especialista en estadstica, si existen dudas sobre el uso de stos anlisis.

13

Literatura Citada Berenson, M.L. y D.M. Levene. 1992. Basic business statistics: Concepts and applications. 5th Ed. Prentice-Hall, Inc., EE.UU. 953 pp. Gilreath, J.P., B.M. Santos y T.N. Motis. 2003. Herbicide and mulch evaluations for weed management in west central Florida strawberries. Proc. Fla. State Hort. Soc. 116:(en imprenta). Ott, L., M.T. Longnecker y R.L. Ott. 2000. An introduction to statistical methods and data analysis. 5th Ed. Brooks-Cole Publ., EE.UU. 1184 pp. SAS Institute. 1999. SAS/STAT users guide. Software release 8. SAS Inst., EE.UU. Triola, M.F. 1992. Elementary statistics. 5th Ed. Addison-Wesley Publ., EE.UU. 730 pp.

14

También podría gustarte