Está en la página 1de 4

1 de 4 CONSIDERACIONES SOBRE LAS COMPARACIONES DE MEDIAS.

Para determinar la prueba de comparacin de medias a utilizar vamos a tener en cuenta tres criterios. CRITERIO 1. Qu es ms grave? Cometer el error tipo I o cometer el error tipo II? Primero, recordemos dos definiciones: error tipo I y nivel de significancia. -Error tipo I: Rechazar una hiptesis nula que es verdadera Nota: En el contexto de comparaciones de medias, el error tipo I consistira en afirmar que hay diferencias entre un par de medias cuando en realidad stas son estadsticamente iguales -Nivel de significancia: mxima probabilidad de error tipo I que el investigador dice que est dispuesto a tolerar (usualmente 5 %). Segundo, hay que tener claro que el nivel de significancia definido por el investigador es un nivel de significancia nominal, es decir, de nombre, pues puede ocurrir que la probabilidad real de cometer el error de tipo I sea inferior o superior a ese valor previamente establecido. La probabilidad de error tipo I real se puede interpretar como el porcentaje de rechazos errneos al usar una determinada prueba y la nica forma de estimarla es mediante simulacin. Es decir, con ayuda del computador se simulan poblaciones de datos, algunas con medias iguales y otras con medias diferentes, se toman muestras de estas poblaciones y se procede a aplicar las pruebas de comparacin de medias. En algunos casos las pruebas detectan diferencias que en realidad no existan y lo hacen un porcentaje de veces superior al establecido en el nivel de significancia nominal, es entonces cuando decimos que la probabilidad de error tipo I real supera al nivel de significancia nominal. En clase ya hemos visto que la diferencia mnima para considerar que dos medias son estadsticamente diferentes, depende de la prueba utilizada. Sabemos que con el mismo nivel de significancia y para un mismo conjunto de datos, si ordenramos de mayor a menor esas diferencias mnimas (o valores crticos) observaramos lo siguiente: Scheff > Tukey > Duncan > LSD Supongamos un experimento con 5 tratamientos, en el que se desean realizar todas las posibles comparaciones por pares, es decir, 10 comparaciones. Si para un conjunto de datos particular se realizan esas 10 comparaciones usando LSD y usando Scheff (ambas con =0.05) es muy probable (casi siempre pasa) que LSD declare ms diferencias significativas que Scheff. Es decir, es ms fcil declarar diferencias con LSD. Aquellas comparaciones en las que se obtienen resultados diferentes son justamente las que marcan las diferencias entre las dos pruebas: si en realidad provenan de

2 de 4 poblaciones diferentes, sera correcta la separacin realizada por LSD, y Scheff estara funcionando para ese caso con un nivel de significancia menor que el nominal. Si provenan de poblaciones iguales, sera correcta la no separacin indicada por Scheff, y LSD estara funcionando con un nivel de significancia mayor que el nominal. Qu se ha observado en las simulaciones? Segn los resultados obtenidos en los estudios de simulacin, LSD es proclive a cometer errores tipo I un porcentaje de veces mayor que el nominal, pero como contraparte est el hecho de ser la prueba ms potente. Scheff en cambio, es la prueba que mejor controla el error tipo I (pudiendo ser su nivel muy inferior al nominal), pero tiene el defecto de ser la prueba menos potente. Duncan y Tukey son pruebas de caractersticas intermedias. Obviamente, lo anterior es un juego de palabras, pues solo podra hablarse estrictamente de potencia para la capacidad de detectar diferencias verdaderas; cuando se declaran diferencias inexistentes, se est hablando ya de error tipo I. A partir de lo anterior, podemos hacer las siguientes recomendaciones a la hora de elegir una prueba de comparacin de medias: 1. Si en un experimento determinado es grave cometer el error de tipo II, entonces se recomienda utilizar la prueba LSD. En otras palabras, si en un experimento es muy inconveniente dejar de reconocer una diferencia existente y no lo es tanto declarar como diferentes tratamientos que en realidad no lo son, la prueba ms adecuada es LSD. La prueba LSD es la ms sensible para detectar diferencias entre tratamientos. Es tan potente que detecta diferencias hasta donde no las hay, y ah justamente radica su pecado. 2. Si en un experimento es grave cometer el error de tipo I, entonces se recomienda utilizar Scheff. En otras palabras, si en un experimento determinado es muy inconveniente declarar diferencias no existentes y no lo es tanto dejar de reconocer diferencias, Scheff es la prueba ms adecuada. Esta es la prueba que mejor controla el error tipo I. Puede tenerse alta certeza de que las diferencias declaradas por la prueba de Scheff son verdaderas. No obstante, queda la duda frente a posibles diferencias no detectadas por la prueba. 3. Si el investigador no tiene claro cul tipo de error puede ser ms delicado o si ambos son aproximadamente igual de graves, Duncan y Tukey son las pruebas. CRITERIO 2. Tamao de la muestra. Ustedes ya saben que existe una relacin directa entre el tamao de la muestra y la potencia de la prueba. A mayor tamao de la muestra, ms potente ser la prueba. Tomando esto en consideracin y teniendo en cuenta que muchos de nuestros experimentos, por no decir la mayora, tienen un tamao pequeo de muestra, habra que usar una prueba que balancee este efecto adverso, esto es, LSD. Si se tuviera una

3 de 4 situacin con un tamao de muestra grande, Scheff sera perfecta. En situaciones intermedias, Duncan y Tukey son las pruebas adecuadas. En el contexto del diseo de experimentos el tamao de la muestra depende no solo del nmero de repeticiones, sino tambin del nmero de tratamientos; esto se resume en grados de libertad para el error. O sea que la pregunta lgica Y qu es un tamao de muestra grande y qu es pequeo? Se convierte en Cuntos son muchos grados de libertad y cuntos son pocos? Aqu s toca aventurarnos un poco, yo me atrevera a hacer la siguiente recomendacin, muy personal, aceptando todo tipo de crticas: Si el error tiene menos de 15 grados de libertad, sese LSD. Entre 15 y 30 g. l. para el error, pude trabajarse con Duncan o Tukey. Scheff podra llegar a ser til en experimentos realmente grandes, esto es, con ms de 30 grados de libertad para el error. CRITERIO 3. Nmero de tratamientos. Se ha demostrado que a medida que aumenta el nmero de tratamientos a comparar, aumenta la probabilidad de cometer el error de tipo I. Especficamente en la prueba de LSD, este aumento puede llegar a ser superior al 20% cuando se tienen cinco o ms tratamientos. De acuerdo a lo anterior, se puede establecer una regla prctica: No usar LSD para todas las posibles comparaciones de medias cuando se tengan cinco o ms tratamientos (s podra usarse para contrastes). A manera de resumen, podemos jerarquizar los anteriores criterios as: 1) Nmero de tratamientos: Si t es mayor o igual a 5 (o la probabilidad de error global es mayor de 0.2), deber descartarse el uso de LSD, a no ser que se trate de contrastes. En tales casos solo se consideraran Duncan, Tukey y Scheff. 2) Si existe algn criterio sobre la gravedad relativa de los diferentes tipos de error, deber aplicarse, sabiendo que Scheff, Tukey, Duncan y LSD son, en ese orden, las pruebas que mejor controlan el error tipo I, pero tambin, en ese mismo orden, las de ms baja potencia (mayor riesgo de error tipo II). Es decir que debern usarse en ese orden, cuanto ms grave sea el error tipo I en relacin al error tipo II. 3) Si no se tiene un criterio muy claro sobre el numeral anterior o ambos tipos de errores son aproximadamente de la misma gravedad, se recurrira, entonces, al criterio de tamao de la muestra, evaluado a travs de los grados de libertad del error. En realidad, el nico criterio que claramente debe ir en la posicin asignada es el primero. Los que aparecen como segundo y tercer criterio, en realidad deberan evaluarse siempre simultneamente para ayudar a tomar la decisin sobre cul prueba utilizar. Aqu es importante tener claro que aunque el criterio sobre la importancia relativa de los diferentes tipos de error es el que est mejor fundamentado, es al mismo tiempo el que mayores dudas puede generar al investigador, pues generalmente es difcil identificar

4 de 4 cul de los dos tipos de error es ms inconveniente. Hagan el ensayo, en el ejemplo de los cinco fungicidas Qu es ms grave? Cometer el error de tipo I o el error de tipo II? Aunque no se incluy en los temas del curso, aprovecho para mencionar una situacin poco frecuente, pero que podra presentarse. Hay experimentos en los que uno de los tratamientos hace las veces de un control, si es de inters hacer todas las comparaciones posibles entre s, se seguiran las recomendaciones mencionadas anteriormente. Pero puede ocurrir, esta es la parte a la que me refiero como poco frecuente, que al investigador solo le interese hacer las comparaciones de cada tratamiento contra el control, pero no las de todos contra todos, en esos casos la prueba de comparacin de medias a usar se llama Dunnett y en cualquier libro de diseo de experimentos pueden encontrar informacin al respecto.

También podría gustarte