Está en la página 1de 16

Significancia Estadstica vs Significancia Prctica:

Excomulgando al p 0.05

Jhonatan S. Navarro Loli*

Universidad Nacional Federico Villarreal

* Estudiante de psicologa de VIII ciclo. Email: jhonatan_navarro1602@yahoo.es


Significancia Estadstica vs Significancia Prctica:

Excomulgando al p 0.05

Resumen

En este trabajo se proporciona informacin relevante sobre los errores y consecuencias que
ocasiona el realizar inferencias tomando como nico respaldo cientfico la significacin
estadstica debido a que esta se ve influenciada, al mismo tiempo que los resultados, por dos
factores importantes: el tamao muestral y la magnitud del efecto. Debido a este motivo es que
todo investigador al momento de realizar un anlisis de resultados en base a pruebas
estadsticas debe de reportar necesariamente, la estimacin de la magnitud del efecto porque a
travs de este ndice obtenemos un indicador de la diferencia o efecto de un tratamiento, as lo
recomienda el manual de la American Psychological Association incluso recomienda sustitutos
del valor p. Se presentan ejemplos de uso y aplicacin de ambas tcnicas.

Palabras claves: significancia estadstica, significancia prctica, magnitud del efecto.


Statistical Significance vs. Practical Significance:
Excommunicating the p <0.05

Abstrac

This work provides relevant information about the errors and the consequences resulting
inferences taken as the only scientific support statistical significance because this is influenced,
while the results for two important factors: the sample size and effect size. Because of this
reason is that the researcher when performing an analysis of results based on statistical tests
necessarily must report the estimate of effect size because through this index we obtain an
indicator of the difference or effect of a treatment, as recommended by the manual of the
American Psychological Association even recommends replacement of the value p. Examples
are given of use and application of both techniques.

Keywords: statistical significance, practical significance, effect size.


Introduccin

En ciencias sociales y ciencias de la salud no se acostumbraba a utilizar mtodos estadsticos


que pongan a prueba las evidencias encontradas en las investigaciones, esto ocurra en la
primera mitad del siglo XX. Tendra que pasar un tiempo para que se desarrollen y consoliden
los mtodos estadsticos dentro de estas reas.

Uno de los principales aportes de la estadstica a las ciencias sociales y ciencias de la salud es
la prueba de hiptesis basada en el clculo del estadstico p o mejor conocidas como prueba
de significancia estadstica (PSE) las cuales nacen debido a un intento de fusionar dos
perspectivas originalmente contrapuestas, lo que dara como resultado a la prueba estadstica
de hiptesis que actualmente se conoce (Gigerenzer, 1993). Esta fusin nace de los mtodos
desarrollados por Fisher en1922, que permita valorar el grado de incompatibilidad de los datos
con una hiptesis y el otro formulado por Neyman y Pearson, en 1928, que se basaba en la
eleccin entre dos hiptesis. La fusin toma de Fisher su valor p para usarlo como un ndice
que mide la fuerza de la evidencia y toma de Neyman y Pearson el propsito de adoptar una
decisin consistente en rechazar la hiptesis nula si el valor de p es pequeo (normalmente,
cuando p<0.05) y en no rechazar la hiptesis nula, si el valor de p es ms grande.

El punto central de todo anlisis de la prueba de hiptesis es el rechazo de la hiptesis nula


(Ho) y es por este motivo esencial la comprensin de la lgica que hay detrs de esta. La Ho
representa la afirmacin de que no hay asociacin entre dos variables estudiadas y la hiptesis
alternativa (Ha) afirma que hay algn grado de relacin o asociacin entre las dos variables.
Todo este proceso tiene como punto central al valor p que segn Fisher es un mtodo para
obtener conclusiones validas a partir de unos datos (inferencias).

Las opiniones respecto a las PSE son muy variadas y polmicas. Algunos (por ejemplo, Carver,
1978, 1993, Schmidt, 1996) han argumentado que las PSE es un medio usado en exceso, se
abusa de ella en la evaluacin de resultados de las investigaciones y debe ser prohibido. Otros
(por ejemplo, Cohen, 1990, 1994, Kirk, 1996;Thompson, 1999) han argumentado que estas
pruebas deben ser utilizados e interpretados correctamente, y que otros estadsticos,
especialmente los tamaos del efecto, deben recibir mayor atencin. Otros autores (por
ejemplo, Cortina y Dunlap, 1997; Frick, 1996) en oposicin han argumentado que hay poco o
nada de malo en las prcticas contemporneas de anlisis con PSE, aunque la mayora de
estos argumentos se han visto que son infundamentados y defectuosos (Hagen, 1997;
Thompson, 1998).

Para efectos de la presente investigacin se brindara informacin relevante sobre los problemas
metodolgicos inherentes a las PSE y cuales son las desventajas que ocasiona al momento de
utilizarlas en una investigacin. Tambin se presenta informacin con respecto a algunos
estadsticos que pueden ser complementarios o incluso reemplazar a las PSE.

Problemas metodolgicos de la prueba de significacin estadstica

La PSE durante mucho tiempo fue la nica evidencia de rigurosidad cientfica que los
investigadores utilizaban para reportar sus hallazgos. Esto ocurra debido a que exista la
creencia de que la ciencia solo avanzaba a travs de la inferencia inductiva y que la inferencia
inductiva se logra a travs de rechazar la hiptesis nula (cohen, 1990). Adems se llegaron a
convertir en la base de la inferencia estadstica en las ciencias del comportamiento debido a
que ofrecan un esquema mecnico, determinista y objetivo, independiente del contenido y
dirigido a claras decisiones si-no (Cohen, 1990).

A pesar de contar con un slido respaldo por los investigadores, en las ultimas dos dcadas
aument la frecuencia de publicaciones con crticas, en las diversas disciplinas que se utilizaba
la PSE, que ponan en cuestionamiento la utilizacin de la PSE (Anderson, Burnham, y
Thompson, 2000), siendo una de las principales la referida a la mala interpretacin por parte del
investigador de los valores p porque se tiende a atribuir que una prueba que tenga un resultado
estadsticamente significativo lleva una relacin de causa-efecto (Rebasa, 2003). Esta
atribucin es un grave error, sobre todo en ciencias de la salud, porque el valor p solo nos
indica que el efecto no es nulo.

Hay una gran confusin con respecto a los valores p y la Ho. En psicologa las PSE buscan
rechazar la Ho a travs de resultados p significativos o en algunos casos muy significativos.
Esto es un error recurrente. Antes de iniciar cualquier contraste de hiptesis los investigadores
deben de saber que el valor p solo nos indica la probabilidad de los datos, en el supuesto que la
hiptesis nula sea verdadera (Berger & Sellke, 1987), dicho de otra manera: los datos
obtenidos son diferentes a lo que se esperaba por intervencin del azar o son diferentes porque
algo las hace diferentes? En realidad la significacin estadstica, es decir, la comprobacin de la
hiptesis nula, slo tiene sentido cuando es razonable suponer que la hiptesis nula es
verdadera, pero no ante cualquier situacin. Para esto se debe de tener un buen respaldo
terico (Llobell, Fras y Fernando, 2004). Adems hay que tener en cuenta que rechazar una
determinada Ho no aporta ninguna base para estimar la probabilidad de que en una replica de
la investigacin de nuevo d rechazo a la Ho (Cohen, 1990).

Otra critica es que la PSE se basan en un esquema dicotmico y mecanicista (cualidad que en
su momento fue un punto a su favor), por lo que no le proporcionan al investigador los recursos
inferenciales necesarios para entender a fondo la realidad que examina (Nickerson, 2000).
Cohen (1994) tambin afirm que el ritual dicotmicos rechazar-aceptar la decisin sobre la
base de la PSE, aunque sea objetiva, no es la manera de hacer ciencia.

Un tema importante que debemos de tener en cuenta es que un resultado estadsticamente no


significativo slo indica que es compatible con la hiptesis nula porque la discrepancia es
pequea. Es un error tambin muy frecuente interpretar que el resultado negativo es sinnimo
de hiptesis nula demostrada debido a que slo indican que los datos no consiguen aportar
suficiente evidencia para dudar de la credibilidad de la hiptesis nula.
Cohen en 1990 realiz una reflexin muy interesante respecto al rechazo de la Ho. En ella nos
plantea que la Ho, en sentido literal, siempre es y ser falsa en el mundo real. Solo puede ser
verdadera en las entraas de un procesador que realice un estudio Monte Carlo. Si es falsa, en
grado minsculo, es posible que una muestra suficientemente grande produzca un resultado
significativo. Ante esto surge una gran pregunta: Qu gana la psicologa rechazando la Ho?

La significacin estadstica depende tanto de la magnitud del efecto investigado como del
nmero de sujetos incluidos en el estudio. Es lgico que los estudios realizados con muestras
demasiado pequeas tiendan a dar resultados estadsticamente no significativos a pesar de que
el efecto investigado tenga tamao suficiente para ser considerado clnicamente interesante
(Rebasa 2003). De la misma manera, estudios con muestras demasiado grandes tienden a dar
resultados estadsticamente muy significativos, aunque el tamao del efecto investigado sea
irrelevante y carezca de inters clnico. Del mismo modo cuando se plantean hiptesis triviales
desde el punto de vista terico donde la hiptesis nula es razonablemente falsa de tal modo que
rechazarla es cuestin de potencia estadstica, realizar el contraste estadstico tambin resulta
absurdo (Fras, Pascual y Garca, 2000).

Qu es la magnitud del efecto?

El debate sobre la calidad y la pertinencia del enfoque de la PSE para la inferencia estadstica
ha motivado a investigar mtodos alternativos que pueden aadir significado prctico a los
datos (Vacha-Haase y Thompson, 2004). Esto es importante porque la investigacin en
psicologa cuenta con ciertas peculiaridades que hacen que no se ajusten a los sistemas
mecanicistas de las PSE, y es por eso que en la actualidad se plantea la necesidad de ir ms
all de las PSE. Esta bsqueda de la utilizacin de otros recursos para la investigacin cientfica
est directamente motivada por la significacin prctica (calculo de la magnitud del efecto) que
el rea de la psicologa aplicada demanda con insistencia (Aiken, West, Sechrest y Reno, 1990;
Kirk, 1996).
Un estadstico que puede ayudar al investigador a no caer en los errores mencionados
anteriormente y que adems es el producto primario de toda investigacin, en lugar de los
valores p (cohen 1990), es la magnitud del efecto (ME). Esta se define como la magnitud de un
efecto o una diferencia entre dos grupos, y es importante porque al investigador le interesa
saber en qu medida se espera este fenmeno en la poblacin (Cohen, 1992). Los valores de
la ME se pueden utilizar para informar y realizar una juicio con respecto a la importancia
prctica de los resultados del estudio (Kirk, 1996) siendo este el motivo que esta tcnica posee
inters prctico en Psicologa, no slo como complemento necesario a la pruebas de hiptesis,
sino tambin porque ofrecen una mtrica comn sobre la cual integrar los resultados de la
investigacin en estudios de meta-anlisis (Anderson, 1999).

Cabe recalcar que la cuantificacin de la ME cuenta con gran respaldo en la comunidad


cientfica considerndola fuertemente debido a las numerosas crticas que reciba la PSE. El
Consejo de Asuntos Cientficos de la American Psychological Association (APA) nombr al
Grupo de Trabajo para la Inferencia Estadstica (TFSI) (APA, TFSI, 1996, vase Nasser-Abu &
Levy, 2009) para investigar la crtica de la PSE incluyendo una propuesta para prohibir PSE de
revistas de la APA. Un informe final fue publicado en el American Psychologist (Wilkinson y APA
TFSI, 1999, vase Nasser-Abu & Levy, 2009), que recomienda no dar mucha importancia a la
PSE en la investigacin psicolgica y en lugar de ello comunicar valores de magnitud del efecto
(ME) e intervalos de confianza (IC). Estas recomendaciones fueron redactadas para la quinta
edicin del Manual de Publicacin de la APA, (Filder, 2002). Este inters ha llevado a la
American Psychological Association (APA) a alentar su uso entre los investigadores en
Psicologa (Thompson, 1998). En junio de 2006, el Consejo de la American Educational
Research Association estableca las normas para la presentacin de informes sobre la
investigacin emprica en ciencias sociales en las publicaciones. En ella se recomienda incluir
un ndice de error estndar, ME e IC para la ME, y la interpretacin cualitativa de la ME para
cada resultado estadstico (Nasser-Abu & Levy, 2009).

Existen varios estimadores de la magnitud del efecto, siendo la d de cohen (Cohen, 1988,
vase Cohen 1994), el mas utilizado en las publicaciones especializadas para el calculo de la
ME y en los estudios meta-analticos (Hunter & Schmidt, 2004, vase Ledesma, Macbeth &
Cortada de Kohan, 2008).

El clculo de la d de cohen es sencillo y se realiza con la siguiente formula:

d = [Media del grupo experimental] [Media del grupo control]

Desviacin Estndar

La relacin entre estas tres medidas de la ME depende bsicamente de la variabilidad interna


de cada grupo puesto a comparacin. Esta situacin, que en cierta medida puede resultar ideal,
es poco posible debido a las variaciones que genera el error de muestreo, entendido como el
conjunto de diferencias que se observan entre diversas muestras aleatorias obtenidas de una
misma poblacin (Hunter & Schmidt, 2004, vase Ledesma, Macbeth & Cortada de Kohan,
2008).

Algo que se debe de recalcar y que es de mucha importancia para la interpretacin de la ME es


que se debe de tener claro desde el principio que el valor de la estimacin del ME debe ser
interpretado en el contexto del estudio y rea de investigacin porque un pequeo tamao del
efecto puede ser de gran importancia prctica en un contexto concreto por ejemplo de
intervencin clnica

Interpretacin de la magnitud del efecto

La interpretacin de la ME se comprende mejor con un ejemplo. Cohen (1969, p23; vase Coe
& Merino, 2003) describe un ME de 0.2 como pequeo y lo ilustra con un ejemplo: la diferencia
entre los pesos de adolescentes de 15 y 16 aos de edad en USA corresponde a un efecto de
este tamao. Un ME de 0.5 lo describe como medio y es tan grande como para ser visto a
simple vista. Un efecto de 0.5 corresponde a la diferencia entre los pesos de dos
adolescentes de 14 y 18 aos de edad. Cohen describe un ME de 0.8 como bastante
perceptible y por lo tanto, grande y lo iguala a la diferencia entre los pesos de dos nias de 13
y 18 aos. Como ejemplo adicional, Cohen seala que la diferencia entre el CI de un postulante
a un Ph.D. y un alumno promedio de universidad en comparable a un ME de 0.8.

Para realizar la interpretacin de la ME hay que tener muy en claro que este no es un proceso
mecnico (Cohen, 1990). Esta depende de la relacin de esta con otros criterios relevantes del
razonamiento estadstico (Gigerenzer, 1993; Thompson, 1998), siendo uno de los aspectos ms
relevantes para la interpretacin la relacin con el poder estadstico (Cohen, 1994), entendido
como la probabilidad que posee una prueba de obtener resultados significativos. El poder o
potencia se define como 1 , siendo la probabilidad de aceptar errneamente la hiptesis
nula (Cohen, 1992). A su vez, el poder estadstico es una funcin matemtica que depende del
tamao de la muestra, del nivel de significacin estadstica (valor p) y de la ME. De esta
manera, el ME ha sido entendido como un complemento necesario para el anlisis de los datos
empricos en la prueba de hiptesis tradicional (Cortina & Dunlap, 1997). Cuando la potencia
aumenta, la ME se aleja de cero, lo que implica el rechazo de la hiptesis nula, esto debido a
que existe una relacin directamente proporcional entre ME y poder lo que trae como
consecuencia que se disminuya la probabilidad de cometer un error de tipo II.

Considerar la ME en el contexto de la prueba de hiptesis es una manera de controlar tanto el


valor de (probabilidad de cometer un error de tipo I), como el valor de (probabilidad de
cometer un error de tipo II). De esta manera, cuanto mayor sea la ME, menor resulta el tamao
de la muestra que se necesita para detectar la ocurrencia poblacional de un fenmeno.

Al tratarse de una estimacin del tamao del efecto en la poblacin, puede calcularse un
intervalo de confianza en tomo suyo.
Intervalos de confianza

El clculo de los intervalos de confianza (IC) es un til completo o incluso un buen sustituto, a
las PSE (Bakan, 1966; Cohen, 1990; Loftus, 1991, 1993, 1995, 1996; Loftus y Masson, 1994;
vase Valera y Snchez, 1997). El principal argumento a favor de que las pruebas de
significacin deban sustituirse por intervalos confidenciales sostiene que, mientras las PSE slo
responden a la cuestin de si unos estadsticos que representan parmetros difieren altamente,
los intervalos confidenciales, adems de esta informacin, estiman los parmetros, ofrece
informacin indicando la direccin y la magnitud de la diferencia.

El clculo de los IC simplemente comprueba la confianza de acuerdo con una distribucin de


probabilidad de que el verdadero valor poblacional se encuentre comprendido dentro de un
rango de estimaciones (Valera y Snchez, 1997).
Conclusiones

Las PSE, forman parte fundamental del material que se imparte en los cursos de estadstica
inferencial dictado en las universidades en nuestro contexto y adems en la mayora de
investigaciones que se realizan en nuestro medio, observamos que estn giran alrededor de
ellas. Una vez que aprendemos a manejarlas a travs de una computadora haciendo solo un
click, el estudiante o investigador no duda en aplicarlas libremente sin ningn control, no
teniendo en cuenta toda la lgica que hay detrs de un simple click y de un simple cuadro con
resultados, olvidando que el anlisis estadstico es solo un elemento ms que ha de sumarse a
todas las evidencias cientficas y resultados de investigaciones anteriores para poder realizar
inferencias y conclusiones. Es por este motivo que se comenten muchos errores siendo el mas
grave el de convertir en una conclusin algo que no pasa de ser un resultado estadstico sin
valor alguno en la investigacin psicolgico porque esta no se puede limitar al reduccionismo
estadstico.

Algo comn en muchas de las investigaciones nacionales e internacionales es que santifican la


palabra significativo o estadsticamente significativo (o sinnimos de ella) otorgndole un
significado de que se esta obteniendo un resultado importante o de que su investigacin es
exitosa, prcticamente hace de que su investigacin gire en torno a encontrar estos resultados.
Todo esto ocurre porque no se tienen en cuenta las implicaciones que trae consigo tomar este
tipo de decisiones, esto a pesar de que hoy en da la mayora de los investigadores
desaconsejan su uso debido a las graves deficiencias de estas pruebas y a su dudosa utilidad
en comparacin con otros mtodos de anlisis inferencial.

En contraste, la ME ha demostrado a travs del tiempo, debido a los numerosos respaldos


cientficos ser importante porque, como ya se mencin es un complemento necesario de las
PSE (Cohen, 1994) porque nos permite tener una apreciacin clara y directa de la magnitud de
las variables, ofreciendo una interpretacin adecuada de los resultados, lo que llevara al
investigador a realizar inferencias que no estn muy influenciadas por fuentes de error,
convirtindose as en una opcin que todo investigador debe de tener en cuenta al momento de
la interpretacin de resultados.
Referencias

Aiken, L. S., West, S. G., Sechrest, L. y Reno, R. R (1990). Graduate training in statistics,
methodology and measurement in psychology. American Psychologist, 45, 721-
734.Anderson, G. (1999). The Role of Meta-Analysis in the Significance Test
Controversy. European Psychologist, 4, 2, 75-82.

Anderson,D.R.,Burnham,K. P.,&Thompson,W.L. (2000).Null hypothesis testing: Problems,


prevalence, and an alternative. Journal of Wildlife Management, 64, 912-923.

Berger J, Sellke T. Testing a point null hypothesis: the irreconcilability of P-values and evidence.
J Am Stat Assoc, 82, 112.

Carver,R. (1978). The case against statistical significance testing.Harvard. Educational Review,
48, 378-399.

Carver, R. (1993). The case against statistical significance testing, revisited. Journal of
Experimental Education, 61, 287-292.

Cohen. J. (1962). The statistical power of abnormal-social psychological research: A review.


Journal of Abnormal and Social Psychology, 69, 145-153.

Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.

Cohen, J. (1992). Fuzzy Methodology. Psychological Bulletin, 112, 3, 409-410.

Cohen J. (1994). The earth is round (p<.05). American Psychologist; 49, 12, 997-1003.

Cortina, J. & Dunlap, W. (1997). On the Logic and Purpose of Significance Testing.
Psychological Methods, 2(2), 161-172.

Coe, R. & Merino, C. (2003) Magnitud del efecto: Una gua para investigadores y usuarios.
Revista de Psicologa PUCP, 21(1), 147-177.

Fisher, R. (1922). On the mathematical foundations of theoretical statistics. Philosophical


transactions of the Royal Society of London 1922; 222A:309-68.
Filder, F. (2002). The fth edition of the APA publication manual: Why its statistics
recommendations are so controversial. Educational and Psychological Measurement, 64,
749-770.

Frick, R. W. (1996). The appropriate use of null hypothesis testing. Psychological Methods, 1,
379-390.

Fras, M., Pascual, J. y Garca, J. (2000). Tamao del efecto del tratamiento y significacin
estadstica. Psicothema,12,2,236-240.

Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. En G. Kereng y
C. Lewis (eds.), A handbook of data analysis in behavioral sciences: methodological
issues (pp. 311-339). Hillsdale, NJ: Lawrence Erlbaum Associates.

Hedges, L. (1981). Distribution theory for Glasss estimator of effect size and related estimators.
Journal of Educational Statistics, 6, 107128.

Kirk, R. (1996). Practical significance: a concept whose time has come. Educational and
Psychological Measurement; 56, 746-759.

Ledesma, R. , Macbeth, G. & Cortada de Kohan, N. (2008). Tamao del efecto: revisin terica
y aplicaciones con el sistema estadstico vista, Revista Latinoamericana de Psicologa,
40, 3, 425-439.

Neyman, J. & Pearson, E. (1928). On the use and interpretation of certain test criteria for
purposes of statistical inference (Part I). Biometrika, 20A:175-240.

Nickerson R. (2000). Null hypothesis significance testing: a review of an old and continuing
controversy. Psychol Meth, 5, 2, 241301.

Nasser-Abu, F. & Levy, A. (2009). Effect Size Reporting Practices in Published Articles.
Educational and Psychological Measurement, 69, 2, 245-265.

Rebasa, P. (2003). Entendiendo la p0.001. Cir Esp, 73, 63, 61-5.

Schmidt, F. L. (1996). Statistical significance testing and cumulative knowledge in psychology:


Implications for the training of researchers. Psychological Methods, 1, 115-129.
Thompson, B. (1998). Statistical signicance and effect size reporting: Portrait of possible future.
Research in the Schools, 5(2), 33-38.

Thompson,B. (1999). Statistical significance tests, effect size reporting, and the vain pursuit of
pseudo-objectivity. Theory & Psychology, 9(2), 191-196.

Vacha-Haase, T. & Thompson, B. (2004). How to estimate and interpret various effect sizes.
Journal of Counseling Psychology, 51, 473-481.

Valera, A. y Snchez, M. (1997). Pruebas de significacin y Magnitud del efecto: Reflexiones y


propuestas. Anales de Psicologa, 13, 1,85-90.