Está en la página 1de 5

METODOS ESTADISTICOS Y VALOR P (P-VALUE): HISTORIA DE UNA CONTROVERSIA Emma Fernndez Loureiro, Pablo Garca (Universidad de Buenos Aires,

Facultad de Ciencias Econmicas, Instituto de Investigaciones en Administracin, Contabilidad y Matemtica. Seccin de Investigaciones en Matemtica (Estadstica y Econometra) INTRODUCCIN Segn Mosterin (1978). El mundo percibido es la resultante de al menos dos factores: nuestro aparato sensorial y el mundo exterior...El mundo pensado es tambin la resultante de al menos dos factores: nuestro sistema conceptual y el mundo real... En nuestra actividad cientfica tenemos que partir de nuestro aparato sensorial y del sistema conceptual plasmado en nuestro lenguaje ordinario o comn. Pero difcilmente podra ponerse en marcha la empresa cientfica si no nos fuera posible trascender las limitaciones de nuestro aparato sensorial y conceptual. Mediante instrumentos materiales apropiados, que son como extensiones de nuestros sentidos....(telescopios, balanzas...) podemos captar mensajes y radiaciones inasequibles a nuestro aparato sensorial. De igual modo, podemos extender y precisar nuestro sistema conceptual introduciendo conceptos ms precisos y de mayor alcance que los del lenguaje ordinario, conceptos cientficos que nos permiten describir hechos y formular hiptesis con una precisin y universalidad crecientes. Una manera de extender ese sistema conceptual es la elaboracin de nociones estadsticas como el valor p (p-value), de la que nos ocuparemos en el presente trabajo. En los albores del siglo XIX predominaba el determinismo filosfico: todo lo que ocurriera estaba predeterminado por las condiciones iniciales del universo y las frmulas matemticas que describan sus movimientos. La medicin precisa predomina ba. El aporte de Laplace con la descripcin matemtica de su teora de los errores (1820) fue un paso importante para el paulatino cambio de la 1 filosofa reinante . A medida que el determinismo filosfico se iba diluyendo, modificndose consecuentemente la visin del mundo dominante, la idea de una medicin precisa de los fenmenos reales fue cediendo paso a complicados instrumentos de medicin, necesarios para dar cuenta de un mundo que haba dejado de ser predecible. Desde nuestra visin, dirigida arbitrariamente a la disciplina Estadstica, aceptamos la propuesta de Salsburg (2001) de la revolucin estadstica. Este autor propone como fecha de inicio los trabajos de Karl Pearson (1857-1936) hacia fines del XIX. Admite tambin que se pueden encontrar ejemplos en trabajos de Matemticos alemanes y franceses a principios de ese siglo as como trabajos del astrnomo J. Kepler en el siglo XVII. Gradualmente (hacia el final del siglo XIX) la ciencia comenz a trabajar con un nuevo paradigma, el modelo estadstico real. Hacia el final del siglo XX, casi todas las ciencias se haban inclinado a utilizar modelos estadsticos. La formulacin, por parte de Pearson, de la familia de distribuciones asimtricas signific un paso ms, en la direccin sealada, sobre la distribucin simtrica de Laplace. Pearson supona que este sistema de curvas podra describir cualquier tipo de coleccin de nmeros. Cada distribucin de esta familia se identifica con cuatro nmeros: media, desvo estndar, asimetra y kurtosis. No obstante las crticas realizadas por Fisher (muchos de los mtodos eran menos que ptimos) y Neyman (no cubra el universo de las posibles distribuciones), el sistema de curvas de Pearson sigue vigente en nuestros das. Pearson desarroll una herramienta estadstica bsica: la prueba de chi cuadrado de bondad de ajuste. Esta prueba permite determinar si un conjunto de observaciones responde a cierta funcin matemtica de distribucin. Demostr que la distribucin de la prueba es la misma cualquiera sea el tipo de dato usado. Esto significa que pudo tabular la distribucin de probabilidad de este estadstico y usar el mismo conjunto de tablas para cada una de las pruebas. En un trabajo de 1922 Fisher demostr que en el caso de comparacin de dos proporciones el valor del parmetro de Pearson era errado. Este error no invalida la importancia de esta prueba utilizada hasta nuestros das. Segn Salsburg la prueba de bondad de ajuste de Pearson fue el disparador de la componente principal del anlisis estadstico moderno: la contrastacin de hiptesis (hypothesis testing) o prueba de significacin (significance testing).

Los trabajos de Laplace en astronoma abarcan los finales del siglo XVIII y principio del XIX.

Para nuestro propsito es necesario recordar a Ronald Fisher (1890-1962), el gran contrincante de Pearson. En 1935 escribi The Design of Experiments. La importancia de esta obra radica, segn Salsburg, en la discusin respecto de las diversas formas en que podra disearse el experimento y sus posibles resultados. Sigue Salsburg despus de Fisher los experimentos dependan de la idiosincrasia de cada cientfico. Fue particularmente cierto en investigacin en agricultura hacia fines del siglo XIX y principios del XX. Su anlisis de varianza y blocks aleatorizados tuvieron origen es esta disciplina. Dice Kuehl (2001): Nadie ha tenido tanto impacto en los principios estadsticos del diseo de experimentos en su tiempo como Ronald A. Fisher...desarroll y consolid los principio bsicos de diseo y anlisis que hasta la fecha son prcticas necesarias para llegar a resultados de investiga cin vlidos. Hacia fines de la dcada de los 20 y principios de la de los 30 Egon Pearson (1895-1980), hijo de Karl, y Jerzy Neyman (1894-1980) afirmaron que las pruebas de significacin no tendran sentido si no hubiera, al menos, dos hiptesis posibles que llamaron: hiptesis nula (la de Fisher) y a la otra, alternativa. Esto es la conocida teora de pruebas de hiptesis (hypothesis testing) de NeymanPearson. EL VALOR P (p-value) Origen En las pruebas de significacin y diseo de experimentos Fisher utiliz el valor p (p-value) que es la probabilidad que permite declarar la significacin (significant) de una prueba. Segn Salsburg El trmino significacin (significant) en los primeros desarrollos de esta idea se usaba para indicar que la probabilidad es suficientemente pequea como para rechazar la hiptesis planteada. Este es el concepto que an perdura. Sigue Salsburg: El (Fisher) no tena dudas acerca su importancia y utilidad (valor p). Gran parte de su Statistical Methods for Research Workers (1925) est dedicado a mostrar como se calcula el valor p. En el libro Fisher no describe de donde derivan estos tests y nunca dice exactamente que valor p puede considerarse significativo. En su lugar presenta ejemplos de clculos y notas si el resultado es o no significativo. En un ejemplo que muestra el valor p menor que 0.01 dice: Slo un valor en cien exceder (el test estadstico calculado) por casualidad, entonces la diferencia entre los resultados es claramente significativa Para Fisher un test de significacin tiene sentido slo en el contexto de una secuencia de experimentos referidos a un tratamiento especfico... De la lectura de los trabajos de aplicacin de Fisher se puede deducir que us los tests de significacin para una de tres posibles conclusiones: Si el valor p es muy pequeo (usualmente menos de 0.01) declara que un efecto ha sido demostrado. Si el valor p es grande (usualmente mayor que 0.20) el declara que si hay un efecto es tan pequeo que ningn experimento de ese tamao es capaz de detectarlo. Si el valor p est entre esos dos valores discute como disear un nuevo experimento para tener una idea mejor del efecto. Recordemos que para Fisher la hiptesis a contrastar es que no existe diferencia entre los tratamientos. Segn Salsburg para distinguir entre la hiptesis usada por Fisher para calcular el valor p y otras posibles hiptesis Neyman y E. Pearson llamaron hiptesis nula a la hiptesis a contrastar y a la otra, hiptesis alternativa. En esta formulacin, el valor p es calculado para contrastar la hiptesis nula pero la potencia de la prueba se refiere a como este valor p funcionar si la alternativa es, en los hechos, verdadera. La potencia de la prueba es una medida de cuan buena es la prueba. Dadas dos pruebas la de mayor potencia sera la mejor a usar. De modo muy sinttico recordemos que la Teora de Neyman-Pearson, cuya estructura matemtica es aceptada hasta nuestros das, establece, como hemos dicho, dos hiptesis posibles: la nula y la alternativa. Segn los autores existen dos fuentes de error: rechazar la hiptesis nula cuando es verdadera (nivel de significacin, o error de tipo I) y no rechazar la cunado es falsa (o error de tipo II). Sus contrapartidas, en sentido probabilstica, son las decisiones correctas de no rechazar una hiptesis cuando es verdadera (1- y rechazarla cuando es falsa (1- esto ltimo es la potencia de ) ), la prueba. Segn Gujarati (2006) (pag. 114) Lo ideal sera que minimizramos ambos tipos de errores. Pero, por desgracia, para cualquier tamao muestral, no es posible minimizar ambos errores de manera simultnea. el planteamiento clsico de este problema, incorporado en los trabajos de los estadsticos

Neyman y Pearson, consiste en suponer que es ms probable que un error de tipo I sea ms grave, en la prctica, que uno de tipo II. Por tanto, deberamos intentar mantener la probabilidad de cometer error de tipo I a un nivel bastante bajo, como 0.01 0.05, y despus minimizar el error de tipo II todo lo que se puedaLa nica forma de reducir un error de tipo II sin aumentar un error de tipo I es aumentar el tamao de la muestra, lo que no siempre resulta fcil. Siguiendo a Salburg admitimos que el uso de pruebas de significacin de Fisher produce un nmero que llam valor p. Es una probabilidad calculada, una probabilidad asociada a los datos observados bajo el supuesto de que la hiptesis nula es verdadera. El valor p es una probabilidad, y as es como se calcula. El valor p (p-value) en el siglo XXI Si bien tratamiento del valor p se le asigna a Fisher entendemos que Karl Pearson lo us en su Prueba de chi cuadrado para la bondad de ajuste que es anterior al la denominacin de valor p segn Fisher. Segn sigamos el punto de vista de Fisher o el de Neyman-Pearson, en su origen, el valor p tena significados tericos levemente diferentes. Sin embargo, con el avance de la tecnologa y la difusin de softs estadsticos su diferencia terica, en apariencia, se desdibuja. Una seleccin arbitraria de los libros de texto para Administracin y Economa editados en el siglo XXI nos ayudan a avalar esta idea: - BERENSON, M. L.; LEVINE, D. M.; KREHBIEL, T. C. (2001) (pag. 319): En aos recientes, con el advenimiento de los paquetes estadsticos y las hojas de clculo, el concepto de valor p tiene una aceptacin crecienteel valor p es la probabilidad de obtener un estadstico de prueba igual o ms extremo que el resultado obtenido a partir de los datos muestrales, dado que la hiptesis Ho es en realidad cierta - GUJARATI, N. G. (2006) (pag. 120): El taln de Aquiles del planteamiento clsico para la contrastacin de hiptesis es la arbitrariedad en la eleccin de Aunque 1, 5, y 10 por ciento en los . valores comnmente utilizados para no hay nada inviolable en estos valoresEn la prctica, es , preferible encontrar el valor p (es decir, el valor de probabilidad), tambin conocido como nivel exacto de significativadad del estadstico de prueba. Este valor se puede definir como el menor nivel de significatividad al que se puede rechazar una hiptesis nula. Preferimos utilizar el trmino significacin en lugar de significatividad puesto que esta ltima no figura en el diccionario de Real Academia Espaola (www.rae.es). - LIND, D. A.; MARCHAL, W. G. MASON, R. D. (2004) (pag.347): En aos recientes, debido a la disponibilidad de los programas de cmputo (software), se proporciona con frecuencia informacin adicional relativa a la fuerza del rechazo El valor p es la probabilidad de observar un valor muestral tan extremo, o ms extremo, que el valor observado, dado que la hiptesis nula es cierta. - LEVINE, D. M.; KREHBIEL, T. C; BERENSON, M. L. (2006) (pag. 281): La mayora de los programas de cmputo moderno, incluyendo Excel, Minitab y SPSS calculan el valor -p al realizar una prueba de hiptesis.El valor-p es la probabilidad de obtener un estadstico de prueba igual o ms extremo que el resultado de la muestra, dado que la hiptesis nula Ho es cierta. El valor-p, que a menudo se denomina nivel de significacin observado, es el nivel ms pequeo en el que se puede rechazar Ho. - NEWBOLD, P. (1997) (pag.290): El menor nivel de significacin al cual puede rechazarse la hiptesis nula se denomina valor crtico o p-valor, del contraste. Y agrega al pie: En los ltimos aos ha adquirido gran relevancia este concepto. Todos los programas estadsticos modernos proporcionan p-valores, y algunas calculadoras de bolsillo permiten su cmputo. Si bien las ediciones que disponemos no se enmarcan en el siglo XXI, estimamos que la posicin de importantes autores de libros de texto sobre Estadstica no Paramtrica realizan un aporte de inters para nuestras inquietudes. - GIBBONS, J. D. (1997) (Pag. 13): La decisin si aceptar o rechazar la hiptesis nula se realiza sobre la base de los resultados de una muestra aplicando una prueba estadstica. La distribucin probabilstica de la prueba estadstica se realiza sobre la base que la hiptesis nula es cierta.

Seleccionada la prueba estadstica se calcula a partir de la informacin que suministra la muestra. Con el valor numrico obtenido y la distribucin probabilstica de la prueba se puede calcular el valor p (p-value) o probabilidad asociada. El valor p es la probabilidad, cuando la hiptesis nula es cierta, de obtener un valor de la prueba que es igual a (o ms extremo) (en la direccin apropiada) que su valor observado. El investigador puede simplemente reportar el valor p y concluir el anlisis all explicando que el valor p es la probabilidad de un resultado muestral tan extremo como lo observado cuando Ho es verdadera. En algunos casos el investigador puede desear tomar la decisin estadstica de aceptar o rechazar la hiptesis nula. Su decisin puede basarse en el resultado del (magnitud) valor p del siguiente modo: Si el valor p es muy pequeo el investigador puede concluir que los datos no sustentan (support) la hiptesis nula. El mismo sentido si el valor p es grande el investigador podr concluir que los datos sustentan Ho. Entendemos que la autora se refiere a valores de p extremos, no hemos encontrado referencias a valores reportados. Vemos que la autora va un poco ms all que la comparacin entre el valor p y el nivel de significacin que proponen otros autores al decir que el investigador puede reportar slo el valor p y sobre la base de su resultado tomar la decisin de rechazar o no la hiptesis nula. - CONOVER, W. J. (1999) (pag. 101): Los resultados de una prueba de hiptesis son ms significativos si se establece tambin el valor p El valor p es el nivel de significacin ms pequeo al que se podra rechazar la hiptesis nula para observaciones dadas. Por ltimo, y a modo de ejemplo de los resultados que reportan los softs presentamos una salida de EViews3. Corresponde a un ejemplo sencillo, usado en cursos de grado, sobre regresin mltiple para tres variables: volumen de produccin (Y: variable dependiente), desperdicio en litros del material A (X 1) y desperdicio en gramos de material B (X2). La muestra corresponde a 25 ciclos productivos. Dependent Variable: Y Method: Least Squares Date: 00/00/00 Time: 00:00 Sample: 1 25 Included observations: 25 Variable C X1 X2 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 26.66597 -0.059701 -0.003251 0.847974 0.834154 1.455886 46.63126 -43.26590 2.468650 Std. Error 1.339418 0.017361 0.000718 t-Statistic 19.90863 -3.438739 -4.527469 Prob. 0.0000 0.0023 0.0002 12.54360 3.574986 3.701272 3.847537 61.35615 0.000000

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

La ltima columna de la parte superior (Prob.) reporta los valores p para la prueba que corresponde a ordenada al origen (C) y para los coeficientes de X 1 y X2. Tambin presenta (ltima fila de la ltima columna) el valor p para la prueba F de los coeficientes de regresin. El valor p cero indica que se rechazar siempre la hiptesis nula de que los coeficientes de las variables independientes son nulos y, por tanto, tienen, en conjunto, capacidad predictiva cualquiera haya sido el nivel de significacin ( que el investigador pudiera haber preestablecido. ) El mismo razonamiento se puede realizar para los valores p correspondientes a cada uno de los coeficientes. A MODO DE CONCLUSIN Coincidimos con Salsburg cuando afirma que El valor p es una probabilidad, y as es como se calcula.

El valor p (p-value) se puede definir como el menor nivel de significacin al que se puede rechazar una hiptesis nula cuando es verdadera. El discutido valor p se puede interpretar de distinta forma segn el enfoque de Fisher o la Teora de Neyman-Pearson. El avance de la tecnologa permiti que los paquetes estadsticos reportaran el valor p. Estimamos que, desde el punto de vista de la tarea cotidiana, disponer del valor p no im plica inconsistencias. En efecto, el investigador podr fijar de antemano el nivel de significacin segn lo establece la Teora de Neyman-Pearson y, con el resultado que reporta el soft decidir sobre el rechazo, o no, de la hiptesis nula. No vemos inconveniente para que el investigador, sobre la base del valor p decida si rechaza, o no, la hiptesis nula. Esto implica necesariamente incorporar otros factores que van ms all del objetivo de este trabajo. BIBLIOGRAFA BERENSON, M. L.; LEVINE, D. M.; KREHBIEL, T. C. (2001): Estadstica para Administracin, Mjico, Pearson Education de Mxico. Segunda edicin CONOVER, W. J. (1999): Practical nonparametric statistics . USA. John Wiley & Sons. Tercera Edicin. GIBBONS, J. D. (1997): Non Parametric Methods for Quantitative Analysis. U.S.A. American Sciences Press, Inc. GUJARATI, N. G. (2006): Principio de Econometra, Espaa, McGraw-Hill/Interamericana de Espaa. Tercera edicin en espaol. KUEHL, R. O. (2001) Diseo de Experimentos. Principios estadsticos de diseo y anlisis de investigacin, Mjico. Internacional Thomson Editores. Segunda Edicin. LEVINE, D. M.; KREHBIEL, T. C; BERENSON, M. L (2006): Estadstica para Administracin, Mjico, Pearson Education de Mxico. Cuarta edicin. LIND, D. A.; MARCHAL, W. G. MASON, R. D. (2004): Estadstica para Administracin y Economa, Bogot. Alfaomega Colombiana S.A. MOSTERIN, J.: La estructura de los conceptos cientficos. Revista Investigacin Cientfica (Edicin Espaola) No. 6, enero de 1978. NEWBOLD, P. (1997): Estadstica para los Negocios y Economa, Espaa, Prince Hall Internacional Inc. SALSBURG, D. (2001): The Lady Tasting Tea, New York, Henry Halt and Company LLC .