Está en la página 1de 5

www.medigraphic.org.

mx

ensayos y opiniones

El elusivo valor de p: una aproximacin


intuitiva para el no-estadstico
Rufino Menchaca-Daz*

Resumen Summary

La inferencia estadstica clsica se establece obteniendo Classical statistical inference is mainly based in p value
el valor de p mediante el mtodo del contraste de hip- calculation using the hypothesis contrast method, or esti-
tesis, o bien estimando los intervalos de confianza de los mating confidence intervals for punctual results. Hypothesis
resultados puntuales. El contraste de hiptesis permite contrast permits the comparability between observed pro-
comparar la probabilidad de ocurrencia esperada de un bability and predicted probability considering some grade
evento con la ocurrencia observada tomando en cuenta un of random variability. The null hypothesis can be accepted
margen de variabilidad debida al azar. De esta manera se or rejected using the observed result with a certain grade
acepta o se rechaza la hiptesis nula en base al resultado of confidence. In this assay, an intuitive approximation of
observado con cierto grado de confianza. En el presente the hypothesis contrast method for statistical inference is
ensayo se ofrece una aproximacin intuitiva a la inferencia presented, using a simple binomial problem for probability
estadstica basada en el mtodo del contraste de hiptesis, calculation, an analogy between the hypothesis contrast
usando para esto un ejemplo de un problema sencillo de and a justice system, and a brief explanation about statis-
probabilidad con distribucin binomial, una analoga del tical significance.
contraste de hiptesis con un sistema de justicia y una
explicacin breve sobre la significancia estadstica.

Palabras clave: Anlisis de datos, tcnicas de estimacin, Key words: Data analysis, estimation techniques, un-
incertidumbre. certainty.

Introduccin acrecentado la parte cientfica de la medicina reduciendo


la incertidumbre. Por consiguiente, aceptemos como una
Sir William Osler (1849-1919) seal que la medicina consideracin ms adecuada para nuestra poca, la frase
es la ciencia de la incertidumbre y el arte de la probabili- contempornea de Salvador Pita: la medicina es una
dad.1 No obstante, casi un siglo despus, es posible con- ciencia de probabilidad y el arte de manejar la incertidum-
siderar que el estudio sistemtico de la probabilidad ha bre.2 La medicina no es una ciencia exacta, es una cien-
cia fctica o de hechos que se basa en el conocimiento
de las probabilidades de ocurrencia de los mismos. Los
mdicos, casi sin darnos cuenta, enfrentamos el reto de
* Neurlogo Hospital ngeles Tijuana. Profesor de Neurocien- integrar las probabilidades de que haya sucedido o pueda
cias, Epidemiologa y Bioestadstica Facultad de Medicina y suceder un evento. As, empleamos las maniobras clnicas
Psicologa Universidad Autnoma de Baja California. que pudieran identificar con mayor probabilidad la pre-
www.medigraphic.org.mx sencia de una disfuncin determinada; seleccionamos las
Correspondencia: pruebas diagnsticas que ms probablemente pudieran
Rufino Menchaca-Daz, M.S.P; D.C. ayudarnos a establecer el diagnstico; integramos (con los
Correo electrnico: rufino@uabc.edu.mx dos anteriores) el diagnstico ms probable; aconsejamos
el mtodo de tratamiento que pueda tener ms proba-
Aceptado: 24-01-2012. bilidad de xito; establecemos el tiempo ms probable
de sobrevida ante una enfermedad; o proponemos las
Este artculo puede ser consultado en versin completa en http://
www.medigraphic.com/actamedica medidas de prevencin que pudieran (probablemente)

Acta Mdica Grupo ngeles. Volumen 10, No. 1, enero-marzo 2012 53


Menchaca-Daz R

ser las ms efectivas. No podemos evitar, ante cualquiera moneda y 0 de la otra; pero claro, esperamos que estos
de estas situaciones, un cierto margen de error. La forma resultados ms extremos ocurran de una forma mucho
como enfrentamos esa incertidumbre restante, esa po- menos probable.
sibilidad de errar, constituye el arte de ser mdico, y es Si queremos probar que la moneda est en realidad
particular para cada clnico. Est forjado a su vez por el cargada y que, por ende, favorece ms a una cara que
conocimiento, la empata, el inters humanitario y por a la otra, deberamos probar que el comportamiento de la
el aprendizaje de los xitos y de los errores, que slo se moneda es diferente a lo esperado segn nuestra regla de
adquiere a travs de la experiencia. prediccin compatible al 50%. Pero, qu tan diferente?,
Dado que nuestra prctica profesional se basa, emi- qu tanto debemos esperar como variacin aleatoria
nentemente, en el conocimiento de las probabilidades de razonable o permitida? y cundo debemos considerar el
ocurrencia de los eventos de salud y enfermedad, ya sea resultado observado como un comportamiento extremo
en las personas o en las poblaciones, estamos obligados a que orienta a que la moneda est en realidad cargada?
entender, al menos de manera intuitiva, cmo se estudian Para responder la pregunta anterior empleamos los si-
los eventos probabilsticos. Dos formas utilizadas muy guientes pasos:
frecuentemente en los artculos de investigacin para el
estudio de la probabilidad de ocurrencia de los eventos 1) Planteamos la hiptesis general sobre el resultado que
de inters son: 1) utilizando el mtodo del contraste de esperamos observar, si la moneda no ha sido alterada;
hiptesis para establecer el valor de p y 2) calculando los es decir, esperamos que se comporte de acuerdo a una
intervalos de confianza de los estimadores. En este ensayo probabilidad de 50% de caras y 50% de cruces (acep-
trataremos de hacer una aproximacin al primero de estos tando cierta variabilidad permitida) y consideramos
dos mtodos de la inferencia estadstica clsica. simultneamente la otra posibilidad que interesa probar,
a saber, que la moneda en realidad est cargada y, por
El contraste de hiptesis y el valor de p lo tanto, favorecer ms a un desenlace determinado.
En estadstica esto corresponde a plantear la hiptesis
En casi todos los artculos de investigacin original en- nula (H0) y la hiptesis alterna (H1).
contramos mencin del valor de p. Sabemos que un 2) Establecemos el monto de variabilidad que vamos a
valor de p menor a 0.05 nos indica que el resultado es aceptar como normal y cuando vamos a considerar un
estadsticamente significativo, es decir, que los resulta- resultado como extremo, el cual nos indicara que la
dos observados tienen una probabilidad muy baja de moneda en realidad est cargada. En estadstica esto
ser producto del azar. El valor de p es, por lo tanto, una corresponde a establecer el nivel de significancia esta-
manera de controlar el efecto del azar. Llevemos esto a dstica o alfa (a), y por lo general son valores de 0.05
un terreno ms conocido para nosotros, simples mdi- (5%) o 0.01 (1%).
cos anaritmetas parciales y completos aritmofbicos. El 3) Realizamos el experimento, aplicando al resultado una
ejemplo ms conocido de un experimento aleatorio es prueba estadstica que permita establecer el nivel de
lanzar la moneda al aire. Cuando lanzamos la moneda al probabilidad (valor de p), usando las reglas de predic-
aire, esperamos que el resultado observado se ajuste a las cin del 50-50% de la hiptesis general. En estadstica se
leyes de prediccin compatibles con el experimento de la emplean diferentes pruebas para establecer el valor de
moneda, esto es, que nos aparezca una cara o una cruz p de acuerdo al tipo de datos que se analizan, usando
(guila o sello, guila o sol, o como prefieran llamarles) de de referencia la probabilidad inherente a la hiptesis
la moneda, ambas con una probabilidad de ocurrencia del nula.
50% (0.5). El comportamiento de este experimento debe 4) Ocupando los criterios previamente mencionados, de-
ajustarse siempre a la probabilidad predicha del 50%. terminamos si el monto de la evidencia es compatible
Es decir, si lanzamos la moneda varias veces, esperamos con un resultado esperado segn la hiptesis general o
observar una proporcin de caras o de cruces cercanos por el contrario nos lleva a rechazar la hiptesis general
www.medigraphic.org.mx
al 50%. Pero no siempre se observar exactamente 50% y a aceptar la hiptesis alterna. En estadstica un valor
de caras y 50% de cruces. Si lanzo la moneda 10 veces, de p menor a alfa rechaza la hiptesis nula y permite
no espero observar siempre 5 caras y 5 cruces como aceptar la hiptesis alterna.
nico resultado. S que por azar puede haber diferentes
combinaciones de caras y cruces. Quizs 6 de una y 4 de Continuando con el ejemplo de la moneda, si lanzamos
la otra, o incluso 7 y 3, 8 y 2; o eventualmente obtener la moneda 12 veces y observamos que aparecen 10 caras y
9 caras de una y slo 1 de la otra; tambin puede suce- slo 2 cruces: es la diferencia observada compatible con
der que las 10 veces se obtenga una misma cara de la lo esperado por el azar?, o bien, es la diferencia observada

54 Acta Mdica Grupo ngeles. Volumen 10, No. 1, enero-marzo 2012


El elusivo valor de p

suficiente para que concluyamos que la moneda est compatible con la hiptesis alterna de que la moneda
cargada y que, por ende, favorece ms la aparicin de est cargada.
caras? Hagamos nuestro anlisis estadstico siguiendo los
pasos arriba mencionados. Llevemos nuestro ejemplo a un terreno ms clnico.
Supongamos que se ha establecido internacionalmente
1) Establecemos H0 y H1. que la prevalencia de demencia en adultos mayores de
H0: La probabilidad ocurrencia de caras es igual a la 80 aos es de 30%. Sin embargo, en una muestra aleatoria
probabilidad de ocurrencia cruces (Probabilidad 1 = de 15 sujetos mexicanos de este grupo de edad encontra-
Probabilidad 2; la moneda est normal). mos datos de demencia en 7 de ellos. Es este resultado
H1: La probabilidad de ocurrencia de caras es diferente observado en sujetos mexicanos compatible con lo repor-
a la probabilidad de ocurrencia de cruces (Probabilidad tado a nivel internacional (H0)?, o bien, es el resultado
1 Probabilidad 2; la moneda est cargada). observado en sujetos mexicanos suficientemente distinto
2) Establecemos el nivel de significancia que aceptaremos a lo reportado internacionalmente (H1)? Trata de calcular
como evidencia suficiente para aceptar o rechazar la el valor de p para este resultado observado y usando un
hiptesis nula. Usualmente un valor de alfa de 0.05 alfa menor a 0.05 como evidencia, acepta o rechaza la
(5%). hiptesis nula segn sea el caso. La respuesta correcta se
3) Calculamos la probabilidad de haber observado espe- muestra al final.
cficamente 10 caras y slo 2 cruces, si la probabilidad En estos ejemplos usamos la distribucin de probabi-
de ocurrencia de ambas fuese del 50%. Para lograr esto, lidad binomial. Otras formas de analizar la probabilidad
usamos las reglas de probabilidad binomial, mediante de un resultado especfico es utilizando la distribucin de
la frmula:3 probabilidades de la curva normal (prueba de z); la dis-
tribucin de probabilidades de t (prueba t de Student); la
distribucin de probabilidades de F (prueba de ANOVA);
la distribucin de probabilidades de ji cuadrada (prueba
de ); o la distribucin Poisson. El uso de cada una de
Donde P es la probabilidad que queremos calcular; n ellas depende principalmente del tipo de datos que se
es el nmero de experimentos o veces que lanzamos la analizan.4,5
moneda, en este caso 12; ! es el smbolo para factorial,
en este caso 12! = 12 x 11 x 10 x 9 x 8 x 7 x 6 x 5 x 4 El contraste de hiptesis: una analoga
x 3 x 2 x 1; e es la frecuencia de xitos, en este caso 10
caras; f la frecuencia de fracasos, en este caso 2 cruces Podemos incurrir en un error al aceptar o rechazar la hip-
(la denominacin xito o fracaso es arbitraria y aplica tesis nula, favoreciendo un resultado distinto a la realidad.
para el estudio de la probabilidad binomial); p1 es la Comparemos esto con lo que se observa en el sistema de
probabilidad de xitos, en este caso 0.5 (50% de caras) justicia de muchos pases:
y p2 es la probabilidad de fracasos, en este caso 0.5
(50% de cruces). Por lo tanto: 1) Se parte de una premisa: el sujeto es inocente hasta
que no se demuestre lo contrario (el equivalente a la
hiptesis nula). El fiscal quiere demostrar que el sujeto
es culpable (el equivalente a la hiptesis alterna).
2) El sistema judicial establece de antemano cules pruebas
pueden ser catalogadas como evidencia (el equivalente
a establecer el nivel de significancia o a).
3) Para poder inculpar al sospechoso, la evidencia que
aporte el fiscal debe ser tan slida que deje poco es-
www.medigraphic.org.mx pacio a la duda (el equivalente a realizar una prueba
4) En base a los criterios de significancia preestablecidos, estadstica y calcular el valor de p).
el valor de p observado en este resultado es de 0.016, 4) Se establece el veredicto de inocencia o culpabilidad
que es menor al 0.05 preestablecido como crtico. Nos (el equivalente a aceptar o rechazar la hiptesis nula).
permite rechazar la hiptesis nula y aceptar la alterna
como ms probable. La probabilidad de haber observa- En el sistema de justicia mencionado se puede incurrir
do este resultado particular, en base a lo esperado por en dos tipos de error: cuando se establece un veredicto
el azar, es de slo 1.6%. Por tanto, el resultado es ms de culpabilidad en un inocente, o cuando se establece

Acta Mdica Grupo ngeles. Volumen 10, No. 1, enero-marzo 2012 55


Menchaca-Daz R

un veredicto de inocencia en un culpable. En el cuadro hiptesis alterna es la verdadera. En nuestros ejemplos,


I se puede observar esquemticamente este escenario. cuando encontramos inocente a un culpable, o si hallamos
De los dos tipos de error en los que podemos incurrir, en un ensayo que un tratamiento no es efectivo cuando
se establece como peor situacin el encontrar culpable a en realidad s lo es.
un inocente, ya que se est generando un dao al castigar Para controlar el error tipo 1 en un juicio, se considera
a quien no lo merece. En investigacin tambin podemos slo la evidencia ms slida; en un ensayo clnico, redu-
incurrir en errores al analizar los resultados. En el cuadro ciendo la probabilidad del azar con un valor crtico de alfa
II se sealan los posibles errores en los que se puede in- menor a 5% o menor a 1%. El error tipo 2 se controla en
currir al analizar los resultados de un ensayo clnico para el juicio aportando ms evidencia; en el ensayo clnico,
establecer la eficacia de un tratamiento. aumentando el tamao de la muestra.
En ambos casos incurrimos en un error ms grave, si
aceptamos la hiptesis alterna cuando la hiptesis nula El nivel de significancia estadstica
es la verdadera: en el juicio, donde el veredicto de la o alfa
persona es culpable cuando en realidad es inocente; o
en el caso del ensayo, donde el tratamiento es efectivo Sir Ronald Fisher (1890-1962), uno de los ms grandes
cuando en realidad no sirve. Este tipo de error se deno- estadsticos de todos los tiempos, empieza su libro Diseo
mina error tipo 1. En estadstica se permite por lo general de Experimentos diciendo: Una mujer declara que tan
una probabilidad menor a 5%, o en ocasiones menor a slo documento
Este probando una taza de tpor
es elaborado conMedigraphic
leche, ella puede decir
1% de incurrir en este error, esto es, un valor de p menor cul de stos fue puesto primero en la taza.6 Esta es una
a 0.05 o menor a 0.01. ancdota que en realidad le sucedi a Fisher cuando
El otro tipo de error, conocido como error tipo 2, se invit a Miss Buriel Bristol una taza de t con leche y ella
comete al aceptar la hiptesis nula cuando en realidad la la rechaz pues la leche haba sido agregada al final. En
su libro, Fisher propone cmo validar la opinin de la
experta en t y saber si realmente ella logra identificar,
con slo probarlo, qu se sirvi primero, el t o la leche.
Cuadro I. Tipos de error en un juicio. Para convencer a Fisher, la experta debera identificar sin
error, ocho tazas de t, en las que, en 4 se sirvi primero
En realidad es:
el t y en otras 4 primero la leche. Existen 70 posibles
combinaciones diferentes si se mezclan estas 8 tazas. Si
Culpable Inocente la experta lograba identificar las 8 tazas correctamente,
la probabilidad de que hubiese acertado slo por azar
Culpable Acierto Error (I) era de apenas 1.4% (segn anlisis de probabilidad
Evidencia usando la prueba exacta de Fisher), evidencia que el
en el juicio: autor consideraba como suficiente para demostrar que el
Inocente Error (II) Acierto resultado observado no era producto del azar, sino que la
experta lograba realmente diferenciar acertadamente las
tazas de t. De hecho, Fisher consideraba ya como nivel
crtico aceptable para establecer la significancia estads-
Cuadro II. Tipos de error en un ensayo. tica, una probabilidad menor al 5% (p menor a 0.05). En
este ejemplo observamos ya los principios del contraste
En realidad el de hiptesis, anlisis que fue refinado posteriormente por
tratamiento es: otros autores. Actualmente se acepta internacionalmente
como evidencia significativa un valor de p menor a 0.05.
Los valores de p menores a 0.01 tambin son usados con

www.medigraphic.org.mx
Efectivo No efectivo
frecuencia.
El concepto de significancia estadstica que deriva del
contraste de hiptesis pone de manifiesto la necesidad
Efectivo Acierto Error (I) de rechazar o aceptar una hiptesis general de la cual
Evidencia se parte para contrastar los resultados observados en un
en el ensayo: estudio o experimento. Rechazar la hiptesis nula para
No efectivo Error (II) Acierto aceptar la hiptesis alterna recae en un concepto pura-
mente probabilstico, pues an los eventos raros pueden

56 Acta Mdica Grupo ngeles. Volumen 10, No. 1, enero-marzo 2012


El elusivo valor de p

ocurrir por azar. En consecuencia, una aceptacin de Respuesta al ejercicio:


una hiptesis (nula o alterna) no significa verificacin
concluyente de la realidad, sino una aproximacin
provisional, que podr ser refutada o verificada en ex-
perimentos posteriores. p = 0.0811, mayor a 0.05; por tanto, se acepta la hip-
El valor de p es una herramienta que facilita la com- tesis nula.
prensin de los fenmenos probabilsticos, disminuyendo
la incertidumbre y permitiendo una interpretacin ms Referencias
apropiada de los resultados observados en un estudio. Los 1. Silverman ME, Murray TJ, Bryan CS, eds. The quotable osler. Phila-
mdicos, en general, mantenemos poca relacin con ope- delphia Pa, USA: American College of Physicians 2002.
2. Pita-Fernndez S, Prtega-Daz S. Pruebas diagnsticas: sensibilidad
raciones matemticas o probabilsticas y por ello sufrimos y especificidad. Cad Aten Primaria 2003; 10: 120-124.
en ocasiones de cierta dificultad para la interpretacin 3. Jaisingh L. Statistics for the utterly confused. 2 ed. New York, N.Y.:
de los conceptos de la estadstica inferencial. Esperamos McGraw-Hill; 2006.
4. Altman DG. Practical statistics for medical research. London, UK:
que esta aproximacin, muy intuitiva, al contraste de Chapman & Hall; 1991.
hiptesis sirva para aclarar algunos conceptos bsicos y 5. Pagano M, Gauvreau K. Fundamentos de bioestadstica. Mxico:
Thomson Learning, Inc.; 2001.
ayude a los profesionales de la salud a comprender mejor 6. Fisher RA. Design of experiments. London, UK: Macmillan Publishers
el elusivo valor de p. Co; 1935.

Reconocimiento a revisores

Agradecemos a los revisores de los trabajos enviados a Acta


Mdica que, adems de los miembros del Comit Editorial,
nos favorecieron con su labor durante 2011.

Dra. Ma. de Lourdes Basurto Acevedo


Unidad de Investigacin Mdica en Endocrinologa
IMSS

Dr. Toms Barrientos Fortes


ngeles Lomas

Dr. Ral Caltenco


ngeles Lomas
www.medigraphic.org.mx
Dr. Javier Vilchis Licona
ngeles Mocel

Acta Mdica Grupo ngeles. Volumen 10, No. 1, enero-marzo 2012 57

También podría gustarte