Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Carles M. Cuadras
1. Introduccin
En este trabajo se exponen las soluciones a algunas paradojas y situaciones curiosas, que pueden presentarse en probabilidad y estadstica, publicadas en el Boletn de la SEIO, 23 (1), 24-29, vase Cuadras (2007). Las soluciones que aqu se proponen no son necesariamente las nicas posibles.
0, 46. Es decir, el 54 % se recuperan frente al 46 % que no se recuperan, y la superioridad del tratamiento se conrma al juntar los datos de hombres y mujeres. Evidentemente, si una persona que ha seguido el tratamiento se interesa por la probabilidad de recuperarse, sabremos de entrada si es un hombre o una mujer. Pero si por alguna razn esta informacin no est disponible, la probabilidad debe calcularse ponderando con las proporciones de hombres y mujeres. En cuanto a la signicacin estadstica de la inuencia del tratamiento en la mejora de los pacientes, puesto que tenemos dos tablas 2 2 independientes, debera aplicarse el test de Mantel-Haenszel. Vase Lee (1992).
PH (Rec/Trat) = 0, 46
PM (Rec/Trat) = 0, 68
Hay en total 2610 personas y las proporciones de hombres y mujeres son P (H) = 0, 65, P (M) = 0, 35. Entonces la probabilidad de recuperarse si ha seguido tratamiento, haciendo abstraccin de que sea hombre o mujer, es
ARTCULOS DE APLICACIN
x t = 2, 302 (45 g.l.) (p = 0, 0259), y t = 2, 215 (45 g.l.) (p = 0, 0318). (x, y) F (2, 44) = 2, 68 (p = 0, 078)
Cmo se explica que los dos tests univariantes sean signicativos pero el bivariante no? Vamos a dar una explicacin que seguramente no es la nica posible. Interpretemos geomtricamente esta paradoja. Con nivel de signicacin 0,05, y aplicando el test T 2 de Hotelling, aceptaremos la hiptesis nula bivariante si el vector diferencia d = (x y) pertenece a la elipse
n1 n2 d n1 + n2
561, 7 374, 2
374, 2 331, 24
d 3, 2,
donde 3,2 es el punto crtico para una F con 2 y 44 grados de libertad. As pues no hay signicacin si x, y verican la inecuacin
En la gura 1 podemos visualizar la paradoja. Los valores de la diferencia que estn a la derecha de la recta vertical rx son signicativos para la variable x. Anlogamente los que estn por encima de la recta horizontal ry lo son para la y. Por otra parte, todos los valores que estn fuera de la elipse (regin F) son signicativos para las dos variables. Hay casos en que x, y por separado no son signicativos, pero conjuntamente s. No obstante, existe una pequea regin por encima de ry y a la derecha de rx que cae dentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealado con el signo +, para el cual x e y son signicativas pero no (x, y). As x e y son signicativas si el punto se encuentra en el cuadrante A. (Una simetra con respecto al origen nos permitira considerar otras dos rectas y la regin B). Pues bien, el test con x y el test con y por separado, son tests t distintos del test T 2 empleado con (x, y), equivalente a una F. Tales tests no tienen por qu dar resultados compatibles. Las probabilidades de las regiones de rechazo son distintas. Adems, la potencia del test con (x, y) es superior, puesto que la probabilidad de la regin F es mayor que las probabilidades sumadas de las regiones A y B. Para otras explicaciones de esta paradoja, vase Cramer (1975).
=
0
+ =
0
Cualquiera que sea la distribucin de probabilidad conjunta de (X, Y ) proporcionando un coeciente de correlacin (X, Y ), se verica Figura 1. Un test de comparacin de poblaciones bivariante puede ser menos signicativo que dos tests univariantes.
(X, Y ) + .
Es muy fcil ver que resulta imposible que (X, Y ) alcance el valor 1 si X es uniforme e Y 15
ARTCULOS DE APLICACIN
Supongamos que todas las medias de las variables I y H valen 100 en los grupos B y N, excepto la media de I que es 90 en el grupo N. Todas las desviaciones tpicas valen 12, y los coecientes de correlacin, tanto en B como en N son r = 0, 7. Se argumentaba que si un individuo B (blanco) posee el mismo 6. Solucin a la paradoja del coeciente I (coeciente de inteligencia) que otro individuo N de correlacin (negro), la prediccin de H sera superior. Sin emSe supona que X, Y eran dos variables aleato- bargo, la prediccin es incorrecta, sucediendo justo rias denidas sobre la misma poblacin, con cova- al revs. En efecto, las rectas de regresin son 2 2 rianza XY , variancias nitas X , Y y coeciente B: H = 100 + 0, 7(I 100) de correlacin de Pearson = XY /(X Y ). SeN: H = 100 + 0, 7(I 90) guidamente se tomaban X1 , . . . , Xn independientes e igualmente distribuidas como X. Un ejem- Entonces si un B y un N puntuan igual I = 110, las plo real podra consistir en la estatura Y de un predicciones de H son padre y las estaturas X1 , . . . , Xn de n hijos, donH = 100 + 0, 7(110 100) = 107 (individuo B), de cada hijo tiene una madre diferente. Suponiendo H = 100 + 0, 7(110 90) = 114 (individuo N). cov(Xi , Y ) = XY , se probaba que la correlacin As, para un mismo nivel de inteligencia 110, la preentre la media X n y la variable Y es n. Luego, diccin para la habilidad H es superior en N que en para n sucientemente grande, el coeciente de coB. La gura 2 ilustra esta paradoja. La recta B es rrelacin entre la media X n e Y puede ser mayor paralela y est situada a la derecha de N por ser que 1. Veamos que esto es imposible. la media de I ms alta. Sin embargo, a un mismo Primera explicacin (graciosa): Suponiendo que valor de I le corresponde un valor de H ms alto en la correlacin entre la estatura Y del padre con la el grupo N. X del hijo es = 0, 5, ningn padre puede tener Este error de interpretacin aparece en la conms de 4 hijos varones (con distintas mujeres) para trovertida obra The Bell Curve , de Herrstein y Muevitar que n0, 5 supere el valor 1. De hecho, no se rray. Vase Kaplan (1997) y Cuadras (2003). conoce ningn caso con tantos hijos varones nacidos de distinta mujer. Segunda explicacin (seria): Si X e Y estn correlacionadas, no es posible tomar una muestra X1 , . . . , Xn de valores independientes de X. La independencia de la muestra es incompatible con que est correlacionada con Y. Se desprende de n 1 que los valores x son necesariamente dependientes. As, las estaturas de los hijos que comparten un mismo padre estn necesariamente correlacionadas. Esta paradoja nos advierte de que, en ciertas situaciones, no se puede tomar alegremente una muestra de tamao n de valores independientes. La ancdota: se propuso esta paradoja a un destacado probabilista puro de una universidad britnica, pero fue incapaz de resolverla. En cambio, otros estadsticos y probabilistas (aunque no todos), ms familiarizados con la estadstica, la resolvieron Figura 2. Una media mayor para I (inteligencia) en el grupo B no implica, comparando con otro grupo rpidamente. N, una prediccin mejor para otra caracterstica co7. Solucin a la prediccin racista rrelacionada H cuando I ha tomado el mismo valor Vamos a resolver la paradoja con un ejemplo. en B y N. 16
es exponencial. Pues si as fuera, existira una combinacin lineal entre ambas, Y = aX + b, y por lo tanto Y seguira tambin una distribucin uniforme, cambiando slo la media y la varianza, y no una exponencial.
ARTCULOS DE APLICACIN
r1 r1 = 0, 86 > r2 r2 = 0, 63
pero
2 2 R1 < R2 .
R2 = r R1 r.
Consideremos la descomposicin espectral de R y de su inversa R1
k k
R=
i=1
i ui ui ,
R1 =
i=1
1 ui ui , i i
siendo 1 > > k los valores propios y u1 , . . . , uk los vectores propios ortonormales. Entonces la correlacin mltiple (al cuadrado) es
k
R2 = r R1 r =
i=1
1 (r ui )2 . i
Como la suma de los valores propios es k, el primer valor propio es mayor que 1 y el ltimo es menor que 1. Resulta entonces que si r sigue esencialmente la direccin de uk , entonces r uk puede tener un peso importante en R2 . Para los dos ejemplos propuestos
En otras palabras, cuando la direccin de r con las correlaciones simples, es prxima a la de un vector propio de R asociado a un valor propio menor que 1, la correlacin mltiple puede tomar un valor sorprendentemente alto. Para ms detalles, vase Cuadras (1995). En realidad, la variable respuesta Y estara demasiado correlacionada con las ltimas componentes principales obtenidas a partir de R, lo que provoca una cierta distorsin. Es decir, como se comenta en la seccin siguiente, se conrma la importancia de la primera componente principal en el comportamiento de las variables explicativas. Se puede tambin argumentar que si las variables X estn positivamente correlacionadas, y la respuesta Y correlaciona positivamente con una, debera correlacionar tambin positivamente con las dems. Si as ocurriera, lo que es bastante razonable, Y apenas correlacionara con las ltimas componentes principales. La ancdota: esta peculiaridad en regresin (aumentando las correlaciones simples disminuye la mltiple) se present en un congreso internacional en 1994. Pero la posibilidad de que Y correlacionara de manera distinta con las variables explicativas, fue negada categricamente por un destacado estadstico de Stanford, provocando una acalorada discusin entre partidarios y detractores de los argumentos aqu presentados.
0, 6 0, 5 r1 = 0, 4 0, 3 0, 6 0, 5 r2 = 0, 1 0, 1
1 0, 3 0, 3 1 R = 0, 4 0, 5 0, 5 0, 4
0, 4 0, 5 0, 5 0, 4 1 0, 3 0, 3 1
los productos escalares normalizados son r1 u4 = 0, 2157 < r2 u4 = 0, 5669. Es decir, r2 forma un ngulo con u4 menor que r1 . Entonces las correlaciones mltiples (al cuadrado) son
2 R1 =0, 4848=0, 3682+0, 0000+0, 0167+0, 1000, 2 R2 =0, 7056=0, 1920+0, 0031+0, 0042+0, 5052.
que prueba que variables correlacionadas no son siempre redundantes, y que a veces mantienen una estructura de dependencia que es ms difcil de interpretar de lo que parece. La desigualdad puede expresarse como
k
r R1 r r r =
i=1
1 i (r ui )2 > 0. i
De nuevo vemos que (r ui )2 inuye mucho si i es un valor propio menor que 1 y r sigue esencialmen17
ARTCULOS DE APLICACIN
te la direccin de ui , en especial la direccin de uk . Esto es precisamente lo que ocurre en el ejemplo anterior con la segunda variable respuesta
Un argumento ms complicado pero similar, permitira estudiar la desigualdad M > K cuando (x y) sigue esencialmente la direccin de las ltimas componentes principales. Como en el caso de 2 2 2 R2 = 0, 7056 > r1 + + r4 = 0, 63 la regresin mltiple, la interpretacin de M > K Se puede probar que si r sigue esencialmente la es que las matrices de datos X, Y siguen en cada direccin de uk , entonces la respuesta Y est muy poblacin, la direccin determinada por las primecorrelacionada con la ltima componente principal. ras componentes principales. Sin embargo, el vector Ms exactamente, la desigualdad anterior equivale que une la medias sigue una direccin bsicamente ortogonal. En otras palabras, como muestra la a k gura 3, las medias de las poblaciones no siguen la 2 rzi (1 i ) > 0, misma direccin que los datos en cada poblacin i=1 donde rzi es la correlacin simple entre Y y la com- (paradoja de Simpson). ponente principal Zi . Entonces la inuencia de rzi es relevante si 1 i > 0, como ocurre con la ltima componente principal. Las componentes principales con varianza pequea, en especial la ltima, indican las direcciones extraas del conjunto de variables explicativas. En ciertas aplicaciones se interpretan como direcciones de error. Podemos armar que se presenta la desigualdad objeto de este estudio si la variable respuesta sigue esencialmente la misma direccin que las ltimas componentes principales, una situacin no deseable pero que puede ocurrir con datos reales. Vase Cuadras (1993, 1998) para ms detalles tcnicos y ejemplos.
k < s 2 , i
i = 1, . . . , k.
M = (x y) (x y)/k
y y ( x1k 1 )2 + + ( xkk k )2 > y y ( x1s1 1 )2 + + ( xksk k )2 = K
f (x) = (2)1/2
para x > 0.
18
ARTCULOS DE APLICACIN
Dos condiciones para que la sucesin n = E(X n ) de los momentos de todos los rdenes no caractericen la distribucin de la variable son:
+ ln f (x) 1+x2 dx + ln f (x ) 1+x2 dx
2
< <
si el soporte de f es R, si el soporte de f es R+ .
La no caracterizacin signica que existen dos distribuciones distintas que tienen los mismos momentos. Una explicacin sencilla e intuitiva consiste en tener en cuenta que los momentos son valores esperados R xn f (x)dx, y en consecuencia pueden proporcionar el mismo valor si perturbamos f (x) de modo que las integrales (que son cantidades medias) se compensen. Para profundizar ms en este tema, vase Stoyanov (1997, p. 101).
X (t) = E(eitX ) =
a
eixt dF (x).
Como prueba Waller (1995) el uso de X (t) da lugar a funciones (de variable real a valores complejos) que pueden ser bastante distintas, debido a la presencia de la parte imaginaria. En el caso que nos ocupa, las funciones caractersticas son
MX (t) = E(etX ) =
a
ext dF (x),
X (t)=e
(it)2 2
, Y (t)=e(it)
/2+log(1+ 1 e2 sin(2it)) 2
suponiendo que existe, caracteriza totalmente la distribucin de X. No obstante existen distribuciones distintas para las cuales apenas se distinguen (numrica y grcamente) las funciones generatri-
Su representacin da lugar a grcos iguales para la parte real, pero diferentes para la parte imaginaria y por supuesto distinguibles, como muestra la gura 4.
Figura 4. La parte real (izquierda) de las funciones caractersticas X (t), Y (t) es indistinguible. Sin embargo la parte imaginaria (derecha) vale 0 para X (t), y es distinta de 0 para Y (t) si |t|>2,5, pudindose distinguir una de otra.
19
ARTCULOS DE APLICACIN
En denitiva, se puede armar que la funcin generatriz (basada en la transformacin de Laplace) es interesante para encontrar momentos y probar propiedades de ciertas distribuciones, pero es poco til para distinguirlas numricamente. En contraste, la funcin caracterstica (basada en la transformacin de Fourier) permite comparaciones numricas mucho ms ecientes.
Pero el teorema no se contradice, tratndose de un simple truco, propio de un estadstico veterano e intrigante. En efecto, podemos sumar mil Poissones y las que queramos y contradecir el teorema, con tal de tomar = 0, 001 o cualquier sucientemente pequeo. En realidad estamos sumando muchas variables con varianza muy pequea, variables aleatorias que son casi constantes, de modo que la suma da lugar a una variable con varianza 1. 13. La ley de los grandes nmeros no falla Este aparente incumplimiento tambin ocurre con la distribucin binomial B(n, p), cuya variaSe denunciaba que si X es una variable aleato- ble es suma de n Bernoullis independientes. Pues ria distribuida Poisson con media = 1, entonces si n es muy grande y p muy pequeo, la distrila media X n de n valores independientes verica bucin B(n, p) es aproximadamente Poisson, con P X n 1, o mejor dicho : = np. Por ejemplo, es Poisson = 1 si n = 1000 y p = 0, 001. Tampoco se contradice el teorema cenP ( l X n = 1) = 1. m tral del lmite, alertando estos dos ejemplos de que, n bajo ciertas circunstancias, la suma de muchas vaSin embargo, mostrbamos que riables independientes puede proporcionar una distribucin alejada de la normal. en nn l P (X n = 1) = m = 0. n n! 15. Por qu un test de multinormalidad Es decir, a pesar de que X n converge casi seguramente a 1, X n no puede alcanzar exactamente el valor 1 si hacemos tender n a innito. Aunque sorprenda a primera vista, la imposibilidad de alcanzar X n el valor medio terico 1 no contradice la famosa ley de los grandes nmeros. En realidad ocurre que
Basndose en un teorema debido a H. Crmer, se propona aceptar la normalidad multivariante de X1 , . . . , Xk tomando la suma Z = Y1 + + Yk , donde Y1 , . . . , Yk son las componentes principales extradas de una matriz de datos X de orden n k, con n grande. La normalidad univariante de Z debera garantizar la multinormalidad de X1 , . . . , Xk . l P (|X n 1| > ) = 0, m n Desde un punto de vista probabilstico, el resultado es correcto. Z es normal si la distribucin por pequeo que sea > 0. Es decir, X n tomar vade X1 , . . . , Xk es normal multivariante. Pero... una lores en un entorno (1, 1+) con certeza absoluta. cosa es la probabilidad, basada en modelos matemTambin podemos interpretar que la distribucin de ticos, a menudo descritos mediante funciones muy X n , a medida que n crece, se aproxima a la normal, bonitas, y otra distinta la estadstica, siempre basay es bien sabido que para una distribucin contnua da en datos reales producto de la observacin expela probabilidad de que tome exactamente un valor rimental. En efecto, si aplicamos este test, al que concreto (conjunto de medida nula) es igual a cero. llamaremos CC (Crmer-Cuadras) detectaremos f14. El teorema central del lmite no falla cilmente que una muestra X sigue la distribucin multinormal cuando sta es la verdadera distribuContradecamos el famoso teorema central del cin de las las de X. CC funciona bien cuando el lmite tomando X1 , . . . , X100 Poisson independienmodelo multinormal es el verdadero. Pero CC no tes con parmetro = 0, 01 y obteniendo la suma pasar a la posteridad, ni merecer aparecer en el buscador Google porque si X no es multinormal, X = X1 + + X100 , CC tambin detectar multinormalidad. Es decir, que se distribuye segn una Poisson con media el test CC en la inmensa mayora de los casos de = 1. Por lo tanto la distribucin de X es de- tectar multinormalidad, tanto si los datos siguen la normal multivariante como si no. masiado distinta de la normal. 20
ARTCULOS DE APLICACIN
[2] Cuadras, C. M. (1993). Interpreting an inequality in multiple regression. The American Statistician, 47, 256-258. [3] Cuadras, C. M. (1995). Increasing the correlations with the response variable may not increase the coecient of determination: a PCA interpretion. In: Multivariate Statistics and Matrices in Statistics, pp. 75-83. (E. M. Tiit, T. Kollo and H. Niemi, eds.), VSP/TEV, Utrecht. [4] Cuadras, C. M. (1998). Some cautionary notes on the use of principal components regression. (Revisited). The American Statistician, 52, p. 371. [5] Cuadras, C. M., Fortiana, J. (2000). The Importance of Geometry in Multivariate Analysis and some Applications. In: Statistics for the 21st Century, pp. 93-108, (C.R. Rao and G. Szekely, eds.), Marcel Dekker, New York.
Figura 5. El test de multinormalidad basado en la suma de las componentes principales no permite distinguir (como en este caso de variables que son potencias de uniformes) si los datos proceden de una distribucin normal multivariante o no.
Por qu? Al ser Z una suma de k componentes principales, que son variables incorrelacionadas, [6] Cuadras, C. M. (2003). Report. Una narraci aparecer un efecto debido al teorema central del cientca. EUB, Barcelona. lmite, y la distribucin de Z , de la que slo dispon[7] Cuadras, C. M. (2007). Algunas paradojas y dremos de una muestra de tamao n, se parecer curiosidades de la estadstica. Boletn de la demasiado a la normal, hasta el punto de que un SEIO, 23(1), 24-29. test de normalidad univariante nos inducir a aceptar la hiptesis nula. [8] Kaplan, J. (1997). A statistical error in The Por ejemplo, generando una tabla con n = 100, Bell Curve. Chance, 10, 20-21. k = 4, datos uniformes (0, 1) e independientes, y [9] Lee, E. T. (1992). Statistical Methods for Survitransformando cada variable Xi elevndola a la poval Data Analysis. Wiley and Sons, New York. tencia i, es evidente que la distribucin conjunta no es multinormal. Sin embargo, la variable Z se ajus- [10] Rao, C. R. (1952). Advanced Stastistical Metta bastante bien a la normal (test de Kolmogorovhods in Biometric Research. John Wiley and Smirnov= 0,056, con p > 0, 20 en la tabla de LilleSons, New York. fors), vase la gura 5. El test CC indicara errneamente que la tabla se ajusta a la normal multi- [11] Stoyanov, J. (1997). Counterexamples in Probability. John Wiley and Sons, Chichester, New variante. York. La ancdota: este cndido planteamiento fue el primer intento de trabajo de investigacin de un es- [12] Szkely, G. (1986). Paradoxes in Probability tadstico joven y novato, que interpret al pie de la Theory and Mathematical Statistics. P. Reidel letra una propiedad probabilstica de la distribucin Pub. Co., Dordrecht, Boston. normal. [13] Tiit, E. M. (1984). Formal computations of regression parameters. In: Proceedings Sixth Referencias Symposium COMPSTAT 1984, pp. 497-502. (T. Havraneek, ed.), Physica-Verlag, Vienna. [1] Cramer, E. M. (1975). The relation between Rao's paradox in discriminant analysis and re- [14] Waller, L. A. (1995). Does the characteristic function numerically distinguish distributions? gression analysis. Multivariate Behavioral ReThe American Statistician, 49, 150-152. search, 10, 99-107. 21