Está en la página 1de 8

ARTCULOS DE APLICACIN

RESPUESTAS A ALGUNAS PARADOJAS Y CURIOSIDADES ESTADSTICAS


Universidad de Barcelona

Carles M. Cuadras

1. Introduccin
En este trabajo se exponen las soluciones a algunas paradojas y situaciones curiosas, que pueden presentarse en probabilidad y estadstica, publicadas en el Boletn de la SEIO, 23 (1), 24-29, vase Cuadras (2007). Las soluciones que aqu se proponen no son necesariamente las nicas posibles.

2. La paradoja de juntar datos


En la primera paradoja nos encontrbamos con la sorpresa de que un tratamiento ecaz para hombres y mujeres por separado, en el sentido de que mejoran ms los tratados que los no tratados, los resultados se invierten si juntamos las dos tablas 2 2. Concretamente, se recuperan el 46 % de los tratados frente al 38 % de los no tratados en el caso de hombres, y el 68 % frente al 58 % en el caso de las mujeres. Pero al juntar las frecuencias de hombres y mujeres, resultan que se recuperan el 49 % de los tratados frente al 54 % de los no tratados. Las tablas de datos y la paradoja aparecen en Szkely (1986, p. 135), aunque el autor no proporciona ninguna solucin. Una explicacin para esta paradoja, conocida como paradoja de Simpson, es como sigue. Al considerar la tabla con todas las frecuencias, estamos mezclando dos poblaciones distintas, con proporciones signicativamente diferentes en cuanto a recuperacin en hombres y mujeres. Hablando en trminos de probabilidades, donde Rec signica paciente recuperado y Trat que ha recibido tratamiento, podemos escribir

0, 46. Es decir, el 54 % se recuperan frente al 46 % que no se recuperan, y la superioridad del tratamiento se conrma al juntar los datos de hombres y mujeres. Evidentemente, si una persona que ha seguido el tratamiento se interesa por la probabilidad de recuperarse, sabremos de entrada si es un hombre o una mujer. Pero si por alguna razn esta informacin no est disponible, la probabilidad debe calcularse ponderando con las proporciones de hombres y mujeres. En cuanto a la signicacin estadstica de la inuencia del tratamiento en la mejora de los pacientes, puesto que tenemos dos tablas 2 2 independientes, debera aplicarse el test de Mantel-Haenszel. Vase Lee (1992).

3. Solucin a la primera paradoja del pvalor


Si V es un estadstico de contraste en un test jicuadrado con m grados de libertad, bajo la hiptesis nula, el pvalor p = P (V > v) sigue la distribucin uniforme en el intervalo (0, 1). Se toma la misma decisin tanto si v > 2 como si p < , donde es el nivel de signicacin. Pero 2 log p sigue una jicuadrado con 2 g.l., y por lo tanto podemos plantear el test utilizando 2 log p. Para m = 2 resulta paradjico o incoherente que un contraste ji-cuadrado con m g.l. se convierta en uno con 2 g.l. En realidad, cualquier variable continua X con funcin de distribucin F se puede convertir en una ji-cuadrado con 2 g.l. Basta tomar 2 log(F (X)). En particular, cualquier estadstico (test F por ejemplo), se puede reducir a un ji-cuadrado con 2 g.l. siguiendo el mismo procedimiento. No se trata pues de una paradoja, sino de un simple cambio de variable que aparentemente modica el estadstico o los grados de libertad.

PH (Rec/Trat) = 0, 46

PM (Rec/Trat) = 0, 68

Hay en total 2610 personas y las proporciones de hombres y mujeres son P (H) = 0, 65, P (M) = 0, 35. Entonces la probabilidad de recuperarse si ha seguido tratamiento, haciendo abstraccin de que sea hombre o mujer, es

P (Rec/Trat) = PH (Rec/Trat)P (H)+ PM (Rec/Trat)P (M ) = 0, 54


Por otra parte, la probabilidad de recuperarse si no ha seguido tratamiento es P (Rec/SinTrat) = 14

4. Solucin a la segunda paradoja del pvalor


Esta paradoja aparece en Rao (1952, p. 252). Se obtenan dos t de Student univariantes signicativas para dos variables x, y, por separado y una F

ARTCULOS DE APLICACIN

de un test bivariante no signicativa:

x t = 2, 302 (45 g.l.) (p = 0, 0259), y t = 2, 215 (45 g.l.) (p = 0, 0318). (x, y) F (2, 44) = 2, 68 (p = 0, 078)
Cmo se explica que los dos tests univariantes sean signicativos pero el bivariante no? Vamos a dar una explicacin que seguramente no es la nica posible. Interpretemos geomtricamente esta paradoja. Con nivel de signicacin 0,05, y aplicando el test T 2 de Hotelling, aceptaremos la hiptesis nula bivariante si el vector diferencia d = (x y) pertenece a la elipse

n1 n2 d n1 + n2

561, 7 374, 2

374, 2 331, 24

d 3, 2,

donde 3,2 es el punto crtico para una F con 2 y 44 grados de libertad. As pues no hay signicacin si x, y verican la inecuacin

0, 04 036 9x2 0, 0912 1xy + 0, 06845 6y 2 3, 2.


Anlogamente, en el test univariante y para la primera variable x, la diferncia d = x1 x2 debe vericar n1 n2 d | ( )| 2, n 1 + n 2 s1 siendo 2 el valor crtico para una t con 45 g. l. Procederamos de forma similar para la segunda variable y . Obtenemos as las cuatro rectas Variable x: 0, 143x= 2, Variable y : 0, 1862y = 2.

En la gura 1 podemos visualizar la paradoja. Los valores de la diferencia que estn a la derecha de la recta vertical rx son signicativos para la variable x. Anlogamente los que estn por encima de la recta horizontal ry lo son para la y. Por otra parte, todos los valores que estn fuera de la elipse (regin F) son signicativos para las dos variables. Hay casos en que x, y por separado no son signicativos, pero conjuntamente s. No obstante, existe una pequea regin por encima de ry y a la derecha de rx que cae dentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealado con el signo +, para el cual x e y son signicativas pero no (x, y). As x e y son signicativas si el punto se encuentra en el cuadrante A. (Una simetra con respecto al origen nos permitira considerar otras dos rectas y la regin B). Pues bien, el test con x y el test con y por separado, son tests t distintos del test T 2 empleado con (x, y), equivalente a una F. Tales tests no tienen por qu dar resultados compatibles. Las probabilidades de las regiones de rechazo son distintas. Adems, la potencia del test con (x, y) es superior, puesto que la probabilidad de la regin F es mayor que las probabilidades sumadas de las regiones A y B. Para otras explicaciones de esta paradoja, vase Cramer (1975).

5. Correlaciones que no alcanzan el valor uno


El coeciente de correlacin entre dos variable X, Y es un valor que oscila entre 1 y +1. Pero si las variables siguen distribuciones de distinta familia no pueden alcanzar tales valores. Se demuestra que si las funciones de distribucin son F y G, ambas funciones contnuas, y las variables estn estandarizadas, entonces las correlaciones mnima y mxima son

=
0

F 1 (t)G1 (1 t)dt y F 1 (t)G1 (t)dt.

+ =
0

Cualquiera que sea la distribucin de probabilidad conjunta de (X, Y ) proporcionando un coeciente de correlacin (X, Y ), se verica Figura 1. Un test de comparacin de poblaciones bivariante puede ser menos signicativo que dos tests univariantes.

(X, Y ) + .
Es muy fcil ver que resulta imposible que (X, Y ) alcance el valor 1 si X es uniforme e Y 15

ARTCULOS DE APLICACIN

Supongamos que todas las medias de las variables I y H valen 100 en los grupos B y N, excepto la media de I que es 90 en el grupo N. Todas las desviaciones tpicas valen 12, y los coecientes de correlacin, tanto en B como en N son r = 0, 7. Se argumentaba que si un individuo B (blanco) posee el mismo 6. Solucin a la paradoja del coeciente I (coeciente de inteligencia) que otro individuo N de correlacin (negro), la prediccin de H sera superior. Sin emSe supona que X, Y eran dos variables aleato- bargo, la prediccin es incorrecta, sucediendo justo rias denidas sobre la misma poblacin, con cova- al revs. En efecto, las rectas de regresin son 2 2 rianza XY , variancias nitas X , Y y coeciente B: H = 100 + 0, 7(I 100) de correlacin de Pearson = XY /(X Y ). SeN: H = 100 + 0, 7(I 90) guidamente se tomaban X1 , . . . , Xn independientes e igualmente distribuidas como X. Un ejem- Entonces si un B y un N puntuan igual I = 110, las plo real podra consistir en la estatura Y de un predicciones de H son padre y las estaturas X1 , . . . , Xn de n hijos, donH = 100 + 0, 7(110 100) = 107 (individuo B), de cada hijo tiene una madre diferente. Suponiendo H = 100 + 0, 7(110 90) = 114 (individuo N). cov(Xi , Y ) = XY , se probaba que la correlacin As, para un mismo nivel de inteligencia 110, la preentre la media X n y la variable Y es n. Luego, diccin para la habilidad H es superior en N que en para n sucientemente grande, el coeciente de coB. La gura 2 ilustra esta paradoja. La recta B es rrelacin entre la media X n e Y puede ser mayor paralela y est situada a la derecha de N por ser que 1. Veamos que esto es imposible. la media de I ms alta. Sin embargo, a un mismo Primera explicacin (graciosa): Suponiendo que valor de I le corresponde un valor de H ms alto en la correlacin entre la estatura Y del padre con la el grupo N. X del hijo es = 0, 5, ningn padre puede tener Este error de interpretacin aparece en la conms de 4 hijos varones (con distintas mujeres) para trovertida obra The Bell Curve , de Herrstein y Muevitar que n0, 5 supere el valor 1. De hecho, no se rray. Vase Kaplan (1997) y Cuadras (2003). conoce ningn caso con tantos hijos varones nacidos de distinta mujer. Segunda explicacin (seria): Si X e Y estn correlacionadas, no es posible tomar una muestra X1 , . . . , Xn de valores independientes de X. La independencia de la muestra es incompatible con que est correlacionada con Y. Se desprende de n 1 que los valores x son necesariamente dependientes. As, las estaturas de los hijos que comparten un mismo padre estn necesariamente correlacionadas. Esta paradoja nos advierte de que, en ciertas situaciones, no se puede tomar alegremente una muestra de tamao n de valores independientes. La ancdota: se propuso esta paradoja a un destacado probabilista puro de una universidad britnica, pero fue incapaz de resolverla. En cambio, otros estadsticos y probabilistas (aunque no todos), ms familiarizados con la estadstica, la resolvieron Figura 2. Una media mayor para I (inteligencia) en el grupo B no implica, comparando con otro grupo rpidamente. N, una prediccin mejor para otra caracterstica co7. Solucin a la prediccin racista rrelacionada H cuando I ha tomado el mismo valor Vamos a resolver la paradoja con un ejemplo. en B y N. 16

es exponencial. Pues si as fuera, existira una combinacin lineal entre ambas, Y = aX + b, y por lo tanto Y seguira tambin una distribucin uniforme, cambiando slo la media y la varianza, y no una exponencial.

ARTCULOS DE APLICACIN

8. Correlaciones simples aumentando y la Tenemos pues que mltiple disminuyendo


En efecto, puede suceder que aumentando las correlaciones simples disminuya la correlacin mltiple. Esta aparente anomala para variables equicorrelacionadas, fue primeramente observada por Tiit (1984). Vamos a formular una explicacin en el caso general. Supongamos que la variable respuesta Y correlaciona con X1 , . . . , Xk , segn el vector r, siendo R la matriz de correlaciones entre las x's. El coeciente de correlacin mltiple (al cuadrado) es

r1 r1 = 0, 86 > r2 r2 = 0, 63

pero

2 2 R1 < R2 .

R2 = r R1 r.
Consideremos la descomposicin espectral de R y de su inversa R1
k k

R=
i=1

i ui ui ,

R1 =
i=1

1 ui ui , i i

siendo 1 > > k los valores propios y u1 , . . . , uk los vectores propios ortonormales. Entonces la correlacin mltiple (al cuadrado) es
k

R2 = r R1 r =
i=1

1 (r ui )2 . i

Como la suma de los valores propios es k, el primer valor propio es mayor que 1 y el ltimo es menor que 1. Resulta entonces que si r sigue esencialmente la direccin de uk , entonces r uk puede tener un peso importante en R2 . Para los dos ejemplos propuestos

En otras palabras, cuando la direccin de r con las correlaciones simples, es prxima a la de un vector propio de R asociado a un valor propio menor que 1, la correlacin mltiple puede tomar un valor sorprendentemente alto. Para ms detalles, vase Cuadras (1995). En realidad, la variable respuesta Y estara demasiado correlacionada con las ltimas componentes principales obtenidas a partir de R, lo que provoca una cierta distorsin. Es decir, como se comenta en la seccin siguiente, se conrma la importancia de la primera componente principal en el comportamiento de las variables explicativas. Se puede tambin argumentar que si las variables X estn positivamente correlacionadas, y la respuesta Y correlaciona positivamente con una, debera correlacionar tambin positivamente con las dems. Si as ocurriera, lo que es bastante razonable, Y apenas correlacionara con las ltimas componentes principales. La ancdota: esta peculiaridad en regresin (aumentando las correlaciones simples disminuye la mltiple) se present en un congreso internacional en 1994. Pero la posibilidad de que Y correlacionara de manera distinta con las variables explicativas, fue negada categricamente por un destacado estadstico de Stanford, provocando una acalorada discusin entre partidarios y detractores de los argumentos aqu presentados.

0, 6 0, 5 r1 = 0, 4 0, 3 0, 6 0, 5 r2 = 0, 1 0, 1

1 0, 3 0, 3 1 R = 0, 4 0, 5 0, 5 0, 4

0, 4 0, 5 0, 5 0, 4 1 0, 3 0, 3 1

9. Explicacin a una desigualdad de la correlacin mltiple


Con las mismas notaciones que en la seccin anterior, vamos a estudiar la sorprendente desigualdad
2 2 R2 > r1 + + rk ,

los productos escalares normalizados son r1 u4 = 0, 2157 < r2 u4 = 0, 5669. Es decir, r2 forma un ngulo con u4 menor que r1 . Entonces las correlaciones mltiples (al cuadrado) son
2 R1 =0, 4848=0, 3682+0, 0000+0, 0167+0, 1000, 2 R2 =0, 7056=0, 1920+0, 0031+0, 0042+0, 5052.

que prueba que variables correlacionadas no son siempre redundantes, y que a veces mantienen una estructura de dependencia que es ms difcil de interpretar de lo que parece. La desigualdad puede expresarse como
k

r R1 r r r =
i=1

1 i (r ui )2 > 0. i

De nuevo vemos que (r ui )2 inuye mucho si i es un valor propio menor que 1 y r sigue esencialmen17

ARTCULOS DE APLICACIN

te la direccin de ui , en especial la direccin de uk . Esto es precisamente lo que ocurre en el ejemplo anterior con la segunda variable respuesta

Un argumento ms complicado pero similar, permitira estudiar la desigualdad M > K cuando (x y) sigue esencialmente la direccin de las ltimas componentes principales. Como en el caso de 2 2 2 R2 = 0, 7056 > r1 + + r4 = 0, 63 la regresin mltiple, la interpretacin de M > K Se puede probar que si r sigue esencialmente la es que las matrices de datos X, Y siguen en cada direccin de uk , entonces la respuesta Y est muy poblacin, la direccin determinada por las primecorrelacionada con la ltima componente principal. ras componentes principales. Sin embargo, el vector Ms exactamente, la desigualdad anterior equivale que une la medias sigue una direccin bsicamente ortogonal. En otras palabras, como muestra la a k gura 3, las medias de las poblaciones no siguen la 2 rzi (1 i ) > 0, misma direccin que los datos en cada poblacin i=1 donde rzi es la correlacin simple entre Y y la com- (paradoja de Simpson). ponente principal Zi . Entonces la inuencia de rzi es relevante si 1 i > 0, como ocurre con la ltima componente principal. Las componentes principales con varianza pequea, en especial la ltima, indican las direcciones extraas del conjunto de variables explicativas. En ciertas aplicaciones se interpretan como direcciones de error. Podemos armar que se presenta la desigualdad objeto de este estudio si la variable respuesta sigue esencialmente la misma direccin que las ltimas componentes principales, una situacin no deseable pero que puede ocurrir con datos reales. Vase Cuadras (1993, 1998) para ms detalles tcnicos y ejemplos.

10. Mahalanobis mayor que Pearson?


La desigualdad M > K, donde M = (x y) S1 (x y) es la distancia de Mahalanobis entre 1 dos poblaciones y K = (x y) [diag(S)] (x y) es la distancia de K. Pearson, se presenta cuando (xy) sigue esencialmente la direccin de una componente principal con varianza pequea. Vamos a concretar la desigualdad para el caso de la ltima componente principal. Como la suma de los valores propios es la traza de S, podemos suponer que el menor valor propio del vector propio uk verica Figura 3. Los datos para cada una de las dos poblaciones siguen la direccin A (primera componente principal), pero las medias de las poblaciones siguen la direccin ortogonal B (segunda componente principal).

11. Por qu los momentos no siempre caracterizan


Hay un dicho citado por Francisco de Quevedo que dice: Dime con quin fueres y direte cul eres. Trasladado a las distribuciones de variables estadsticas, podramos armar: Dime qu momentos tienes y te dir cmo te distribuyes. Pero este dicho puede fallar, pues hay distribuciones que no estn caracterizadas nicamente por sus momentos. Un ejemplo importante es la distribucin log-normal con densidad

k < s 2 , i

i = 1, . . . , k.

Supongamos, por ejemplo, que (x y) = uk . Entonces S1 (x y) = (x y)/k y la distancia de Mahalanobis verica

M = (x y) (x y)/k
y y ( x1k 1 )2 + + ( xkk k )2 > y y ( x1s1 1 )2 + + ( xksk k )2 = K

f (x) = (2)1/2

1 1 exp[ (log x)2 ] x 2

para x > 0.

18

ARTCULOS DE APLICACIN

Dos condiciones para que la sucesin n = E(X n ) de los momentos de todos los rdenes no caractericen la distribucin de la variable son:
+ ln f (x) 1+x2 dx + ln f (x ) 1+x2 dx
2

ces. Por ejemplo:

< <

si el soporte de f es R, si el soporte de f es R+ .

(x) = (2)1/2 ex /2 , f (x) = (x){1 + 1 sin(2x)}. 2


La explicacin transcurre por el mismo camino que los momentos comunes en distribuciones distintas. Al ser MX (t) un valor medio que depende de t, para ciertas distribuciones, como las mencionadas, los valores medios se compensan y dan lugar a funciones muy parecidas. La situacin cambia radicalmente si tomamos la funcin caracterstica

La no caracterizacin signica que existen dos distribuciones distintas que tienen los mismos momentos. Una explicacin sencilla e intuitiva consiste en tener en cuenta que los momentos son valores esperados R xn f (x)dx, y en consecuencia pueden proporcionar el mismo valor si perturbamos f (x) de modo que las integrales (que son cantidades medias) se compensen. Para profundizar ms en este tema, vase Stoyanov (1997, p. 101).

X (t) = E(eitX ) =
a

eixt dF (x).

12. Funcin generatriz que no distingue


Si bien los momentos podran no distinguir, es en cambio cierto que la funcin generatriz de momentos

Como prueba Waller (1995) el uso de X (t) da lugar a funciones (de variable real a valores complejos) que pueden ser bastante distintas, debido a la presencia de la parte imaginaria. En el caso que nos ocupa, las funciones caractersticas son

MX (t) = E(etX ) =
a

ext dF (x),

X (t)=e

(it)2 2

, Y (t)=e(it)

/2+log(1+ 1 e2 sin(2it)) 2

suponiendo que existe, caracteriza totalmente la distribucin de X. No obstante existen distribuciones distintas para las cuales apenas se distinguen (numrica y grcamente) las funciones generatri-

Su representacin da lugar a grcos iguales para la parte real, pero diferentes para la parte imaginaria y por supuesto distinguibles, como muestra la gura 4.

Figura 4. La parte real (izquierda) de las funciones caractersticas X (t), Y (t) es indistinguible. Sin embargo la parte imaginaria (derecha) vale 0 para X (t), y es distinta de 0 para Y (t) si |t|>2,5, pudindose distinguir una de otra.

19

ARTCULOS DE APLICACIN

En denitiva, se puede armar que la funcin generatriz (basada en la transformacin de Laplace) es interesante para encontrar momentos y probar propiedades de ciertas distribuciones, pero es poco til para distinguirlas numricamente. En contraste, la funcin caracterstica (basada en la transformacin de Fourier) permite comparaciones numricas mucho ms ecientes.

Pero el teorema no se contradice, tratndose de un simple truco, propio de un estadstico veterano e intrigante. En efecto, podemos sumar mil Poissones y las que queramos y contradecir el teorema, con tal de tomar = 0, 001 o cualquier sucientemente pequeo. En realidad estamos sumando muchas variables con varianza muy pequea, variables aleatorias que son casi constantes, de modo que la suma da lugar a una variable con varianza 1. 13. La ley de los grandes nmeros no falla Este aparente incumplimiento tambin ocurre con la distribucin binomial B(n, p), cuya variaSe denunciaba que si X es una variable aleato- ble es suma de n Bernoullis independientes. Pues ria distribuida Poisson con media = 1, entonces si n es muy grande y p muy pequeo, la distrila media X n de n valores independientes verica bucin B(n, p) es aproximadamente Poisson, con P X n 1, o mejor dicho : = np. Por ejemplo, es Poisson = 1 si n = 1000 y p = 0, 001. Tampoco se contradice el teorema cenP ( l X n = 1) = 1. m tral del lmite, alertando estos dos ejemplos de que, n bajo ciertas circunstancias, la suma de muchas vaSin embargo, mostrbamos que riables independientes puede proporcionar una distribucin alejada de la normal. en nn l P (X n = 1) = m = 0. n n! 15. Por qu un test de multinormalidad Es decir, a pesar de que X n converge casi seguramente a 1, X n no puede alcanzar exactamente el valor 1 si hacemos tender n a innito. Aunque sorprenda a primera vista, la imposibilidad de alcanzar X n el valor medio terico 1 no contradice la famosa ley de los grandes nmeros. En realidad ocurre que

resulta poco efectivo

Basndose en un teorema debido a H. Crmer, se propona aceptar la normalidad multivariante de X1 , . . . , Xk tomando la suma Z = Y1 + + Yk , donde Y1 , . . . , Yk son las componentes principales extradas de una matriz de datos X de orden n k, con n grande. La normalidad univariante de Z debera garantizar la multinormalidad de X1 , . . . , Xk . l P (|X n 1| > ) = 0, m n Desde un punto de vista probabilstico, el resultado es correcto. Z es normal si la distribucin por pequeo que sea > 0. Es decir, X n tomar vade X1 , . . . , Xk es normal multivariante. Pero... una lores en un entorno (1, 1+) con certeza absoluta. cosa es la probabilidad, basada en modelos matemTambin podemos interpretar que la distribucin de ticos, a menudo descritos mediante funciones muy X n , a medida que n crece, se aproxima a la normal, bonitas, y otra distinta la estadstica, siempre basay es bien sabido que para una distribucin contnua da en datos reales producto de la observacin expela probabilidad de que tome exactamente un valor rimental. En efecto, si aplicamos este test, al que concreto (conjunto de medida nula) es igual a cero. llamaremos CC (Crmer-Cuadras) detectaremos f14. El teorema central del lmite no falla cilmente que una muestra X sigue la distribucin multinormal cuando sta es la verdadera distribuContradecamos el famoso teorema central del cin de las las de X. CC funciona bien cuando el lmite tomando X1 , . . . , X100 Poisson independienmodelo multinormal es el verdadero. Pero CC no tes con parmetro = 0, 01 y obteniendo la suma pasar a la posteridad, ni merecer aparecer en el buscador Google porque si X no es multinormal, X = X1 + + X100 , CC tambin detectar multinormalidad. Es decir, que se distribuye segn una Poisson con media el test CC en la inmensa mayora de los casos de = 1. Por lo tanto la distribucin de X es de- tectar multinormalidad, tanto si los datos siguen la normal multivariante como si no. masiado distinta de la normal. 20

ARTCULOS DE APLICACIN

[2] Cuadras, C. M. (1993). Interpreting an inequality in multiple regression. The American Statistician, 47, 256-258. [3] Cuadras, C. M. (1995). Increasing the correlations with the response variable may not increase the coecient of determination: a PCA interpretion. In: Multivariate Statistics and Matrices in Statistics, pp. 75-83. (E. M. Tiit, T. Kollo and H. Niemi, eds.), VSP/TEV, Utrecht. [4] Cuadras, C. M. (1998). Some cautionary notes on the use of principal components regression. (Revisited). The American Statistician, 52, p. 371. [5] Cuadras, C. M., Fortiana, J. (2000). The Importance of Geometry in Multivariate Analysis and some Applications. In: Statistics for the 21st Century, pp. 93-108, (C.R. Rao and G. Szekely, eds.), Marcel Dekker, New York.

Figura 5. El test de multinormalidad basado en la suma de las componentes principales no permite distinguir (como en este caso de variables que son potencias de uniformes) si los datos proceden de una distribucin normal multivariante o no.

Por qu? Al ser Z una suma de k componentes principales, que son variables incorrelacionadas, [6] Cuadras, C. M. (2003). Report. Una narraci aparecer un efecto debido al teorema central del cientca. EUB, Barcelona. lmite, y la distribucin de Z , de la que slo dispon[7] Cuadras, C. M. (2007). Algunas paradojas y dremos de una muestra de tamao n, se parecer curiosidades de la estadstica. Boletn de la demasiado a la normal, hasta el punto de que un SEIO, 23(1), 24-29. test de normalidad univariante nos inducir a aceptar la hiptesis nula. [8] Kaplan, J. (1997). A statistical error in The Por ejemplo, generando una tabla con n = 100, Bell Curve. Chance, 10, 20-21. k = 4, datos uniformes (0, 1) e independientes, y [9] Lee, E. T. (1992). Statistical Methods for Survitransformando cada variable Xi elevndola a la poval Data Analysis. Wiley and Sons, New York. tencia i, es evidente que la distribucin conjunta no es multinormal. Sin embargo, la variable Z se ajus- [10] Rao, C. R. (1952). Advanced Stastistical Metta bastante bien a la normal (test de Kolmogorovhods in Biometric Research. John Wiley and Smirnov= 0,056, con p > 0, 20 en la tabla de LilleSons, New York. fors), vase la gura 5. El test CC indicara errneamente que la tabla se ajusta a la normal multi- [11] Stoyanov, J. (1997). Counterexamples in Probability. John Wiley and Sons, Chichester, New variante. York. La ancdota: este cndido planteamiento fue el primer intento de trabajo de investigacin de un es- [12] Szkely, G. (1986). Paradoxes in Probability tadstico joven y novato, que interpret al pie de la Theory and Mathematical Statistics. P. Reidel letra una propiedad probabilstica de la distribucin Pub. Co., Dordrecht, Boston. normal. [13] Tiit, E. M. (1984). Formal computations of regression parameters. In: Proceedings Sixth Referencias Symposium COMPSTAT 1984, pp. 497-502. (T. Havraneek, ed.), Physica-Verlag, Vienna. [1] Cramer, E. M. (1975). The relation between Rao's paradox in discriminant analysis and re- [14] Waller, L. A. (1995). Does the characteristic function numerically distinguish distributions? gression analysis. Multivariate Behavioral ReThe American Statistician, 49, 150-152. search, 10, 99-107. 21

También podría gustarte