Está en la página 1de 10

Pruebas de bondad de ajuste en distribuciones

simtricas, qu estadstico utilizar?*


Goodness of Fit Tests for Symmetric Distributions,
which Statistical Should I Use?
Recibido: marzo 24 de 2014 | Revisado: octubre 18 de 2014 | Aceptado: octubre 18 de 2014

Ignacio Pedrosa **
Joel Juarros-Basterretxea ***
Adn Robles-Fernndez ****
Julia Basteiro *****
Eduardo Garca-Cueto ******
Universidad de Oviedo, Espaa

Resumen
El uso de pruebas no paramtricas resulta recomendable cuando los datos
a analizar no cumplen los supuestos de normalidad y homocedasticidad.
Sin embargo, la suposicin de la normalidad de los datos o el empleo de
pruebas de bondad de ajuste que no son adecuadas para el tamao muestral
empleado son aspectos habituales. Este hecho implica, en muchas ocasiones,
el uso de pruebas estadsticas no ajustadas al tipo de distribucin real y, con-
secuentemente, el establecimiento de conclusiones errneas. Por ello, en el
presente estudio se ha analizado el poder de deteccin de cinco pruebas de
bondad de ajuste (Kolmogorov-Smirnov, Kolmogorov-Smirnov-Lilliefors,
Shapiro-Wilk, Anderson-Darling y Jarque-Bera) en distribuciones simtri-
cas con seis tamaos muestrales entre 30 y 1000 participantes generados
mediante una simulacin Monte Carlo. Los resultados muestran una ten-
dencia conservadora generalizada a medida que se incrementa el tamao
doi:10.11144/Javeriana.upsy13-5.pbad muestral. En cuanto a los tamaos muestrales, las pruebas con un mejor
poder de deteccin de la no normalidad son Kolmogorov-Smirnov-Lilliefors
Para citar este artculo: Pedrosa, I., Juarros-Bas- y Anderson-Darling para muestra pequeas, la prueba de Kolmogorov-
terretxea, J., Robles-Fernndez, A., Basteiro, J., Smirnov si se emplean tamaos muestrales medios (200 participantes) y
& Garca-Cueto, E. (2015). Pruebas de bondad de la prueba de Shapiro-Wilk cuando se analizan muestras superiores a 500
ajuste en distribuciones simtricas, qu estadstico
utilizar? Universitas Psychologica, 14(1), 245-254.
participantes. Adems, la prueba clsica de Kolmogorov-Smirnov se con-
http://dx.doi.org/10.11144/Javeriana.upsy13-5.pbad sidera absolutamente ineficaz independientemente del tamao muestral.
Palabras clave
bondad de ajuste; distribucin normal simtrica; tamao muestral; simulacin
*
Artculo de investigacin Monte Carlo; Kolmogorov-Smirnov
**
Facultad de Psicologa. Correo electrnico: npe-
drosa@cop.es Abstract
***
Facultad de Psicologa. Correo electrnico: The use of nonparametric tests is recommended when the data do not meet
juarrosbasterretxea.j@gmail.com the assumptions of normality and homoscedasticity. However, the assump-
****
Facultad de Psicologa. Correo electrnico: tions of normality of the data or the use of goodness of fit tests that are not
roblesfernandez.a@gmail.com appropriate for the assessed sample are common aspects. In many cases, this
*****
Facultad de Psicologa. Correo electrnico: jl- implies the use of statistical tests unadjusted for the real data distribution
basteiro@gmail.com and, consequently, the establishment of inaccurate conclusions. Therefore,
******
Facultad de Psicologa. Correo electrnico: cue- in this paper the detection power of five tests of goodness of fit (Kolmogorov-
to@uniovi.es Smirnov-Lilliefors, Kolmogorov-Smirnov, Shapiro-Wilk, Anderson-Darling

Univ. Psychol. Bogot, Colombia V. 14 No. 1 PP. 245-254 ene-mar 2015 ISSN 1657-9267 245
I gnacio P edrosa C orreo , J oel J uarros -B asterretxea C orreo ,
A dn R obles -F ernndez C orreo , J ulia B asteiro C orreo , E duardo G arca -C ueto C orreo

and Jarque-Bera) in symmetric distributions is analysed in six estos violen el supuesto de normalidad (Choi, 2005;
sample sizes between 30 and 1000 participants generated by Strasak, Zaman, Marinell, Pfeiffer, & Ulmer, 2007).
Monte Carlo simulation. Results show a marked conservative
tendency as the sample size becomes larger. Regarding sample As, ya Micceri (1989) demostr cmo a pesar de
sizes to detect non-normality: analysing small samples the asumir este supuesto, tras examinar 440 conjuntos
best results are provided by Kolmogorov-Smirnov-Lilliefors de datos, ninguno de ellos se ajustaba realmente a
and Anderson-Darling tests, if the sample is medium-sized una distribucin normal.
(200 participants) the Kolmogorov-Smirnov, and when
samples are over 500 participants the Shapiro-Wilk test is
Esta es una cuestin que debera estar presente
recommended. In addition, the classic test of Kolmogorov- a la hora de iniciar cualquier estudio, ya que las
Smirnov is considered absolutely ineffective regardless the pruebas estadsticas citadas anteriormente son de
sample size. uso frecuente en todo tipo de campos sustantivos
Keywords
goodness of fit; symmetric normal distribution; sample size; Monte de la psicologa a la hora de llevar a cabo la adap-
Carlo simulation; Kolmogorov-Smirnov test tacin de instrumentos de medida (e. g. Pedrosa,
Garca-Cueto, Surez-lvarez, & Prez Snchez,
2012), el estudio del efecto de unas condiciones
experimentales sobre una conducta especfica (e.
Dentro del mbito de investigacin aplicado de las g. Tavares Tadaiesky & Zagury Tourinho, 2012),
ciencias de la salud y de la psicologa en particular, el anlisis de la relacin entre diversas variables
la inmensa mayora de las investigaciones llevadas (e. g. Surez-lvarez, Campillo-lvarez, Fonseca-
a cabo en el campo aplicado suelen utilizar pruebas Pedrero, Garca-Cueto, & Muiz, 2013), etc.
estadsticas paramtricas. Todas ellas (coeficiente En este sentido, como se ha dicho, esta compro-
de correlacin de Pearson, ANOVA, ANCOVA, bacin se entiende como un paso previo al trata-
prueba de t, estadstico Z, anlisis factorial, etc.) miento de los datos que en la mayora de ocasiones,
presuponen la normalidad univariada o multiva- no llega a realizarse, ya sea bien al presuponer una
riada de las distribuciones de las puntuaciones en robustez a las pruebas que se utilizan, que no siem-
la poblacin. La violacin del supuesto de normali- pre poseen, o bien por desconocimiento o desidia
dad hace que las interpretaciones de los resultados del propio investigador. Por el contrario, en aquellas
no sean las que, a priori, se podran deducir del uso situaciones en donde se comprueba la normalidad
de las pruebas en s mismas. de la distribucin, es comn el empleo de pruebas
Aun siendo cierto que diferentes estudios sea- de bondad de ajuste de uso generalizado que se en-
lan que muchas de estas pruebas paramtricas han cuentran accesibles en los paquetes estadsticos de
demostrado ser robustas cuando se violan tanto el tratamiento de datos ms populares.
supuesto de normalidad como el de homocesdasti- En alusin a dicho software, cabe destacar el
cidad (Finch, 2005; Lemeshko & Lemeshko, 2008), paquete estadstico SPSS como uno de los ms
desde hace ms de 50 aos los diferentes expertos utilizados dentro del rea de las ciencias de la salud
en metodologa recomiendan el uso de pruebas de manera global y de la psicologa en particular.
no paramtricas cuando los datos sobre los que se Aunque mediante este programa, el estudio de la
trabaja no cumplen dichos supuestos (Zimmerman, normalidad puede realizarse aplicando tres pruebas
1998). estadsticas: Kolmogorov-Smirnov (K-S), la prueba
Sin embargo, la realidad es que cuando se lleva de K-S tras aplicar la correccin de Lilliefors (K-S-
a cabo la investigacin aplicada, la mayor parte L) y Shapiro-Wilk (S-W), resulta tambin frecuente
de investigadores emplean pruebas paramtricas, que la primera de ellas sea la ms utilizada sin que
suponiendo habitualmente la normalidad de los el investigador conozca, en numerosas ocasiones,
datos y sin ningn tipo de comprobacin sobre este las otras pruebas alternativas que el software ofrece
supuesto (Erceg-Hurn & Mirosevich, 2008; Romo, y que, como se muestran ms adelante, presentan
Delgado, & Costa, 2010). De hecho a la hora de un poder de deteccin ms elevado que la prueba
trabajar con datos empricos, resulta habitual que de K-S.

246 U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015


P ruebas de bondad de ajuste en distribuciones simtricas , qu estadstico utilizar ?

As pues, la comprobacin del supuesto de nor- distribucin terica con la emprica y calcula un
malidad presenta una importancia destacada, ya valor de discrepancia mxima entre ambas distri-
que como indican Steinskog, Tjstheim y Kvam- buciones, proporcionando un valor p, asociado a la
st (2007), muchos procedimientos estadsticos probabilidad de obtener una distribucin que dis-
requieren, o funcionan mejor, cuando el supuesto crepe tanto como la observada si verdaderamente se
de normalidad se cumple, lo que influye directa- hubiera obtenido una muestra aleatoria, de tamao
mente sobre las inferencias y estimaciones de los n, de una distribucin normal (Chakravarti, Laha,
resultados obtenidos. & Roy, 1967).
De este modo por ejemplo, el trabajo de Schu- Sin embargo, esta prueba cuenta con ciertas
cany y Ng (2006) muestra cmo la seleccin de las limitaciones que restringen su aplicacin, entre las
pruebas estadsticas adecuadas y ajustadas al tipo de que destacan el hecho de que si los parmetros de
distribucin real con que se trabaja, provoca una re- posicin, escala y forma de la distribucin se cal-
duccin del error tipo I. Por tanto, la comprobacin culan a partir de los datos, la regin crtica de la
del supuesto de normalidad y la posterior eleccin prueba no es vlida, por lo que estos deben deter-
de las pruebas estadsticas que se deben emplear minarse mediante simulacin. Adems la prueba
implicaran a nivel prctico, consecuencias desta- muestra una mayor sensibilidad en el centro de la
cables si se piensa por ejemplo, en la aplicacin de distribucin que en las colas (Thadewald & Buning,
un tratamiento mdico o psicolgico. 2007). Por otra parte, a estas dos limitaciones hay
Asumiendo entonces la relevancia del estudio de que aadir su tendencia conservadora, provocando
la normalidad en la investigacin terica y emprica, que la hiptesis nula se acepte en un nmero ex-
los trabajos en torno a las pruebas de bondad de cesivamente elevado de ocasiones (Shahabuddin,
ajuste han sido numerosos, desarrollndose ms de Ibrahim, & Jemain, 2009; Steinskog, et al., 2007).
40 estadsticos diferentes (Henderson, 2006; Yazici Con la intencin de mejorar la prueba de K-S,
& Yolacan, 2007). Lilliefors (1967) propuso una modificacin de la
En esta lnea, se han llevado a cabo multitud de misma (K-S-L) sustentada sobre los mismos princi-
investigaciones en las que se analiza la eficacia de pios estadsticos, pero especfica para aquellos casos
las diferentes pruebas de normalidad en base a una en donde la media y la varianza son desconocidas.
amplia gama de caractersticas como por ejemplo, el De este modo, se evita el efecto que provoca, co-
tipo de distribucin, el tamao muestral o la varia- mo ocurre en el caso de K-S, la estimacin de los
cin de los parmetros muestrales, entre otras (e. g., parmetros de la muestra (Steinskog, et al., 2007)
Frey, 2009; Garca-Cueto, Gallo & Miranda, 1998; y se recomienda por tanto, como el estadstico ms
Meintanis & Hlvka, 2010; Shin, Jung, Jeong, & apropiado para dichos casos (Oztuna, Elhan, &
Heo, 2012; Zghoul, 2010). Estos trabajos han de- Tuccar, 2006).
mostrado cmo el poder para detectar desviaciones En ltimo lugar, la prueba de Shapiro-Wilk
de la normalidad de las diferentes pruebas puede (Shapiro & Wilk, 1965) es una de las ms con-
ser significativamente diferente dependiendo de solidadas y con mayor potencia estadstica entre
la naturaleza de la no normalidad sobre la que se las existentes actualmente (Arcones & Wang,
trabaje (Romo, et al., 2010). 2006). Su fundamento estadstico est basado en
Dentro de esta variedad de pruebas existentes, una grfica de probabilidad en la que se considera
la prueba de K-S es una de las ms clsicas en el la regresin de las observaciones sobre los valores
estudio de la normalidad y en esencia, se basa en el esperados de la distribucin hipotetizada, en donde
concepto de la funcin de distribucin emprica y su estadstico W representa el cociente de dos esti-
sus propiedades como aproximacin de la funcin maciones de la varianza de una distribucin normal.
de distribucin terica cuando se trabaja sobre va- Esta prueba ha demostrado de manera general,
riables continuas y se conocen todos los parmetros resultados adecuados en comparacin a las pruebas
muestrales. As, esta prueba compara la funcin de clsicas (Arcones & Wang, 2006), pero especial-

U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015 247


I gnacio P edrosa C orreo , J oel J uarros -B asterretxea C orreo ,
A dn R obles -F ernndez C orreo , J ulia B asteiro C orreo , E duardo G arca -C ueto C orreo

mente cuando se trabaja con distribuciones de co- A pesar de que, como se ha comentado, exis-
las cortas (Thadewald & Buning, 2007) y con un ten diversas caractersticas que afectan al poder de
tamao muestral inferior a 30, ya que muestra una deteccin de estas pruebas, en el presente estudio
alta variabilidad cuando se modifican tanto la si- nicamente se ha valorado la variacin del tamao
metra como el tamao muestral de la distribucin, muestral por ser precisamente la variable a la que el
especialmente entre 20 y 50 participantes (Yazici investigador otorga mayor relevancia en los estudios
& Yolacan, 2007). aplicados en psicologa en los que, generalmente, las
Por otro lado, diferentes investigaciones han variables siguen distribuciones normales y donde,
sealado la adecuada potencia estadstica de otras por regla general, el investigador no llega a analizar el
dos pruebas de bondad de ajuste que, si bien no resto de variables que definen a la propia distribucin.
estn implementadas en muchos de los programas As pues, el objetivo del presente trabajo es
estadsticos ms populares, s resulta fcil obtener el comprobar la precisin de las pruebas estadsticas
software para su aplicacin a travs de la web, como para la comprobacin de la normalidad de los datos
son las pruebas de Jarque-Bera (J-B) y Anderson- ms utilizados en el campo de la psicologa cuando,
Darling (A-D). bajo unos parmetros de distribucin estndar, se
La prueba de J-B se formula bajo la hiptesis modifica el tamao muestral de las distribuciones.
nula de normalidad de los residuos, siguiendo una Con ello se pretende determinar qu pruebas es-
distribucin 2 con dos grados de libertad, al deri- tadsticas resultan ms adecuadas para cada caso
var esta de la suma de cuadrados de dos normales particular. En este sentido, se analiza en qu me-
estandarizadas asintticamente independientes dida las diferentes pruebas cumplen el error tipo
(Jarque & Bera, 1987). Esta prueba ha demostrado I, de modo que si se trabajase sobre distribuciones
una alta consistencia general, pero especialmente normales a un nivel de confianza del 95%, debera
cuando se trabaja con muestras grandes y distribu- rechazarse la hiptesis nula exactamente en un 5%
ciones simtricas y de colas largas (Thadewald & de los casos, pudiendo as establecer qu pruebas
Buning, 2007; Yazici & Yolacan, 2007). son ms conservadoras y liberales en funcin del
Ligada a esta prueba, se ha desarrollado una tamao muestral.
correccin de la misma (Urza, 1996), sin em- El hecho de seleccionar nicamente este nivel
bargo, se ha demostrado que esta no mejora de de confianza se debe a que, en primer lugar, es el
manera significativa la potencia estadstica de nivel ms habitual a la hora de realizar investigacin
la prueba clsica de Jarque-Bera (Thadewald & aplicada y por otro lado, a que elevar el nivel de
Buning, 2007). confianza al 99% no se entiende como recomenda-
Finalmente, la prueba de Anderson-Darling ble debido al riesgo de incrementar notablemente
supone una modificacin del test de Cramer-von el error tipo II y aceptar todas las distribuciones
Mises, que se basa en la diferencia de cuadrados como normales.
entre las distribuciones pero, en su caso, otorga una Adems, se pretender comprobar la consistencia
mayor relevancia a los datos existentes en las colas en la deteccin de la prueba K-S-L y S-W en funcin
de la distribucin (Farrel & Rogers-Stewart, 2006). del programa estadstico empleado.
As, diferentes autores han sealado esta prueba Para ello, se han empleado las cinco pruebas
como la ms potente estadsticamente (Arshad, estadsticas previamente definidas en base a los cri-
Rasool & Ahmad, 2003; Shahabuddin, et al., 2009) terios ya citados. As, se considera relevante analizar
cuando se alude a pruebas basadas en las funciones la precisin de las pruebas de K-S, K-S-L y Shapiro-
de distribucin empricas (EDF; Dufour, Farhat, Wilk por formar parte del paquete estadstico con
Gardiol, & Khalaf, 1998), destacando respecto a mayor difusin dentro del mbito psicolgico y por
las dems, como ocurra con J-B, cuando se trabaja otro lado, las pruebas de Anderson-Darling y Jar-
con distribuciones simtricas y cuando la muestra que-Bera porque, siendo fciles de obtener y aplicar
tiende a aumentar (Yazici & Yolacan, 2007). estadsticamente, ambas han demostrado resultados

248 U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015


P ruebas de bondad de ajuste en distribuciones simtricas , qu estadstico utilizar ?

muy positivos cuando se trabaja con distribuciones Anlisis de datos


gaussianas (Thadewald & Buning, 2007; Yazici &
Yolacan, 2007) como es el caso del presente trabajo. Las diferentes pruebas estadsticas fueron ejecu-
tadas mediante el paquete estadstico SPSS, el
Material y mtodo cual ofrece la posibilidad de aplicar las pruebas de
Shapiro-Wilk, Kolmogorov-Smirnov y Kolmogorov-
Material Smirnov una vez aplicada la correccin de Lilliefors.
Por otro lado, las pruebas de Anderson-Darling y
Con el objetivo de analizar el comportamiento de las Jarque-Bera se utilizaron mediante la macro XLStat
diferentes pruebas de bondad de ajuste seleccionadas habilitada para el programa Microsoft Excel.
en el presente estudio en funcin de los diferentes De manera aadida, tambin mediante esta
tamaos muestrales, se dise un experimento de macro, se aplicaron las pruebas K-S-L y S-W con el
simulacin mediante el mtodo Monte Carlo. objetivo de replicar los resultados con los obtenidos
Se generaron un total de 1,880,000 datos, divi- mediante el SPSS, cuya sintaxis informtica es ciega
didos en 6000 muestras (1000 rplicas por cada ta- para el usuario y los programas fuente inaccesibles.
mao muestral), los cuales variaron desde 30 sujetos
con el objetivo de comprobar el funcionamiento Resultados
de las diferentes pruebas en grupos pequeos hasta
un tamao muestral de 1000 participantes, pasando Tras generar las 6000 muestras mediante la simula-
por 50, 100, 200 y 500. cin y aplicar las pruebas estadsticas previamente
El hecho de establecer en 1000 sujetos el tamao explicitadas, se calcul el porcentaje de veces que
muestral mximo se debe a que se ha demostrado cada prueba rechazaba la hiptesis nula en cada
que la distribucin de la probabilidad asociada al tamao muestral. Puesto que en el estudio se ha
estadstico de contraste es estable cuando se trabaja asumido un nivel de confianza de 95%, el poder de
con una muestra superior a este nmero de partici- deteccin de las pruebas ser ms adecuado cuando
pantes (Steinskog, et al., 2007). el error tipo I se aproxime al 5%.
Todas las muestras simuladas siguieron una En la Tabla 1 se muestran, en primer lugar y en
distribucin normal estandarizada (=0 y =1), letra cursiva, el porcentaje de rechazos de la hip-
variando exclusivamente en su tamao. tesis nula en las pruebas estadsticas de Shapiro-
Wilk, Anderson-Darling, Kolmogorov-Smirnov-
Mtodo Liliefors y Jarque-Bera mediante el software XLStat.
A continuacin, se pueden observar los resultados
La generacin de los datos se llev a cabo bajo obtenidos mediante el programa estadstico SPSS
las condiciones de normalidad y los estadsticos empleando las pruebas de Kolmogorov-Smirnov-
descriptivos anteriormente expuestos. Para ello, Liliefors, Kolmogorov-Smirnov y Shapiro-Wilk.
se emple el mtodo de simulacin Monte Carlo Adems, se han sealado en negrita aquellos
mediante el software Multivar (Aguinis, 1994). casos en los que, para cada tamao muestral ana-
Una vez simulados los datos, se aplicaron las lizado, se ha alcanzado el mejor poder de deteccin
cinco pruebas de normalidad anteriormente especi- de todas las pruebas utilizadas.
ficadas en cada uno de los seis tamaos muestrales Como previamente se ha expuesto, al analizar
generados con la finalidad de comprobar el por- los datos a un nivel de confianza determinado, se
centaje de veces que cada una de ellas rechazaba la ha calculado el intervalo confidencial en torno a
hiptesis nula de normalidad de las distribuciones. la proporcin obtenida y se ha comprobado de este
Al analizar los datos a un nivel de confianza deter- modo, si el porcentaje de rechazos del error tipo I
minado, se ha tenido en cuenta el error mximo por las diferentes pruebas de bondad de ajuste es
para el clculo del intervalo confidencial. el adecuado teniendo en cuenta el error mximo

U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015 249


I gnacio P edrosa C orreo , J oel J uarros -B asterretxea C orreo ,
A dn R obles -F ernndez C orreo , J ulia B asteiro C orreo , E duardo G arca -C ueto C orreo

de estimacin. En este caso, el Emax = 0.014 por siones que en algunos casos difieren respecto a los
lo que, debido a la mnima modificacin que real- trabajos hasta ahora publicados.
mente produce sobre las proporciones de rechazo En primer lugar se confirma una de las princi-
al nivel de las centsimas, se decidi prescindir del pales limitaciones de la prueba de K-S como es su
intervalo confidencial. tendencia excesivamente conservadora, al igual
Si se observan los resultados de la prueba de que se ha demostrado en trabajos precedentes,
K-S, se comprueba que el uso de este estadstico provocando que la hiptesis nula se acepte en la
conlleva la aceptacin de la hiptesis nula en todos totalidad de las ocasiones (Shahabuddin, et al.,
los tamaos muestrales analizados. Inicialmente se 2009; Steinskog, et al., 2007).
detect un funcionamiento anmalo de esta prueba, Esta cuestin, como se apuntaba en la parte
ya que la hiptesis de normalidad se aceptaba en introductoria, supone un problema relevante ya
todos los casos excepto en el tamao muestral de que dentro del mbito psicolgico, esta es una de
500 participantes, en donde se rechazaba en 1.9% las pruebas ms utilizadas tanto por ser una de las
de ocasiones. Debido a la importante diferencia ms clsicas como, fundamentalmente, por estar
respecto al resto de muestras analizadas y con el ob- implementada en el programa estadstico SPSS.
jetivo de comprobar si estos resultados se deban al Esta cuestin conlleva, como ya se ha comentado,
efecto del artefacto con que se simularon las mues- implicaciones directas en cuanto a las pruebas esta-
tras, se decidi generar nuevamente la totalidad de dsticas empleadas para el tratamiento de los datos
muestras con un software diferente empleando y las conclusiones de estas derivadas. Por ello, se
el propio XLStat para posteriormente probar de puede concluir que a pesar de su amplio uso y su
nuevo el ajuste de la distribucin a la normal. Los fcil accesibilidad, constituye la prueba estadstica
resultados, como se puede comprobar en la Tabla menos adecuada para comprobar la normalidad de
1, muestran que la prueba K-S no permite rechazar las distribuciones en todos los casos.
la hiptesis nula en ningn caso, desapareciendo La prueba de K-S-L surgi en su momento como
as la citada anomala. una mejora respecto al estadstico K-S (Steinskog, et
al., 2007). A pesar de seguir mostrando una tenden-
Discusin y conclusiones cia conservadora, como ocurre en el caso de K-S,
esta prueba s permite rechazar la hiptesis nula en
Analizando cada una de las pruebas estadsticas un porcentaje determinado de casos en funcin del
empleadas se pueden obtener diferentes conclu- tamao muestral. De manera general, se observa

Tabla 1
Porcentaje de rechazos de Ho en las pruebas estadsticas empleadas mediante los softwares XLStat y SPSS

XLStat SPSS
Kolmogorov- Kolmogorov- Shapiro- Kolmogorov-
Anderson-
n Shapiro-Wilk Smirnov- Li- Jarque-Bera Smirnov- Li- Wilk Smirnov
Darling
lliefors lliefors
30 5.3 5.1 4.5 3.0 4.5 5.8 0.0
50 5.3 5.3 4.8 3.6 4.4 5.2 0.0
100 4.1 4.6 4.3 3.5 4.3 4.4 0.0
200 5.5 5.3 5.2 4.7 4.9 5.5 0.0
500 4.3 4.0 4.0 3.6 3.9 4.0 0.0
1000 4.3 3.6 3.4 3.8 3.7 4.0 0.0
Nota: n = tamao muestral analizado
Fuente: elaboracin propia

250 U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015


P ruebas de bondad de ajuste en distribuciones simtricas , qu estadstico utilizar ?

como esta tendencia conservadora se incrementa sivamente grande, en donde contina la tendencia
a medida que aumenta el nmero de participantes, general de incrementar su carcter conservador.
agudizndose esta en el caso de emplear el programa Teniendo en cuenta ambos programas esta-
XLStat, excepto en muestras de tamao superior a dsticos, las pruebas que ofrece el software SPSS
500 participantes. presentan, prcticamente en su totalidad, una ten-
Si se alude a la prueba de S-W, los resultados dencia ms conservadora respecto a los resultados
corroboran el hecho de que su poder de deteccin ofrecidos por la aplicacin XLStat, tendiendo a
es superior respecto a las pruebas clsicas citadas en aceptar as la hiptesis nula en un mayor nmero
los prrafos previos, aproximndose en mayor me- de ocasiones.
dida al 5% de casos rechazados esperado de manera En primer lugar, teniendo en cuenta todos es-
general (Arcones & Wang, 2006). tos resultados de manera global, cabe destacar que
Sin embargo, esta prueba muestra su mejor po- todas las pruebas incrementan su tendencia con-
der de deteccin en muestras de 50 participantes servadora a medida que aumenta el tamao de la
y no en muestras pequeas como sealan algunos muestra, reducindose as el nmero de casos en
trabajos previos (Yazici & Yolacan, 2007) siendo de que se rechaza la hiptesis nula.
hecho, la ms liberal a la hora de analizar tamaos De manera especfica, se ha comprobado que
muestrales reducidos (menores de 50) que, aunque las pruebas de J-B y K-S no muestran una capaci-
no muestra los mejores resultados, s cuenta con un dad de deteccin adecuada independientemente
poder de deteccin razonable. Por otra parte, con- del tamao muestral. En el caso de esta ltima, los
trariamente a lo esperado, es la prueba que presenta resultados son especialmente preocupantes, puesto
un mejor funcionamiento cuando la muestra tiende que se trata de una de las pruebas ms empleadas a
a incrementar su tamao, destacando como el mejor nivel general y el hecho de aceptar prcticamente
estadstico cuando se analizan muestras a partir de en todos los casos, la hiptesis nula, acarrea direc-
500 participantes. tamente el uso inadecuado de pruebas estadsticas
En cuanto al estadstico de J-B, este solo muestra paramtricas teniendo que tener especial cuidado
un alto poder de deteccin en tamaos muestrales con las conclusiones derivadas del estudio.
en torno a 200 participantes, siendo excesivamente En funcin del tamao muestral analizado,
conservador en todos los casos restantes, incluso las pruebas de K-S-L y A-D son las que muestran
ms que la prueba K-S-L. Adems, los resultados una mejor capacidad de deteccin en muestras pe-
no se ajustan a lo esperado en cuanto a que resultan queas, aproximndose, en mayor medida al 5%
contrarios a lo expuestos en trabajos precedentes, esperado. En cuanto a tamaos muestrales medios
los cuales destacan como principal caractersti- (200 participantes) se considera la prueba de K-S-
cas su alta consistencia general, especialmente en L como las ms adecuada. Por ltimo, cuando se
muestras simtricas como es el presente caso (Tha- analizan muestras de gran tamao (superiores a
dewald & Buning, 2007; Yazici & Yolacan, 2007), 500 participantes), se considera la prueba de S-W
sin destacar como la mejor prueba en ningn caso. como la mejor para poner a prueba la hiptesis nula
En ltimo lugar, respecto a la prueba A-D, los y comprobar el ajuste de los datos a la distribucin
resultados muestran cmo esta es la mejor prueba normal.
cuando se analizan distribuciones simtricas y de Adems, globalmente, la prueba de S-W ha de-
tamao pequeo (n=30). Sumado a esto, los datos mostrado ser una de las ms consistentes a la varia-
concuerdan con trabajos que han sealado esta cin muestral, al contar con un poder de deteccin
prueba como la ms potente a nivel estadstico razonable y muy cercano al 5% esperado cuando se
(Arshad, et al., 2003; Shahabuddin, et al., 2009) ya modifica el tamao muestral.
que de manera general, tiende a presentar un mejor Por otro lado, respecto al software empleado, a
poder de deteccin en todos los casos, exceptuando pesar de ser un programa de uso sencillo y genera-
nicamente aquellos en los que la muestra es exce- lizado, el SPSS ha demostrado una tendencia es-

U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015 251


I gnacio P edrosa C orreo , J oel J uarros -B asterretxea C orreo ,
A dn R obles -F ernndez C orreo , J ulia B asteiro C orreo , E duardo G arca -C ueto C orreo

pecialmente conservadora, en este caso respecto al Arcones, M. A., & Wang, Y. (2006). Some new tests
XLStat, lo que conlleva, como ya se ha desarrollado, for normality based on Uprocesses. Statistics
una aceptacin de la hiptesis nula en un mayor n- and Probability Letters, 76, 6982. http://dx.doi.
mero de casos provocando en muchos casos un uso org/10.1016/j.spl.2005.07.003
indebido de pruebas estadsticas paramtricas. De Arshad, M., Rasool, M.T., & Ahmad, M.I. (2003). An-
hecho, si se analizan todos los tamaos muestrales derson Darling and modified Anderson Darling
dentro del programa SPSS, este solo presenta en tests for Generalized Pareto Distribution. Pakistan
dos ocasiones las pruebas estadsticas con un mejor Journal of Applied Sciences, 3(2), 85-88.
poder de deteccin, en los casos de las pruebas S-W Chakravarti, I.M., Laha, R.G., & Roy, J. (1967). Kol-
y K-S-L cuando se cuenta con 50 y 200 participan- mogorov-Smirnov (K-S) test. En Handbook of
tes, respectivamente. Methods of Applied Statistics, Volume I (pp. 392-
Esta cuestin pone de relevancia el hecho de 394). New York: Wiley.
que los resultados deberan ser completamente in- Choi, P. T. (2005). Statistics for the reader: What to ask
dependientes del programa estadstico empleado, before believing the results. Canadian Journal of
puesto que se parte de un estadstico claramente Anesthesia, 52, R1R5. http://dx.doi.org/10.1007/
definido y se emplean sobre l los mismos datos en BF03023077
ambos casos. Por tanto, esta discrepancia en los Dufour, J.M., Farhat, A., Gardiol, L., & Khalaf, L.
resultados obtenidos hace pensar que la aplicacin (1998). Simulation-based finite sample normality
del estadstico difiere en funcin del software, sien- tests in linear regressions. The Econometrics Jour-
do imposible comprobar su clculo por la falta de
nal, 1(1), 154-173.
transparencia citada previamente en cuanto a la
Erceg-Hurn, D. M., & Mirosevich, V. M. (2008). Mod-
sintaxis empleada.
ern robust statistical methods: an easy way to
Como conclusin, se considera esencial la elec-
maximize the accuracy and power of your research.
cin tanto del programa estadstico que se desea
The American psychologist, 63(7), 591-601. http://
utilizar para el anlisis estadstico como principal-
dx.doi.org/10.1037/0003-066X.63.7.591
mente, de la prueba estadstica que se debe utilizar
Farrell, P.J., & Rogers-Stewart, K. (2006). Comprehen-
en funcin del tamao muestral con que se lleve
sive study of tests for normality and symmetry: ex-
a cabo la investigacin. En el caso especfico de
tending the Spiegelhalter test. Journal of Statistical
la prueba de bondad de ajuste, se entiende como
Computation and Simulation, 76(9), 803816. http://
un problema el hecho de que uno de los paquetes
estadsticos ms generalizados aporte una prueba dx.doi.org/10.1080/10629360500109023
estadstica que no presenta una consistencia mni- Finch, H. (2005). Comparison of the performance of
mamente razonable. nonparametric and parametric MANOVA test
De cara a futuros trabajos en esta lnea de in- statistics when assumptions are violated. Method-
vestigacin, se entiende como importante el hecho ology, 1(1), 27-38. http://dx.doi.org/10.1027/1614-
de calcular, adems de la capacidad de deteccin, 1881.1.1.27
la potencia estadstica de cada una de las pruebas Frey, J. (2009). Unbiased goodness-of-fit tests. Journal of
de bondad de ajuste, as como su comportamiento Statistical Planning and Inference, 139, 3690-3697.
en funcin del tipo de distribucin. http://dx.doi.org/10.1016/j.jspi.2009.04.017
Garca-Cueto, E., Gallo P., & Miranda, R. (1998). Bon-
Referencias dad de ajuste en el anlisis factorial confirmatorio.
Psicothema, 10, 717-724.
Aguinis, H. (1994). A quickbasic program for generat- Henderson, A. R. (2006). Testing experimental data
ing correlated multivariate random normal scores. for univariate normality, Clinica Chimica Acta,
Educational and Psychological Measurement, 54(3), 366(1,2), 112129. http://dx.doi.org/10.1016/j.
687-689. cca.2005.11.007

252 U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015


P ruebas de bondad de ajuste en distribuciones simtricas , qu estadstico utilizar ?

Jarque, C.M., & Bera, A. K. (1987). A test for normality ples). Biometrika 52(3,4), 591611. http://dx.doi.
of observations and regression residuals. Interna- org/10.2307/2333709
tional Statistical Review, 55, 163172. http://dx.doi. Shin, H., Jung, Y., Jeong, C., & Heo, J.H. (2012). Assess-
org/10.2307/1403192 ment of modified AndersonDarling test statistics
Lemeshko, B., & Lemeshko, S. (2008). Power and ro- for the generalized extreme value and generalized
bustness of criteria used to verify the homogeneity logistic distributions. Stochastic Environmental
of means. Measurement Techniques, 51(9), 950-959. Research and Risk Assessment, 26, 105114. http://
http://dx.doi.org/10.1007/s11018-008-9157-3 dx.doi.org/10.1007/s00477-011-0463-y
Lilliefors, H. (1967). On the Kolmogorov-Smirnov test for Steinskog, D.J., Tjstheim, D.B., & Kvamst, N.G.
normality with mean and variance unknown. Jour- (2007). A Cautionary Note on the Use of the
nal of the American Statistical Association, 62(318), KolmogorovSmirnov Test for Normality. Monthly
399-402. http://dx.doi.org/10.2307/2283970 Weather Review, 135(3), 1151-1157. http://dx.doi.
Meintanis, S.G., & Hlvka, Z. (2010). Goodness-of- org/10.1175/MWR3326.1
Fit Tests for Bivariate and Multivariate Skew- Strasak, A. M., Zaman, Q., Marinell, G., Pfeiffer, K. P.,
Normal Distributions. Scandinavian Journal of & Ulmer, H. (2007). The use of statistics in medi-
Statistics, 37, 701714. http://dx.doi.org/10.1111 cal research: A comparison of The New England
/j.1467-9469.2009.00687
Journal of Medicine and Nature Medicine. Ameri-
Micceri, T. (1989). The unicorn, the normal curve, and
can Statistician, 61, 4755.
other improbable creatures. Psychological Bulle-
Surez-lvarez, J., Campillo-lvarez, A., Fonseca-
tin, 105, 156-166. http://dx.doi.org/10.1037//0033-
Pedrero, E., Garca-Cueto, E., & Muiz, J. (2013).
2909.105.1.156
Professional training in the workplace: The role
Oztuna, D., Elhan, A.H., & Tuccar, E. (2006). Inves-
of achievement motivation and locus of control.
tigation of four different normality tests in terms
Spanish Journal of Psychology. En imprenta..
of type I. Error rate and power under different
Tavares Tadaiesky, L., & Zagury Tourinho, E. (2012).
distributions. Turkish Journal of Medical Sciences,
Effects of support consequences and cultural con-
36(3), 171-176.
sequences on the selection of interlocking behav-
Pedrosa, I., Garca-Cueto, E., Surez-lvarez, J., & Prez
ioral contingencies. Revista Latinoamericana de
Snchez, B. (2012). Adaptacin espaola de una
Psicologa, 44(1), 121-131.
Escala de Apoyo Social percibido para deportistas.
Thadewald, T., & Buning, H. (2007). Jarque-Be-
Psicothema, 24(3), 470-476.
Romo, X.,Delgado, R., &Costa, A. (2010). An empiri- ra Test and its Competitors for Testing Nor-
cal power comparison of univariate goodness-of-fit mality - A Power Comparison. Journal of Ap-
tests for normality. Journal of Statistical Computa- plied Statistics, 34(1), 87-105. http://dx.doi.
tion and Simulation, 80(5), 545-591. http://dx.doi. org/10.1080/02664760600994539
org/10.1080/00949650902740824 Urza, C. (1996). On the correct use of omnibus tests for
Schucany, W.R., & Ng, H.K.T. (2006). Preliminary normality. Economics Letters, 53, 247251. http://
goodness-of-fit tests for normality do not validate dx.doi.org/10.1016/S0165-1765(96)00923-8
the one-sample Student t. Communications in Sta- Yazici, B., & Yolacan, S. (2007). A comparison of various
tistics, Theory and Methods, 35, 2275-2286. tests of normality. Journal of Statistical Computa-
Shahabuddin, F.A.A., Ibrahim, K., & Jemain, A.A. tion and Simulation, 77(2), 175183. http://dx.doi.
(2009). On the Comparison of Several Goodness org/10.1080/10629360600678310
of Fit tests under Simple Random Sampling and Zimmerman, D. (1998). Invalidation of parametric
Ranked Set Sampling. World Academy of Science, and nonparametric statistical tests by concur-
Engineering and Technology, 54, 77-80. rent violation of two assumptions. Journal of Ex-
Shapiro, S.S., & Wilk, M.B. (1965). An analysis of perimental Education, 67(1), 55-68. http://dx.doi.
variance test for normality (complete sam- org/10.1080/00220979809598344

U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015 253


I gnacio P edrosa C orreo , J oel J uarros -B asterretxea C orreo ,
A dn R obles -F ernndez C orreo , J ulia B asteiro C orreo , E duardo G arca -C ueto C orreo

Zghoul, A. A. (2010). A goodness of fit test for normality


based on the empirical moment generating func-
tion. Communications in Statistics-Simulation and
Computation, 39(6), 1292-1304.

254 U n i v e r s i ta s P s yc h o l o g i c a V. 14 No. 1 e n e ro -m a r z o 2015

También podría gustarte