Está en la página 1de 8

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/366922523

Las pruebas de normalidad

Method · January 2023


DOI: 10.13140/RG.2.2.23329.48483

CITATIONS READS
0 770

1 author:

Ciro Alberto Sánchez


Instituto Nacional de Metrologia (INM)
145 PUBLICATIONS   10 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Primary temperature scale at INM. View project

The relationship between self-regulated learning, learning development, academic achievement and life-long learning View project

All content following this page was uploaded by Ciro Alberto Sánchez on 07 January 2023.

The user has requested enhancement of the downloaded file.


Las pruebas de normalidad

Resumen

Se presentan distintas pruebas de normalidad y su aplicación en análisis estadísticos.

Introducción
Las pruebas de normalidad se utilizan para determinar si una distribución de datos
sigue una distribución normal o no. Esto es importante porque muchos
procedimientos estadísticos asumen que los datos siguen una distribución normal,
y utilizar estos procedimientos con datos que no siguen una distribución normal
puede llevar a resultados sesgados o poco precisos. Se presentan distintas pruebas
de normalidad.

Marco teórico

La distribución normal es una de las distribuciones más utilizadas en la investigación


científica y en la toma de decisiones en general, por lo que es importante determinar
si los datos que se tiene disponibles se ajustan a esta distribución para poder utilizar
los procedimientos estadísticos adecuados.

Esta foto de Autor desconocido está bajo licencia CC BY-SA-NC


Figura 1. Distribución normal
La distribución normal es una distribución de probabilidad continuamente curvada
y simétrica que se describe mediante una curva en forma de campana. Esta
distribución es muy importante en la investigación científica y en la toma de
decisiones en general debido a sus propiedades matemáticas y a que muchos
fenómenos naturales siguen aproximadamente esta distribución.

La distribución normal se caracteriza por dos parámetros: la media y la desviación


estándar. La media representa el valor central de la distribución, mientras que la
desviación estándar representa la variabilidad de los datos alrededor de la media 1.

Para que una distribución sea considerada normal, se deben cumplir ciertas
hipótesis:

La distribución debe ser simétrica y tener una curva en forma de campana.

La media, mediana y moda deben coincidir.

Los datos deben seguir una ley de probabilidad continua.

La varianza debe ser finita.

Sin embargo, es importante tener en cuenta que, aunque una distribución cumpla
con estas hipótesis, no necesariamente es considerada normal. Para determinar si
una distribución es normal, es necesario realizar una prueba de normalidad.

Las pruebas de normalidad se utilizan para determinar si es apropiado utilizar


procedimientos estadísticos que asumen que los datos siguen una distribución
normal, y para determinar si los datos son adecuados para ser analizados con estos
procedimientos.

Hay varias pruebas de normalidad disponibles, algunas de las cuales son (Keya Rani
Das):

Prueba de Kolmogorov-Smirnov: Esta prueba compara la distribución


observada de los datos con la distribución teórica de una distribución normal.
Se calcula la mayor diferencia entre la función de distribución empírica y la
función de distribución teórica de una distribución normal. Si la mayor

1
Distribución normal. https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal
diferencia es pequeña, se puede concluir que la distribución observada es
similar a una distribución normal.

Prueba de Anderson-Darling: Esta prueba mide la diferencia entre la


distribución observada y la distribución normal teórica. Se calcula un
estadístico de prueba que se compara con un valor crítico en una tabla de
distribución normal. Si el estadístico de prueba es mayor que el valor crítico,
se rechaza la hipótesis de normalidad.

Prueba de Shapiro-Wilk: Esta prueba utiliza un test de bondad de ajuste para


determinar si los datos siguen una distribución normal. Se calcula un
estadístico de prueba que se compara con un valor crítico en una tabla de
distribución normal. Si el estadístico de prueba es mayor que el valor crítico,
se rechaza la hipótesis de normalidad.

Gráfico de caja: Este gráfico permite visualizar la distribución de los datos y


determinar si siguen una distribución normal. El gráfico consiste en un
rectángulo dividido en tres partes: la caja, los bigotes y los puntos extremos.
La caja representa el rango intercuartílico (es decir, el intervalo que va desde
el primer cuartil hasta el tercero), y los bigotes representan el resto de los
datos. Si los datos siguen una distribución normal, el gráfico de caja tendrá
una forma simétrica y las cajas y bigotes de diferentes grupos de datos
tendrán aproximadamente la misma forma.

Métodos

A continuación, una descripción detallada de las condiciones para aplicar cada una
de las pruebas mencionadas, junto con algunos ejemplos (Sheskin):

Prueba de Kolmogorov-Smirnov
• Esta prueba se puede aplicar a cualquier distribución de datos, tanto
continuos como discretos.
• Los datos deben estar ordenados de menor a mayor.
• Los datos deben ser independientes y aleatorios.

Por ejemplo, aplicar la prueba de Kolmogorov-Smirnov a un conjunto de datos


que representan las alturas de una muestra de individuos, para determinar si la
distribución de alturas sigue una distribución normal.
Prueba de Anderson-Darling
• Esta prueba se puede aplicar a cualquier distribución de datos, tanto
continuos como discretos.
• Los datos deben estar ordenados de menor a mayor.
• Los datos deben ser independientes y aleatorios.

Por ejemplo, aplicar la prueba de Anderson-Darling a un conjunto de datos que


representan los resultados de un examen de matemáticas de un grupo de
estudiantes, para determinar si la distribución de resultados sigue una
distribución normal.

Prueba de Shapiro-Wilk
• Esta prueba se puede aplicar a distribuciones de datos continuos.
• Los datos deben ser independientes y aleatorios.
• La prueba es más precisa para muestras grandes (n>50).

Por ejemplo, aplicar la prueba de Shapiro-Wilk a un conjunto de datos que


representan los salarios de una empresa, para determinar si la distribución de
salarios sigue una distribución normal.

Gráfico de caja
• Este gráfico se puede aplicar a cualquier distribución de datos, tanto
continuos como discretos.
• Los datos deben ser independientes y aleatorios.

Por ejemplo, crear un gráfico de caja a partir de un conjunto de datos que


representan las edades de una muestra de individuos, para determinar si la
distribución de edades sigue una distribución normal (Moore).
Discusión

a. Kolmogorov-Smirnov b. Anderson-Darling

c. Shapiro-Wilk d. Gráfico de caja

Figura 2. Ejemplos de las pruebas de normalidad

a. Kolmogorov-Smirnov
(https://www.researchgate.net/profile/Yanira-Cifuentes-
Sarmiento/publication/299533972/figure/fig3/AS:345810312155139@1459459011898/Figura-8-Prueba-de-
Kolmogorov-Smirnov-para-la-Distribucion-de-arboles-caidos-en-las-doce_W640.jpg),

b. Anderson-Darling
(http://2.bp.blogspot.com/-8pegV6btEPI/UG2RTixwsTI/AAAAAAAAAMo/BYLmBdtEhgI/s320/Anderson-
Darling.png),

c. Shapiro-Wilk
(https://community.rstudio.com/uploads/default/optimized/3X/7/8/7890c289a7772e0afe05932c9f6cc9ee62cf
bc00_2_690x443.png) y

d. Gráfico de caja
(https://doc.arcgis.com/es/insights/latest/create/GUID-5C7AAF44-C609-472D-9193-0E9B23C6B68F-web.png)
A continuación, una descripción de cómo interpretar los resultados obtenidos al
aplicar cada una de las pruebas mencionadas, así como la relevancia de estos
resultados (Hinkle):

Prueba de Kolmogorov-Smirnov
• Si el valor p obtenido es mayor que el nivel de significación establecido
(por ejemplo, 0.05), se acepta la hipótesis de que la distribución de los datos
es similar a una distribución normal.
• Si el valor p obtenido es menor que el nivel de significación establecido,
se rechaza la hipótesis de normalidad.

Prueba de Anderson-Darling
• Si el valor p obtenido es mayor que el nivel de significación establecido
(por ejemplo, 0.05), se acepta la hipótesis de que la distribución de los datos
es similar a una distribución normal.
• Si el valor p obtenido es menor que el nivel de significación establecido,
se rechaza la hipótesis de normalidad.

Prueba de Shapiro-Wilk
• Si el valor p obtenido es mayor que el nivel de significación establecido
(por ejemplo, 0.05), se acepta la hipótesis de que la distribución de los datos
es similar a una distribución normal.
• Si el valor p obtenido es menor que el nivel de significación establecido,
se rechaza la hipótesis de normalidad.

Gráfico de caja
• Si el gráfico de caja tiene una forma simétrica y las cajas y bigotes de
diferentes grupos de datos tienen aproximadamente la misma forma, se
puede concluir que los datos siguen una distribución normal.
• Si el gráfico de caja no tiene una forma simétrica o las cajas y bigotes
de diferentes grupos de datos tienen formas muy diferentes, se puede
concluir que los datos no siguen una distribución normal.

Conclusiones

La relevancia de los resultados de las pruebas de normalidad dependerá del contexto


en el que se esté trabajando. Si se espera que los datos sigan una distribución normal
(por ejemplo, para aplicar una prueba paramétrica), un resultado que rechace la
hipótesis de normalidad podría indicar la necesidad de utilizar una prueba no
paramétrica en su lugar.

Las pruebas de normalidad son herramientas útiles para evaluar si un conjunto de


datos sigue una distribución normal o no. Existen diferentes pruebas disponibles,
cada una con sus propias características y ventajas, como la prueba de Kolmogorov-
Smirnov, la prueba de Anderson-Darling, la prueba de Shapiro-Wilk y el gráfico de
caja. Para poder utilizar cualquiera de estas pruebas, es necesario cumplir con ciertas
condiciones, como la independencia y la falta de correlación de los datos en algunos
casos. Los resultados deben interpretarse cuidadosamente y en conjunción con otros
indicadores de normalidad. Aunque un conjunto de datos pueda ajustarse a una
distribución normal en una prueba, eso no necesariamente significa que los datos
sean normales en un sentido más amplio. Por lo tanto, es importante tener en cuenta
el contexto y las características específicas del conjunto de datos al interpretar los
resultados de una prueba de normalidad.

Referencias

Hinkle, Dennis E. Applied statistics for the behavioral sciences. 2nd. Boston: Houghton
Mifflin, 1988.

Keya Rani Das, A. H. M. Rahmatullah Imo. «A Brief Review of Tests for Normality.»
American Journal of Theoretical and Applied Statistics 5.1 (2016): 5-12.

Moore, D. S., & McCabe, G. P. Introduction to the Practice of Statistics. 5th. New York:
W.H. Freeman & Company, 2005.

Sheskin, David J. Handbook of Parametric and Nonparametric Statistical Procedures. 5th.


New York: Chapman and Hall/CRC, 2011.

View publication stats

También podría gustarte