Está en la página 1de 17

Distribución normal

En estadística y probabilidad se llama distribución normal, distribución de


Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de
las distribuciones de probabilidad de variable continua que con más
frecuencia aparece en estadística y en la teoría de probabilidades.1

La gráfica de su función de densidad tiene una forma acampanada y es


simétrica respecto de un determinado parámetro estadístico. Esta curva se
conoce como campana de Gauss y es el gráfico de una función gaussiana.2

La importancia de esta distribución radica en que


permite modelar numerosos fenómenos naturales, sociales y psicológicos. 3
Mientras que los mecanismos que subyacen a gran parte de este tipo de
fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede
justificarse asumiendo que cada observación se obtiene como la suma de
unas pocas causas independientes.

De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin


explicación alguna. Para la explicación causal es preciso el diseño
experimental, de ahí que al uso de la estadística en psicología y sociología
sea conocido como método correlacional.

La distribución normal también es importante por su relación con la


estimación por mínimos cuadrados, uno de los métodos de estimación más
simples y antiguos.

Algunos ejemplos de variables asociadas a fenómenos naturales que siguen


el modelo de la normal son:

 caracteres morfológicos de individuos como la estatura;

 caracteres fisiológicos como el efecto de un fármaco;

 caracteres sociológicos como el consumo de cierto producto por un


mismo grupo de individuos;

 caracteres psicológicos como el cociente intelectual;

 nivel de ruido en telecomunicaciones;


 errores cometidos al medir ciertas magnitudes;

 etc.

La distribución normal también aparece en muchas áreas de la propia


estadística. Por ejemplo, la distribución muestral de las medias muestrales es
aproximadamente normal, cuando la distribución de la población de la cual
se extrae la muestra no es normal.4 Además, la distribución normal maximiza
la entropía entre todas las distribuciones con media y varianzaconocidas, lo
cual la convierte en la elección natural de la distribución subyacente a una
lista de datos resumidos en términos de media muestral y varianza. La
distribución normal es la más extendida en estadística y muchos tests
estadísticos están basados en una "normalidad" más o menos justificada de
la variable aleatoria bajo estudio.

En probabilidad, la distribución normal aparece como el límite de varias


distribuciones de probabilidad, continuas y discretas.

La distribución normal fue presentada por primera vez por Abraham de


Moivre en un artículo del año 1733,5 que fue reimpreso en la segunda edición
de su The Doctrine of Chances, de 1738, en el contexto de cierta
aproximación de la distribución binomial para grandes valores de n. Su
resultado fue ampliado por Laplace en su libro Teoría analítica de las
probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-
Laplace.

Laplace usó la distribución normal en el análisis de errores de experimentos.


El importante método de mínimos cuadrados fue introducido por Legendre en
1805. Gauss, que afirmaba haber usado el método desde 1794, lo justificó
rigurosamente en 1809 asumiendo una distribución normal de los errores. El
nombre de Gauss se ha asociado a esta distribución porque la usó con
profusión cuando analizaba datos astronómicos6 y algunos autores le
atribuyen un descubrimiento independiente del de De Moivre. 7Esta atribución
del nombre de la distribución a una persona distinta de su primer descubridor
es un claro ejemplo de la ley de Stigler.

El nombre de "campana" viene de Esprit Jouffret que usó el término "bell


surface" (superficie campana) por primera vez en 1872 para una distribución
normal bivariante de componentes independientes. El nombre de
"distribución normal" fue otorgado independientemente por Charles S.
Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[cita requerida] A pesar de esta
terminología, otras distribuciones de probabilidad podrían ser más
apropiadas en determinados contextos; véase la discusión sobre incidencia,
más abajo.

La línea verde corresponde a la distribución normal estándar


Función de densidad de probabilidad

Función de distribución de probabilidad


La función de densidad de una distribución normal tiene forma de campana.
Es simétrica en torno a la media. El área total bajo la curva es 1 (como
corresponde a una función de densidad).

La densidad está concentrada en torno a la media y se hace muy pequeña


conforme nos alejamos del centro por la derecha o la izquierda (las 'colas' de
la distribución). Cuanto más alejado es el valor del centro de la función de
densidad menos probable es observar ese valor.

Dos parámetros determinan una distribución normal: la media y la desviación


estándar. Por tanto, puede ser adecuado hablar de las distribuciones
normales, en plural, y decir que son una familia biparamétrica de
distribuciones. Luego veremos que la más simple de ellas juega un papel
destacado.

Si una variable aleatoria sigue una ditribución normal podemos escribirlo con
esta notación:

La media de la distribución determina el centro de la gráfica de la función de


densidad.

Si cambiamos la media la forma de la gráfica no cambia, simplemente se


traslada a derecha o izquierda.
La función de densidad tiene dos puntos de inflexión que están localizados a
una distancia de la media de una desviación típica (más y menos).

Aumentando la desviación estándar (si no modificamos la media, el centro de


la gráfica no cambia) la forma de la curva cambia. La curva se hace más
ancha y menos alta, es decir, la dispersión aumenta. Cuanto mayor es la
desviación estándar mayor es la dispersión de la variable.
Si la desviación estándar es pequeña la curva es más alta y estrecha. La
dispersión de la varible es menor.

El ejemplo más sencillo es la llamada distribución normal estándar. Es el


caso especial cuando la media es igual a 0 y la varianza es 1.
Juega un papel importante en los cálculos a través de un proceso que
llamanos estandarización o tipificación de la variable.

La función de distribución (a veces se añade la palabra 'acumulada') tiene


forma de S. A cada valor de x le corresponde la probabilidad de que la
variable aleatoria X tome valores menores o iguales a x. A partir de la función
de densidad (en nuestro caso, la 'campana'), para calcular los valores de la
función de distribución se calcula el área bajo la curva desde menos infinito
hasta x. Se trata de una integral que, en el caso de la distribución normal,
sólo puede hacerse numéricamente.

El caso particularmente importante es el de la distribución normal estándar.


Usamos tablas y ordenadores para hacer estos cálculos. Una notación
habitual para este caso de la función de distribución es:
La media está representada por un triángulo y se puede interpretar como un
punto de equilibrio. Al arrastrarlo se modifica también la media.

Arrastrando el punto sobre la curva (que es uno de los dos puntos de


inflexión de la curva) se modifica la desviación típica.

Podemos ver la función de distribución acumulada y cómo cambia al


modificar la media (simple traslación) y la desviación típica (reflejando la
mayor o menor dispersión de la variable).

Los puntos rojos controlan la escala vertical y horizontal de la gráfica.

Propiedades

Algunas propiedades de la distribución normal son las siguientes:

1. Tiene una única moda, que coincide con su media y su mediana


2. La curva normal es asintótica al eje de abscisas. Por ello, cualquier
valor entre −∞ y +∞ es teóricamente posible. El área total bajo la
curva es, por tanto, igual a 1.
3. Es simétrica con respecto a su media µ. Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato
mayor que la media, y un 50% de observar un dato menor.
4. La distancia entre la línea trazada en la media y el punto de inflexión
de la curva es igual a una desviación típica (𝜎). Cuanto mayor sea 𝜎 ,
más aplanada será la curva de la densidad.

5. El área bajo la curva comprendido entre los valores situados


aproximadamente a dos desviaciones estándar de la media es igual a
0.95.
En concreto, existe un 95% de posibilidades de observar un valor
comprendido en el intervalo (𝜇 − 1.96𝜎; 𝜇 + 1.96𝜎).
6. La forma de la campana de Gauss depende de los
parámetros µ y 𝜎 . La media indica la posición de la campana, de
modo que para diferentes valores de µ la gráfica es desplazada a lo
largo del eje horizontal. Por otra parte, la desviación estándar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el
valor de 𝜎 , más se dispersarán los datos en torno a la media y la
curva será más plana. Un valor pequeño de este parámetro indica,
por tanto, una gran probabilidad de obtener datos cercanos al valor
medio de la distribución.

Distribución de probabilidad alrededor de la media en una distribución N(μ, σ2).


Como se deduce de este último apartado, no existe una única distribución
normal, sino una familia de distribuciones con una forma común,
diferenciadas por los valores de su media y su varianza. De entre todas
ellas, la más utilizada es la distribución normal estándar, que corresponde a
una distribución de media 0 y varianza 1. Así, la expresión que define su
densidad se puede obtener de la Ecuación 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga una


distribución N(𝜇, 𝜎) se puede obtener otra característica Z con una
distribución normal estándar, sin más que efectuar la transformación:

Ecuacion 2:

Esta propiedad resulta especialmente interesante en la práctica, ya que para


una distribución N(0,1) existen tablas publicadas a partir de las que se puede
obtener de modo sencillo la probabilidad de observar un dato menor o igual a
un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca
del comportamiento de variables de las que se sabe o se asume que siguen
una distribución aproximadamente normal.

Contrastes de normalidad

La verificación de la hipótesis de normalidad resulta esencial para poder


aplicar muchos de los procedimientos estadísticos que habitualmente se
manejan. Tal y como ya se apuntaba antes, la simple exploración visual de
los datos observados mediante, por ejemplo, un histograma o un diagrama
de cajas, podrá ayudarnos a decidir si es razonable o no el considerar que
proceden de una característica de distribución normal. Como ejemplo,
consideremos los histogramas que se muestran en la Figura 4a,
correspondientes a una muestra de 100 mujeres de las que se determinó su
peso y edad. Para el caso del peso, la distribución se asemeja bastante a la
de una normal. P ara la edad, sin embargo, es claramente asimétrica y
diferente de la gaussiana.

Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una
opinión meramente subjetiva acerca de la posible distribución de nuestros
datos, y que es necesario disponer de otros métodos más rigurosos para
contrastar este tipo de hipótesis. En primer lugar, deberemos plantearnos el
saber si los datos se distribuyen de una forma simétrica con respecto a su
media o presentan algún grado de asimetría, pues es ésta una de las
características fundamentales de la distribución de Gauss. Aunque la
simetría de la distribución pueda valorarse, de modo simple, atendiendo a
algunas medidas descriptivas de la variable en cuestión 8 (comparando, por
ejemplo, los valores de media, mediana y moda), resultará útil disponer de
algún índice que nos permita cuantificar cualquier desviación. Si se dispone
de una muestra de tamaño n, (x1…x2) de una característica X, se define
el coeficiente de asimetría de Fisher.

a partir del cual podemos considerar que una distribución es simétrica (y=0),
asimétrica hacia la izquierda (y<0) o hacia la derecha (y>0). En segundo
lugar, podemos preguntarnos si la curva es más o menos "aplastada", en
relación con el grado de apuntamiento de una distribución
gaussiana. El coeficiente de aplastamiento o curtosis de Fisher
Los gráficos de probabilidad normal constituyen otra importante herramienta
gráfica para comprobar si un conjunto de datos puede considerarse o no
procedente de una distribución normal. La idea básica consiste en enfrentar,
en un mismo gráfico, los datos que han sido observados frente a los datos
teóricos que se obtendrían de una distribución gaussiana. Si la distribución
de la variable coincide con la normal, los puntos se concentrarán en torno a
una línea recta, aunque conviene tener en cuenta que siempre tenderá a
observarse mayor variabilidad en los extremos. En los gráficos P-P se
confrontan las proporciones acumuladas de una variable con las de una
distribución normal. Los gráficos Q-Q se obtienen de modo análogo, esta
vez representando los cuantiles respecto a los cuantiles de la distribución
normal. Además de permitir valorar la desviación de la normalidad, los
gráficos de probabilidad permiten conocer la causa de esa desviación. Una
curva en forma de "U" o con alguna curvatura, como en el caso de la edad en
la Figura 4b, significa que la distribución es asimétrica con respecto a la
gaussiana, mientras que un gráfico en forma de "S" significará que la
distribución tiene colas mayores o menores que la normal, esto es, que
existen pocas o demasiadas observaciones en las colas de la distribución.

Parece lógico que cada uno de estos métodos se complemente con


procedimientos de análisis que cuantifiquen de un modo más exacto las
desviaciones de la distribución normal. Existen distintos tests estadísticos
que podemos utilizar para este propósito. El test de Kolmogorov-Smirnoves
el más extendido en la práctica. Se basa en la idea de comparar la función
de distribución acumulada de los datos observados con la de una distribución
normal, midiendo la máxima distancia entre ambas curvas. Como en
cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del
estadístico supera un cierto valor crítico que se obtiene de una tabla de
probabilidad. Dado que en la mayoría de los paquetes estadísticos, como el
SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor
del test como el p-valor correspondiente, no nos detendremos más en
explicar su cálculo. Existen modificaciones de este test, como el de
Anderson-Darling que también pueden ser utilizados. Otro procedimiento
muy extendido es también el test chi-cuadrado de bondad de ajuste. No
obstante, este tipo de procedimientos deben ser utilizados con
precaución. Cuando se dispone de un número suficiente de datos, cualquier
test será capaz de detectar diferencias pequeñas aún cuando estas no sean
relevantes para la mayor parte de los propósitos. El test de Kolmogorov-
Smirnov, en este sentido, otorga un peso menor a las observaciones
extremas y por la tanto es menos sensible a las desviaciones que
normalmente se producen en estos tramos.

Para acabar, observemos el resultado de aplicar el test de Kolmogorov-


Smirnov a los datos de la Figura 4. Para el caso del peso, el valor del
estadístico proporcionado por dicho test fue de 0.705, con un p-valor
correspondiente de p=0.702 que, al no ser significativo, indica que podemos
asumir una distribución normal. Por otra parte, para el caso de la edad, en el
que la distribución muestral era mucho más asimétrica, el mismo test
proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en
este caso la hipótesis de una distribución gaussiana.

Ejercicios:

a) La media de los pesos de 500 estudiantes de un colegio es 70 kg y la


desviación típica 3

kg. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos


estudiantes pesan:

1 -Entre 60 kg y 75 kg 2- Más de 90 kg 3- Menos de 64 kg 4- 64 kg 5- 64 kg o


menos
b) Se supone que los resultados de un examen siguen una distribución
normal con media 78 y desviación típica 36. Se pide:

1-¿Cuál es la probabilidad de que una persona que se presenta el examen


obtenga una calificación superior a 72? 2-Calcular la proporción de
estudiantes que tienen puntuaciones que exceden por lo menos en cinco
puntos de la puntuación que marca la frontera entre el Apto y el No-Apto (son
declarados No-Aptos el 25% de los estudiantes que obtuvieron las
puntuaciones más bajas) 3-Si se sabe que la calificación de un estudiante es
mayor que 72 ¿cuál es la probabilidad de que su calificación sea, de hecho,
superior a 84?
1¿Cuál es la probabilidad de que una persona que se presenta el examen
obtenga una calificación superior a 72?

2Calcular la proporción de estudiantes que tienen puntuaciones que exceden


por lo menos en cinco puntos de la puntuación que marca la frontera entre el
Apto y el No-Apto (son declarados No-Aptos el 25% de los estudiantes que
obtuvieron las puntuaciones más bajas)

3Si se sabe que la calificación de un estudiante es mayor que 72 ¿cuál es la


probabilidad de que su calificación sea, de hecho, superior a 84?
c) Tras un test de cultura general se observa que las puntuaciones obtenidas
siguen una distribución una distribución N(65, 18). Se desea clasificar a los
examinados en tres grupos (de baja cultura general, de cultura general
aceptable, de excelente cultura general) de modo que hay en el primero un
20% la población, un 65% el segundo y un 15% en el tercero. ¿Cuáles han
de ser las puntuaciones que marcan el paso de un grupo al otro?
Baja cultura hasta 49 puntos.

Cultura aceptable entre 50 y 83.

Excelente cultura a partir de 84 puntos.

También podría gustarte