Está en la página 1de 28

DISTRIBUCIÓN NORMAL.

Laura Jaquelín González Mota.

6BVM. CBTIS 272.

Probabilidad y Estadística.
DISTRIBUCIÓN NORMAL.
La distribución normal (en ocasiones llamada distribución gaussiana) es la distribución
continua que se utiliza más comúnmente en estadística, es un modelo que aproxima el valor
de una variable aleatoria a una situación ideal, dependiendo de la media y la desviación típica.

La distribución normal es de vital importancia en estadística por tres razones principales:

• M uchas variables continuas comunes en el mundo de los negocios tienen


M

distribuciones que se asemejan estrechamente a la distribución normal.


• La distribución normal sirve para acercarse a diversas distribuciones de probabilidad
discreta, como la distribución binomial y la distribución de Poisson.
• La distribución normal proporciona la base para la estadística inferencial clásica por su
relación con el teorema de límite central.

En la distribución normal, uno puede calcular la probabilidad de que varios valores ocurran
dentro de ciertos rangos o intervalos. Sin embargo, la probabilidad exacta de un valor
particular dentro de una distribución continua, como la distribución normal, es cero. Esta
propiedad distingue a las variables continuas, que son medidas, de las variables discretas, las
cuales son contadas.

Ejemplo:

El tiempo (en segundos) se mide y no se cuenta. Por lo tanto, es factible determinar la


probabilidad de que el tiempo de descarga para una página principal en un navegador de la
Web esté entre 7 y 10 segundos o que la probabilidad de que el tiempo de descarga esté
entre 8 y 9 segundos, o la probabilidad de que el tiempo de descarga esté entre 7.99 y 8.01
segundos. Sin embargo, la probabilidad de que el tiempo de descarga sea exactamente de 8
segundos es cero.

Ejemplo de distribución normal


La distribución normal tiene importantes propiedades teóricas:

• Tiene una apariencia de forma de campana (y, por ende, es simétrica).


• Sus medidas de tendencia central (media, mediana y moda) son todas idénticas.
• Su «50% central» es igual a 1,33 desviaciones estándar. Esto significa que el rango
intercuartil está contenido dentro de un intervalo de dos tercios de una desviación
estándar por debajo de la media y de dos tercios de una desviación estándar por
encima de la media.
• Su variable aleatoria asociada tiene un rango infinito (-∞ < X < ∞).

En la práctica, muchas variables tienen distribuciones que se asemejan a las propiedades


teóricas de la distribución normal.

Principales aportaciones de Friedrich Gauss Lussac.

Johann Carl Friedrich Gauss De-carlfriedrichgauss.ogg; fue un matemático, astrónomo y


físico alemán que contribuyó significativamente en muchos ámbitos, incluida la teoría de
números, el análisis matemático, la geometría diferencial, la estadística, el álgebra, la
geodesia, el magnetismo y la óptica.
• El algoritmo de álgebra lineal usado para hallar inversas y matrices y determinar
la solución de sistemas de ecuaciones de línea, Eliminación de Gauss-Jordan.
• La aproximación de una integral no como una forma de espacio igualado, sino
como una función que elige los puntos de revisión de manera adecuada,
denominada Cuadratura de Gauss.
• El Transverse Mercator, sinónimo del sistema de proyección en cartografía,
denominado Sistema Gauss- Krüger.
• El sistema que propone que las superficies conectan su topología con su
geometría, denominado Teorema de Gauss-Bonnet.
• Teorema que relaciona el valor de la integral de superficie del flujo definido por
este campo con la divergencia matemática de un campo vectorial, también
llamado teorema de Gauss-Ostrogradsky, teorema de la divergencia o teorema de
Gauss.
• La relación entre la carga eléctrica encerrada en una superficie y el flujo eléctrico
a través de la misma superficie cerrada, denominada Ley de Gauss.
• La función que describe la distribución de Gauss en el campo de la matemática,
llamada función guassiana, campana de Gauss o curva de Gauss.
• La distribución de la probabilidad, llamada distribución normal o distribución de
Gauss.
Representación Matemática.
Dado un experimento de variable aleatoria continuaX, se llama distribución normal a aquella
que queda perfectamente descrita por su media aritmética y su desviación típica s. Las
distribuciones normales, también llamadas gaussianas, se denotan por la expresión N ( , s).

La gráfica de una distribución normal es la conocida campana de Gauss.


La función de densidad de la distribución normal sigue la ecuación que determina la
conocida campana de Gauss, cuya expresión matemática es la siguiente:

AREAS BAJO LA CURVA NORMAL

No importa cuáles sean los valores de la para una distribución de probabilidad normal, el área
total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si
fueran probabilidades. Matemáticamente es verdad que:

1.Aproximadamente 68% de todos los valores de una población normalmente distribuida se


encuentra dentro de desviación estándar de la media.

2. Aproximadamente 95.5 % de todos los valores de una población normalmente distribuida se


encuentra dentro de desviación estándar de la media.

3. Aproximadamente 99.7 % de todos los valores de una población normalmente distribuida se


encuentra dentro de desviación estándar de la media.

USO DE LA TABLA DE DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR


DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDARÁreas bajo la distribución de
probabilidad Normal Estándar entre la media y valores positivos de Z m = 0 y s²=1

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990

Observe en esta tabla la localización de la columna identificada con z. El valor de z está


derivado de la formula:

X = valor de la variable aleatoria que nos preocupa


media de la distribución de la variable aleatoria
= desviación estándar de la distribución
Z = número de desviaciones estándar que hay desde x a la media de la distribución

Utilizamos Z en lugar del ‘ número de desviaciones estándar’ porque las variables aleatorias
normalmente distribuidas tienen muchas unidades diferentes de medición: dólares, pulgadas,
partes por millón, kilogramos, segundos. Como vamos a utilizar una tabla, la tabla I, hablamos
en términos de unidades estándar (que en realidad significa desviaciones estándar), y
denotamos a éstas con el símbolo z.

X
-25 0 25 50 75 100 125
----------------------------------------- Z =
-3 -2 -1 0 1 2 3

La tabla representa las probabilidades o áreas bajo la curva normal calculadas desde la hasta
los valores particulares de interés X. Usando la ecuación de Z, esto corresponde a las
probabilidades o áreas bajo la curva normal estandarizada desde la media ( = 0) hasta los
valores transformados de interés Z.
Sólo se enumeran entradas positivas de Z en la tabla , puesto que para una distribución
simétrica de este tipo con una media de cero, el área que va desde la media hasta +Z (es
decir, Z desviaciones estándar por encima de la media) debe ser idéntica al área que va desde
la media hasta –Z (es decir, Z desviaciones estándar por debajo de la media).
También podemos encontrar la tabla que indica el área bajo la curva normal estándar que
corresponde a P(Z < z) para valores de z que van de –3.49 a 3.49.
Al usar la tabla observamos que todos los valores Z deben registrarse con hasta dos lugares
decimales. Por tanto, nuestro valor de interés particular Z se registra como +.2. para leer el
área de probabilidad bajo la curva desde la media hasta Z = +.20, podemos recorrer hacia
abajo la columna Z de la tabla hasta que ubiquemos el valor de interés Z. Así pues, nos
detenemos en la fila Z = .2. A continuación, leemos esta fila hasta que intersecamos la
columna que contiene el lugar de centésimas del valor Z. Por lo tanto, en la tabla, la
probabilidad tabulada para Z = 0.20 corresponde a la intersección de la fila Z = .2 con la
columna Z = .00 como se muestra.

Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586
0.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535
0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409
SESGO.
En estadística se llama sesgo de un estimador a la diferencia entre su esperanza
matemática y el valor numérico del parámetro que estima. Un estimador cuyo
sesgo es nulo se llama insesgado o centrado .

TRANSFORMACIONES HACIA UNA DISTRIBUCIÓN NORMAL

El coeficiente de sesgo o bies es una medida de la simetría. Una distribución


simétrica tiene un coeficiente igual a cero. Una distribución sesgada hacia la
izquierda, lo más frecuente, tiene un coeficiente positivo y una desviada hacia
la derecha tiene un coeficiente negativo. Para valores que no pueden ser
negativos, se puede inferir que una distribución es sesgada cuando la
desviación estándar es mayor que la mitad de la media. Lo contrario no es
necesariamente así, pero un histograma revelará rápidamente cuándo una
distribución es sesgada. Una posibilidad de describir una población sesgada es
usar parámetros distintos que los de una distribución Normal simétrica,
generalmente la mediana y percentiles y para la inferencia se usarán pruebas
no paramétricas. Otra alternativa es usar una transformación de los datos de
manera que tengan una distribución más simétrica. La transformación más
frecuente es la de obtener logaritmos de los datos. El antilogaritmo de la media
aritmética de los valores transformados es la media geométrica. Si la
transformación fue exitosa en eliminar el sesgo, la media geométrica será
similar a la mediana y algo menor que la media aritmética de los datos
originales. No tiene sentido obtener el antilogaritmo de la desviación estándar
de los valores transformados. No se debe asumir que una distribución sesgada
puede hacerse más simétrica con una transformación como la mencionada por
lo que debe comprobarse el efecto mirando un histograma de los datos
transformados o bien con pruebas como la W de Shapiro-Wilk.

CURTOSIS.

La curtosis es una medida estadística que determina el grado de concentración que presentan
los valores de una variable alrededor de la zona central de la distribución de
frecuencias. También es conocida como medida de apuntamiento.

Cuando medimos una variable aleatoria, por lo general, los resultados que tienen una mayor
frecuencia son los que se sitúan en torno a la media de la distribución. Imaginemos la altura
de los alumnos de una clase. Si la altura media de la clase es 1,72 cm, lo más normal es que
las alturas del resto de los alumnos estén en torno a este valor (con cierto grado de
variabilidad, pero sin ser esta demasiado grande). Si esto sucede, se considera que la
distribución de la variable aleatoria se distribuye con normalidad. Pero dada la infinidad de
variables que se pueden medir, esto no siempre sucede así.

Existen algunas variables que presentan un mayor grado de concentración (menor dispersión)
de los valores en torno a su media y otras, por el contrario, presentan un menor grado de
concentración (mayor dispersión) de sus valores en torno a su valor central. Por tanto, la
curtosis nos informa de lo apuntada (mayor concentración) o lo achatada (menor
concentración) que es una distribución.

Tipos de curtosis

Dependiendo del grado de curtosis, tenemos tres tipos de distribuciones:

1. Leptocúrtica: Existe una gran concentración de los valores en torno a su media (g 2>3)
2. Mesocúrtica: Existe una concentración normal de los valores en torno a su media (g 2=3).

3. Platicúrtica: Existe una baja concentración de los valores en torno a su media (g 2<3).

Medidas de curtosis según los datos

Dependiendo de la agrupación o no de los datos, se utiliza una fórmula u otra.

Datos sin agrupar:


Datos agrupados en tablas de frecuencias:

Datos agrupados en intervalos:

Ejemplo de cálculo de curtosis para datos sin agrupar

Supongamos que queremos calcular la curtosis de la siguiente distribución:

8,5,9,10,12,7,2,6,8,9,10,7,7.

Primero calculamos la media aritmética (µ), que sería 7,69.

A continuación, calculamos la desviación típica, que sería 2,43.

Tras tener estos datos y para comodidad en el cálculo, se puede realizar una tabla para
calcular la parte del numerador (cuarto momento de la distribución). Para el primer cálculo
sería: (Xi-µ)^4 = (8-7,69)^4 = 0,009.
DatosDatos (Xi-(Xi-µ)^4µ)^4

8 0,0090

5 52,5411

9 2,9243

10 28,3604

12 344,3330

7 0,2297

2 1049,9134

6 8,2020

8 0,0090
9 2,9243

10 28,3604

7 0,2297

7 0,2297

N = 13 ∑ = 1.518,27

Una vez tenemos esta tabla hecha, simplemente tendríamos que aplicar la fórmula expuesta
con anterioridad para tener la curtosis.

g2 = 1.518,27/13*(2,43)^4 = 3,34

En este caso dado que g2 es mayor que 3, la distribución sería leptocúrtica, presentando un
mayor apuntamiento que la distribución normal.

Exceso de curtosis

En algunos manuales la curtosis se presenta como exceso de curtosis. En este caso esta se
compara directamente con la de la distribución normal. Dado que la distribución normal tiene
curtosis 3, para obtener el exceso, solo habría restarle 3 a nuestro resultado.

Exceso de curtosis = g2-3 = 3,34-3 = 0,34.

La interpretación del resultado en este caso, sería la siguiente:

g2-3 > 0 -> distribución leptocúrtica.

g2-3 = 0 -> distribución mesocúrtica (o normal).

g2-3 < 0 -> distribución platicúrtica.


HISTORIA DE LA DISTIBUCION NORMAL.

La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo
del año 1733,5 que fue reimpreso en la segunda edición de su The Doctrine of Chances, de
1738, en el contexto de cierta aproximación de la distribución binomial para grandes valores
de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las
probabilidades (1812), y en la actualidad se llama
Teorema de De Moivre-Laplace.
Laplace usó la distribución normal en el análisis de
errores de experimentos. El
importante método de mínimos cuadrados fue
introducido por Legendre en 1805. Gauss, que afirmaba
haber usado el método desde 1794, lo justificó
rigurosamente en 1809 asumiendo una distribución
normal de los errores. El nombre de Gauss se ha
asociado a esta distribuciónporque la usó con profusión
cuando analizaba datos astronómicos6 y algunos
autores le atribuyen un descubrimiento independiente
del de De Moivre.7 Esta atribución del nombre de la
distribución a una persona distinta de su primer
descubridor es un claro ejemplo de la ley deStigler.
El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie
campana) por primera vez en 1872 para una distribución normal bivariante de componentes
independientes. El nombre de "distribución normal" fue otorgado independientemente
por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875. A pesar de esta
terminología, otras distribuciones de probabilidad podrían ser más apropiadas en
determinados contextos; véase la discusión sobre incidencia, más abajo.

PROBLEMAS DE NOMBRES Y LETRAS

La distribución normal es la más importante por su simplicidad, porque aparece


frecuentemente en la realidad y por una propiedad especial llamada Teorema del Límite
Central. La comprensión de su naturaleza y su papel en la inferencia estadística es
esencial. Es una pena la denominación de normal pues no es más “normal” que las otras y
ello causa frecuentes confusiones, sobre todo en medicina, donde normal, es más bien lo
que no es patológico. Para evitar la confusión muchos usan Normal con mayúsculas y
aquí haremos lo mismo; otros hablan de distribución gaussiana o de campana de Gauss a
pesar que fue Abraham de Moivre el primero en describirla y Gauss solo la popularizó.

La distribución Normal:

1. Tiene forma de campana.


2. Es simétrica.
3. Alcanza su máximo en µ (la media).
4. La media es también la moda y la mediana.
5. Es asintótica al eje de las abscisas y, como no lo toca nunca, cualquier valor de X
entre -infinito y +infinito es teóricamente posible.
6. La posición relativa en el eje de las abscisas lo determina µ (más a la derecha
mientras mayor sea) y su mayor o menor aplastamiento o ancho lo determina σ (la
desviación estándar), siendo más aplanada mientras mayor sea su magnitud
Las fórmulas para el cálculo de los parámetros poblacionales de la distribución Normal
son sencillas:

Mediana:

Donde la letra griega Σ, sigma mayúscula, indica la sumatoria de los valores individuales
de X, cifra que es dividida por el número de mediciones.

La variabilidad de los valores se calcula como un promedio de las desviaciones con


respecto a la media. Como ya vimos, ya que la mitad de los valores son mayores que la
media y la otra mitad son menores, el resultado final sería 0. Para eliminar el signo
negativo de la mitad menor, se eleva al cuadrado cada desviación. Este promedio de
desviaciones elevadas al cuadrado desde la media es la varianza.

Varianza:

La varianza se expresa con el cuadrado de las unidades de la medición (cm2, kg2, mmHg2)
y, además, es más difícil de visualizar e interpretar por el hecho de ser un cuadrado. Por
ello es más común que se use la desviación estándar: la raíz cuadrada de la varianza.

Desviación estándar:

Cada valor en el eje de las ordenadas en relación con cada valor en el eje de las abscisas
puede ser calculado con esta ecuación que describe la curva Normal completa:

Curva Normal:

Esta fórmula indica que solo se necesita conocer los valores de µ y σ, o bien buenas
estimaciones de ellos como veremos luego, para calcular el valor de Y ante cualquier valor
de X.

DISTRIBUCIÓN NORMAL ESTÁNDAR O TÍPICA

Si pensamos que la distribución Normal es una distribución de probabilidades o, más


propiamente, una densidad de probabilidades, el área bajo la curva es igual a uno y como
es una distribución simétrica, la mitad del área está a la izquierda de la media y la otra
mitad a la derecha. Para calcular las probabilidades en relación a cualquier valor de X
basta con calcular el área:

Área bajo la curva normal:


Hay tablas, que aparecen en el apéndice de todos los libros de estadística, en las cuales se
ha hecho esta integración. Como cada variable observada tiene valores individuales de X,
probablemente todos diferentes y expresados en unidades de medición distintas, sería
necesario disponer de tablas o calcular separadamente para cada valor. Sin embargo,
pueden ser puestas en una escala comparable usando equivalentes estandarizados.
Como se vio, cualquier posición en el eje horizontal puede ser descrita como una distancia
expresada en desviaciones estándar desde la media con valor negativo o positivo. Esta
unidad se conoce como desviación Normal estándar o puntaje z. Es equivalente a una
distribución Normal con una media de 0 y una desviación estándar de 1, una distribución
Normal especial conocida como Normal estándar o Normal típica.

La transformación requerida es:

donde Xi es un número observado de una variable distribuida Normalmente con una


media µ y una desviación estándar σ.

La ecuación de la curva Normal adquiere una forma más simple al usar z en vez de X:

Área bajo la curva Normal estándar:

En las tablas de z, se pueden leer las proporciones en que esa área total es dividida en dos
por un valor de z. Con ellas podemos calcular la proporción de personas o de valores que
esperamos tengan cifras por sobre o por debajo de un valor determinado. Por ejemplo,
valores de presión arterial media, variable que se distribuye normalmente en una
población, para la cual estimamos valores de µ y σ de 100 y de 15, y queremos saber qué
proporción de la población esperamos tengan valores ≤ 120. Usando la fórmula anterior:

Este valor de z corresponde a una proporción de 0,9082 (Figura 3): estimamos que el
90,82% de la población tiene una PAM ≤ 120.
PROPIEDADES DE LA DISTRIBUCIÓN NORMAL

• La forma de la curva de la distribución depende de sus dos parámetros: la


media y la desviación estándar.
• La media indica la posición de la campana, la gráfica se desplaza a lo largo
del eje x.
• A mayor desviación la curva será más "plana", dado que la distribución, en
este caso, presenta una mayor variabilidad.
• La curva es siimétrica respecto a la media.

INTERVALOS DE UNA DISTRIBUCIÓN NORMAL


Por su importancia en el análisis estadístico son de interés los intervalos donde el
área bajo la curva corresponde a determinados valores de probabilidad.
TIPIFICACIÓN DE UNA VARIABLE.
Es posible expresar cualquier distribución normal como una de la forma unitaria
(N(0,1)), la cual se denomina distribución normal tipificada. Para ello se utiliza la
expresión:

Una de las ventajas de tipificar una distribución es que se puede medir la desviación
de los datos respecto a la media, lo cual permite comparar la posición relativa de los
datos.

La distribución tipificada se aplica en estadística inferencial para determinar intervalos


de confianza para la media de una población, usualmente se utiliza un nivel de
confianza del 95% para el cual Z = 1.96

También podría gustarte