2021 Distribucion Normal

Distribución de
probabilidad normal
Steev Loyola, MSc
Facultad de Medicina Alberto Hurtado
Escuela Profesional de Tecnología Médica
Material originalmente preparado por SL. Incluye colaboraciones de GA
Contenido de la clase
1. Distribución de probabilidades para variables numéricas

2. Distribución normal
3. Tipos de distribución normal
4. El área bajo la curva normal y cálculo de áreas bajo la curva y
probabilidades
Probabilidades para variables numéricas
- A= evento (definido como una variable numérica)
- Espacio muestral: conjunto de todos los resultados individuales

numéricos posibles (a1, a2, a3….an) donde todo valor de A está
incluido solo una vez
- ai: Resultado puntual de un evento. Cada ai es mutuamente

excluyente, y en este caso es un valor numérico
- P(A=ai): probabilidad de que el valor numérico ai del evento A ocurra

Utilizando base de datos baseline2.dta
- Variables numéricas discretas y continuas
Histograma de distribución
histogram humans, discrete fraction addlabels

Recuerde que, “tabulate” no es el comando
adecuado para resumir variables numéricas. Por
tanto, no debe usarlo
Variable numérica continua
Distribución de probabilidades en variables
continuas
- Se muestran en intervalos: del ejemplo podemos ver que la probabilidad de
que una casa esté a 148.94 metros es de 0.36
- Los intervalos pueden a su vez se divididos en sub-intervalos incluso
menores (asumiendo homogeneidad dentro del intervalo)
- La probabilidad de un sub-intervalo de 1 unidad (1 metro) en la primera barra
será 0.3679/148.94 = 0.0025
- Esta es la denominada función de densidad
- Stata ofrece esta opción en el histograma por defecto
Histogramas en Stata
hist dis_min, addlabels
En realidad, para una variable continua
- Para un valor puntual en una variable verdaderamente continua, su probabilidad
es usualmente un valor muy cercano a cero, por lo que las probabilidades para
variables continuas son calculadas mediante intervalos
Distribución de probabilidad normal
- También llamada distribución de Gauss, es utilizada para variables

numéricas (usualmente continuas)
- Es obtenida a partir de dos parámetros: la media y la desviación estándar
- Tiene como carácterística ser simétrica alrededor de la media, con

media=mediana=moda
- Sus valores van de – infinito a + infinito
- Bajo ciertas condiciones es utiliza para aproximar y reemplazar otras

distribuciones
Distribuciones con una o más modas
- La distribución normal se caracteriza por ser unimodal
- Existen otras distribuciones con varias modas. Estas no se ajustan a

una distribución normal.
- En Stata, se puede evaluar mediante un histogram

Diferentes curvas normales
• La media define donde se ubicará la curva en el eje x mientras que la desviación estándar
determina la altura de la curva, ya que a una menor sd, la curva se concentra y levanta
(mayor kurtosis)
Determinación de la distribución de una
variable numérica
- Es importante determinar el tipo de distribución de las variables para luego
decidir el tipo de prueba que mejor se ajusta a los datos
- Es importante realizar las siguientes evaluaciones:

1. Medidas descriptivas y de forma
• Descriptivas: promedio, p50
• Forma: Sesgo/Asimetría, Kurtosis
2. Gráficos: histogramas, cajas y bigotes
3. Pruebas de hipótesis: Shapiro-Wilk
Skewness = Sesgo / asimetría
• Si en el histograma, nuestros datos se agrupan más hacia un lado y se
muestra una de las “colas” más largas, entonces hay sesgo
Media < Mediana < Moda Moda < Mediana < Media
• Si el sesgo es igual (o se aproxima) a cero, entonces tenemos una

distribución normal
Kurtosis
• Es una medida del peso de las colas.
La kurtosis normal también se

denomina mesocúrtica
• Si la kurtosis es igual (o se aproxima) a tres, entonces tenemos una

distribución normal
Evaluando Skewness y Kurtosis en Stata
usando sum var#, d (1)
Una variable numérica con distribución normal tiene

aproximadamente un skewness = 0 y kurtosis = 3
No sean estrictos con los valores
referenciales
• No existe la normalidad perfecta en la vida real

• Deben ser flexibles con la evaluación
• Diversos autores sitúan diversos rangos de sesgo y kurtosis para
normalidad
– Kim (2013): Sesgo = 0 ± 2, Kurtosis = 3 a < 7
– Triola (2009): Sesgo = 0 ± 1, Kurtosis = 3 ± 2.5
Prueba de Shapiro Wilk
- Publicado en 1965 por Samuel Shapiro y Martin Wilk.
- Es una prueba de hipótesis que evaluar distribución normal
- Puede ser usado entre 4 < n <2000 observaciones.
- Si p value (prob >z)
- Menor a 0.05 la variable no tiene normalidad.
- Mayor a 0.05 la variable tiene normalidad
swilk var#
Valor de p
Evaluando distribución normal usando la
prueba de Shapiro-Wilk en Stata
swilk trigliceridos
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z

-------------+--------------------------------------------------
trigliceri~s | 118 0.77826 21.037 6.819 0.00000
swilk edad
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z

-------------+--------------------------------------------------
edad | 118 0.99044 0.907 -0.219 0.58684
¿La variable triglicéridos presenta distribución normal?

¿La variable edad presenta distribución normal?
Usos de la distribución normal
• La forma simétrica de su distribución
facilita el cálculo de probabilidades
• Muchos parámetros como la media

siguen una distribución normal
• Cualquier variable numérica puede

aproximarse a la distribución normal
cuando el tamaño de muestra (el “n”)
es grande
Distribución Normal
Comandos a utilizar para la distribución
normal en Stata
Ejemplo de motivación
• ¿Cuál es la densidad de X para un x=150, si la variable tiene una media
poblacional μ=200 y una desviación estándar σ =40?
Distribución de probabilidad acumulada
- Ejemplo: cual es la distribución de un valor de X=150 o menor, si la variable X tiene una

media poblacional μ=200 y una desviación estándar σ =40
Podemos apreciar entonces que todo se
simplifica si se normaliza la variable X
La distribución normal estándar
Distribución normal estandarizada
También conocida como distribución Z

Sirve para comparar medidas en diferentes escalas
¿Cómo?
Imagina que a dos personas les toman un test de inteligencia. El sujeto 1 obtiene 75
puntos y el sujeto 2 obtiene 85. Sin embargo, el sujeto 1 es peruano y el sujeto 2 es
indio. ¿Quién es más inteligente?
Distribución normal estandarizada (1)
- En India la inteligencia promedio es de 80 y su 𝜎=5

- En Perú la inteligencia promedio es de 65 y su 𝜎=10
- ¿Quién es más inteligente?
- Estandaricemos para saber…
Donde,
• z es el “z-score”
• x es el valor a estandarizar
• µ es la media
• σ es la desviación estándar
Distribución Normal Estandarizada (2)
• Calculemos
– display (85-80)/5 = 1
– display (75-65)/10 = 1
• Moraleja:
– A pesar de haber observado valores diferentes, cuando estandarizamos
los valores, resulta que ambos son igual de inteligentes
Puntajes Z
- Los puntajes Z también nos permiten conocer probabilidades
- En Perú, ¿qué tan probable es encontrar a alguien con puntaje de

inteligencia de 120?
- display (120-65)/10
- Resultado: 5.5
- Eso quiere decir que un sujeto así, está a 5.5 desviaciones estándar
alejado del promedio
Áreas bajo la curva normal
Cálculo de probabilidades (1)
- Idealmente el interés es evaluar que tan probable es que Z tome valores
entre un rango determinado (por ejemplo Z0 & Z1)
- Usualmente se requería un cálculo de integral como en la ecuación, pero

ahora Stata nos permite hacer los cálculos necesarios
Aspectos clave
• En el taller, aprenderán a evaluar distribución normal en una
variable numérica continua
– Evaluación de medidas descriptivas
– Evaluación gráfica
– Evaluación usando una prueba de hipótesis
• Recuerden que las variables deben ser resumidas de acuerdo a

su distribución;
– Si hay distribución normal: promedio y desviación estándar
– Si no hay distribución normal: mediana y rango

2021 Distribucion Normal

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2021 Distribucion Normal

Cargado por

Copyright:

Formatos disponibles

Distribución de

1. Distribución de probabilidades para variables numéricas

- A= evento (definido como una variable numérica)

- Espacio muestral: conjunto de todos los resultados individuales

- ai: Resultado puntual de un evento. Cada ai es mutuamente

- P(A=ai): probabilidad de que el valor numérico ai del evento A ocurra

histogram humans, discrete fraction addlabels

- También llamada distribución de Gauss, es utilizada para variables

- Es obtenida a partir de dos parámetros: la media y la desviación estándar

- Tiene como carácterística ser simétrica alrededor de la media, con

- Sus valores van de – infinito a + infinito

- Bajo ciertas condiciones es utiliza para aproximar y reemplazar otras

- Existen otras distribuciones con varias modas. Estas no se ajustan a

- En Stata, se puede evaluar mediante un histogram

- Es importante realizar las siguientes evaluaciones:

• Si el sesgo es igual (o se aproxima) a cero, entonces tenemos una

La kurtosis normal también se

• Si la kurtosis es igual (o se aproxima) a tres, entonces tenemos una

Una variable numérica con distribución normal tiene

• No existe la normalidad perfecta en la vida real

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

¿La variable triglicéridos presenta distribución normal?

• Muchos parámetros como la media

• Cualquier variable numérica puede

- Ejemplo: cual es la distribución de un valor de X=150 o menor, si la variable X tiene una

También conocida como distribución Z

- En India la inteligencia promedio es de 80 y su 𝜎=5

- En Perú, ¿qué tan probable es encontrar a alguien con puntaje de

- Usualmente se requería un cálculo de integral como en la ecuación, pero

• Recuerden que las variables deben ser resumidas de acuerdo a

También podría gustarte