Está en la página 1de 37

Distribución de

probabilidad normal
Steev Loyola, MSc
Facultad de Medicina Alberto Hurtado
Escuela Profesional de Tecnología Médica
Material originalmente preparado por SL. Incluye colaboraciones de GA
Contenido de la clase

1. Distribución de probabilidades para variables numéricas


2. Distribución normal
3. Tipos de distribución normal
4. El área bajo la curva normal y cálculo de áreas bajo la curva y
probabilidades
Probabilidades para variables numéricas

- A= evento (definido como una variable numérica)

- Espacio muestral: conjunto de todos los resultados individuales


numéricos posibles (a1, a2, a3….an) donde todo valor de A está
incluido solo una vez

- ai: Resultado puntual de un evento. Cada ai es mutuamente


excluyente, y en este caso es un valor numérico

- P(A=ai): probabilidad de que el valor numérico ai del evento A ocurra


Utilizando base de datos baseline2.dta
- Variables numéricas discretas y continuas
Histograma de distribución

histogram humans, discrete fraction addlabels


Recuerde que, “tabulate” no es el comando
adecuado para resumir variables numéricas. Por
tanto, no debe usarlo
Variable numérica continua
Distribución de probabilidades en variables
continuas
- Se muestran en intervalos: del ejemplo podemos ver que la probabilidad de
que una casa esté a 148.94 metros es de 0.36
- Los intervalos pueden a su vez se divididos en sub-intervalos incluso
menores (asumiendo homogeneidad dentro del intervalo)
- La probabilidad de un sub-intervalo de 1 unidad (1 metro) en la primera barra
será 0.3679/148.94 = 0.0025
- Esta es la denominada función de densidad
- Stata ofrece esta opción en el histograma por defecto
Histogramas en Stata
hist dis_min, addlabels
En realidad, para una variable continua
- Para un valor puntual en una variable verdaderamente continua, su probabilidad
es usualmente un valor muy cercano a cero, por lo que las probabilidades para
variables continuas son calculadas mediante intervalos
Distribución de probabilidad normal

- También llamada distribución de Gauss, es utilizada para variables


numéricas (usualmente continuas)

- Es obtenida a partir de dos parámetros: la media y la desviación estándar

- Tiene como carácterística ser simétrica alrededor de la media, con


media=mediana=moda

- Sus valores van de – infinito a + infinito

- Bajo ciertas condiciones es utiliza para aproximar y reemplazar otras


distribuciones
Distribuciones con una o más modas
- La distribución normal se caracteriza por ser unimodal

- Existen otras distribuciones con varias modas. Estas no se ajustan a


una distribución normal.

- En Stata, se puede evaluar mediante un histogram


Diferentes curvas normales
• La media define donde se ubicará la curva en el eje x mientras que la desviación estándar
determina la altura de la curva, ya que a una menor sd, la curva se concentra y levanta
(mayor kurtosis)
Determinación de la distribución de una
variable numérica
- Es importante determinar el tipo de distribución de las variables para luego
decidir el tipo de prueba que mejor se ajusta a los datos

- Es importante realizar las siguientes evaluaciones:


1. Medidas descriptivas y de forma
• Descriptivas: promedio, p50
• Forma: Sesgo/Asimetría, Kurtosis
2. Gráficos: histogramas, cajas y bigotes
3. Pruebas de hipótesis: Shapiro-Wilk
Skewness = Sesgo / asimetría
• Si en el histograma, nuestros datos se agrupan más hacia un lado y se
muestra una de las “colas” más largas, entonces hay sesgo

Media < Mediana < Moda Moda < Mediana < Media

• Si el sesgo es igual (o se aproxima) a cero, entonces tenemos una


distribución normal
Kurtosis
• Es una medida del peso de las colas.

La kurtosis normal también se


denomina mesocúrtica

• Si la kurtosis es igual (o se aproxima) a tres, entonces tenemos una


distribución normal
Evaluando Skewness y Kurtosis en Stata
usando sum var#, d (1)

Una variable numérica con distribución normal tiene


aproximadamente un skewness = 0 y kurtosis = 3
No sean estrictos con los valores
referenciales

• No existe la normalidad perfecta en la vida real


• Deben ser flexibles con la evaluación
• Diversos autores sitúan diversos rangos de sesgo y kurtosis para
normalidad
– Kim (2013): Sesgo = 0 ± 2, Kurtosis = 3 a < 7
– Triola (2009): Sesgo = 0 ± 1, Kurtosis = 3 ± 2.5
Prueba de Shapiro Wilk
- Publicado en 1965 por Samuel Shapiro y Martin Wilk.
- Es una prueba de hipótesis que evaluar distribución normal
- Puede ser usado entre 4 < n <2000 observaciones.
- Si p value (prob >z)
- Menor a 0.05 la variable no tiene normalidad.
- Mayor a 0.05 la variable tiene normalidad

swilk var#

Valor de p
Evaluando distribución normal usando la
prueba de Shapiro-Wilk en Stata
swilk trigliceridos

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
trigliceri~s | 118 0.77826 21.037 6.819 0.00000

swilk edad

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
edad | 118 0.99044 0.907 -0.219 0.58684

¿La variable triglicéridos presenta distribución normal?


¿La variable edad presenta distribución normal?
Usos de la distribución normal
• La forma simétrica de su distribución
facilita el cálculo de probabilidades

• Muchos parámetros como la media


siguen una distribución normal

• Cualquier variable numérica puede


aproximarse a la distribución normal
cuando el tamaño de muestra (el “n”)
es grande
Distribución Normal
Comandos a utilizar para la distribución
normal en Stata
Ejemplo de motivación
• ¿Cuál es la densidad de X para un x=150, si la variable tiene una media
poblacional μ=200 y una desviación estándar σ =40?
Distribución de probabilidad acumulada

- Ejemplo: cual es la distribución de un valor de X=150 o menor, si la variable X tiene una


media poblacional μ=200 y una desviación estándar σ =40
Podemos apreciar entonces que todo se
simplifica si se normaliza la variable X
La distribución normal estándar
Distribución normal estandarizada

También conocida como distribución Z


Sirve para comparar medidas en diferentes escalas

¿Cómo?
Imagina que a dos personas les toman un test de inteligencia. El sujeto 1 obtiene 75
puntos y el sujeto 2 obtiene 85. Sin embargo, el sujeto 1 es peruano y el sujeto 2 es
indio. ¿Quién es más inteligente?
Distribución normal estandarizada (1)

- En India la inteligencia promedio es de 80 y su 𝜎=5


- En Perú la inteligencia promedio es de 65 y su 𝜎=10
- ¿Quién es más inteligente?
- Estandaricemos para saber…

Donde,
• z es el “z-score”
• x es el valor a estandarizar
• µ es la media
• σ es la desviación estándar
Distribución Normal Estandarizada (2)
• Calculemos
– display (85-80)/5 = 1
– display (75-65)/10 = 1

• Moraleja:
– A pesar de haber observado valores diferentes, cuando estandarizamos
los valores, resulta que ambos son igual de inteligentes
Puntajes Z
- Los puntajes Z también nos permiten conocer probabilidades

- En Perú, ¿qué tan probable es encontrar a alguien con puntaje de


inteligencia de 120?
- display (120-65)/10
- Resultado: 5.5
- Eso quiere decir que un sujeto así, está a 5.5 desviaciones estándar
alejado del promedio
Áreas bajo la curva normal
Cálculo de probabilidades (1)
- Idealmente el interés es evaluar que tan probable es que Z tome valores
entre un rango determinado (por ejemplo Z0 & Z1)

- Usualmente se requería un cálculo de integral como en la ecuación, pero


ahora Stata nos permite hacer los cálculos necesarios
Cálculo de probabilidades (2)
Cálculo de probabilidades (3)
Cálculo de probabilidades (4)
Aspectos clave
• En el taller, aprenderán a evaluar distribución normal en una
variable numérica continua
– Evaluación de medidas descriptivas
– Evaluación gráfica
– Evaluación usando una prueba de hipótesis

• Recuerden que las variables deben ser resumidas de acuerdo a


su distribución;
– Si hay distribución normal: promedio y desviación estándar
– Si no hay distribución normal: mediana y rango

También podría gustarte