Está en la página 1de 10

Distribuciones

de probabilidad

Metodología de
Análisis de Datos
Cuantitativos

1
Distribuciones de probabilidad
La distribución de muestreo de un estadístico es la distribución de
probabilidad que puede obtenerse como resultado de considerar todas las
muestras aleatorias independientes posibles, cada una de tamaño n
provenientes de la población de interés.
Recorreremos a continuación las características de las principales
distribuciones teóricas de probabilidad, a través de las cuales es posible
describir las distribuciones en el muestreo de los estadísticos de interés, a
medida que las requiramos.
Distribución Normal
La distribución normal es de amplia difusión debido a una serie de razones:

 Se aproximan la mayoría de los fenómenos de la naturaleza (físicos,


químicos y biológicos).
 Es la base de la inferencia estadística paramétrica.
 Otras distribuciones, bajo ciertas circunstancias, se pueden aproximar a
la normal.
 Es la referencia para definir otras distribuciones con gran número de
aplicaciones prácticas como la Chi cuadrada, t de Student y F de Fisher.

Figura 1: Distribución normal

Características de la distribución normal

2
Forma

 Es una campana simétrica con respecto a su eje de simetría.


 La curva tiene un solo pico (es unimodal).
 La media de una población distribuida normalmente cae en el centro de
su curva normal.
 Debido a la simetría de la distribución normal de probabilidad, la
mediana y la moda de la distribución se encuentran también en el
centro; en consecuencia, para una curva normal, la media, la mediana y
la moda tienen el mismo valor.
 Los dos extremos de la distribución normal de probabilidad se extienden
indefinidamente y nunca tocan el eje horizontal.

Parámetros

La distribución está caracterizada por dos parámetros: la media y la varianza.


La media (μ) es el parámetro de localización de la distribución.

Figura 2: Distribuciones normales con diferente media

La varianza da información sobre la dispersión de los datos respecto de la


media.

Figura 3: Distribuciones normales con diferente varianza

3
Función de densidad

Para calcular las áreas bajo la curva de función de densidad normal se


requiere integrar la ecuación anterior. Ya que no existe una solución exacta
para esta integral, sólo es posible obtener esa área por métodos de
aproximación.
Para facilitar esta tarea en casos de aplicación concretos con medias y
varianzas diferentes, se utiliza la propiedad por la cual puede transformarse
cualquier curva normal en una “curva normal estándar” utilizando una
nueva variable aleatoria Z llamada variable aleatoria normal estándar.
Si X ≈ N ( μ, 𝜎2) entonces X puede transformarse en Z, en donde:

Los parámetros de Z son:

Teorema central del límite

Como su nombre lo indica, esta propiedad constituye un teorema, es decir,


un resultado muy importante, que puede ser demostrado con generalidad.
Este resultado nos indica que cuando el tamaño es suficientemente grande,
la distribución de la variable aleatoria media muestral puede aproximarse a
la distribución normal. Y esta relación es válida, cualquiera sea la distribución
de los datos de la variable original. Por ejemplo, si estamos interesados en
analizar la media de ingresos en cierta población, aún cuando la distribución
de ingresos en esa población no sea normal, si tomamos muestras
suficientemente grandes, la distribución en el muestreo de las medias
muestrales de ingresos, tendrán una forma aproximadamente normal.

Distribución de muestreo de la media


En el caso de extraer una muestra aleatoria de tamaño n, a partir de una
población con media m y varianza s2, se obtiene que la media muestral es la

4
suma de variables aleatorias (ya que los casos que efectivamente forman
parte de esta media surgieron de una muestra aleatoria).
Esta media muestral es una variable aleatoria con distribución normal, con
valor esperado μ y varianza 𝜎2/n (o lo que es lo mismo, con desviación
estándar de la media muestra o error estándar de la media muestral, igual a
𝜎/ √n ). Como puede verse en esta fórmula, a medida que mayor sea el
tamaño de la muestra, menor será el grado de dispersión de la media
muestral, es decir, la fluctuación entre medias muestrales extraídas de la
misma población será mínima en el caso de muestras cuyo tamaño es muy
elevado.
Si las muestras fueran tomadas de una población finita (sin reposición), debe
de introducirse un factor de corrección para poblaciones finitas (fcpf) para
calcular el error estándar de la media. Este error estándar de la media será:

Cuando la variable X proviene de una población que es normal, la


distribución de la media muestral es también normal, cualquiera sea la
muestra.
Si no puede especificarse la distribución de probabilidad de la población a
partir de la cual se obtiene la muestra, se considera el resultado provisto por
el Teorema del Límite Central (TLC).

Considerando la fórmula de estandarización de cualquier variable normal


muestral, para el caso de media muestral tendremos:

Propiedades de la media muestral


Insesgamiento: La media de todas las medias muestrales posibles (de cierto
tamaño de muestra n) será igual a la media de población μ.

5
Eficiencia: Indica la precisión de la muestra de estadística como un estimador
del parámetro de población. Para distribuciones normales, la media
aritmética es más estable de muestra a muestra que otras medidas de
tendencia central. Para una muestra de tamaño n, la media de la muestra
estará más cerca, en promedio, a la media de población que cualquier otro
estimador.
Consistencia: Tiene en cuenta al efecto del tamaño de muestra sobre la
utilidad de un estimador. Al aumentar el tamaño de muestra, la variabilidad
de la media de muestra respecto de la media de población se hace más
pequeña, de manera que la media aritmética de la muestra se vuelve cada
vez más cercana al valor del parámetro a medida que aumenta el tamaño de
la muestra y por ende se obtiene una mejor estimación de la media de
población.

Distribución “t de Student”
En muchas ocasiones no se conoce 𝜎 y el número de observaciones en la
muestra es menor de 30. En estos casos, se puede utilizar la desviación
estándar de la muestra, S, como una estimación de 𝜎. Pero, como no se
dispone del valor de la desviación estándar poblacional ya que no es posible
usar la variable normal Z como estadístico de prueba. En su lugar, puede
emplearse la distribución t.

Características de la distribución t de Student

 Al igual que la distribución normal, es una distribución continua.


 La distribución t tiene media de cero, es simétrica respecto de la media
y varía en todo el dominio real. Su varianza está dada por:

para v > 2, donde “v” son los grados de libertad. Cuando los grados de
libertad son suficientemente grandes la varianza de la distribución t tiende
a 1.

 No hay una distribución t, sino una "familia" de distribuciones t. todas


con la misma media cero, pero con su respectiva desviación estándar
diferente según el tamaño de la muestra n.
 La distribución t tiene forma acampanada y simétrica, pero es más
aplanada que la distribución normal. La distribución t es más plana
debido a que las medias de muestra calculadas a partir de muestras más
pequeñas tienen una mayor variabilidad. No obstante, a medida que

6
aumenta el tamaño de la muestra, la distribución t se aproxima a la
distribución normal estándar.

Una variable T con distribución t de Student se define de la siguiente


manera:

Grados de libertad:
Existe una distribución t distinta para cada uno de los posibles grados de
libertad. ¿Pero, a qué nos referimos con la expresión grados de libertad? Son
el número de valores que podemos elegir libremente de un conjunto de
datos.
Si tenemos una muestra de tamaño n=3 y sabemos que tiene una media de
12. Por definición de la media sabemos que (x1 + x2 + x3)/3 = 12
Dos de estos valores podrían ser cualquier número, sin embargo el tercer no
podrá ser otra cosa que la diferencia de 36 menos la suma de los otros dos
números. Por lo tanto en este problema hay sólo n - 1 = 2 grados de libertad.
Despejando la ecuación del párrafo anterior podrás llegar a la misma
conclusión.

Distribución de muestreo de la proporción


Si P es la proporción de casos que cumplen cierta condición o poseen
determinada propiedad en una población, tal como tener determinada
nacionalidad, estar cursando estudios superiores o realizar alguna actividad
laboral paga, también es susceptible de ser estimada a través de la
proporción de casos de una muestra de tamaño n, seleccionada de la
población de interés, que cumplen con la respectiva característica.
La proporción muestral (p) estará dada por:

Donde X es la cantidad de casos de la muestra que poseen la característica,


y n es el tamaño de la muestra.
El valor de la media o esperanza de p será P (proporción poblacional).
En tanto la varianza de p será:

7
En el caso de muestras grandes, la distribución de p se distribuye normal.
Será este el caso cuando se cumplan las siguientes condiciones:

1) n*p > 5
2) n*(1 – p) > 5

Distribución χ2
La distribución χ2 (se lee “chi” cuadrado”) es en realidad una familia
completa de distribuciones. Hay una distribución diferente para cada valor
de los grados de libertad. A medida que aumentan los grados de libertad la
función se vuelve más simétrica. Para grados de libertad superiores a 30 la
distribución se aproxima a la normal.
Esta distribución es importante cuando se desea hacer una inferencia con
respecto a la varianza poblacional basada en una muestra aleatoria tomada
de una población normal.
También tiene aplicaciones en las pruebas de independencia, bondad de
ajuste y proporciones las cuales vamos a ver en los próximos módulos.

Características de la distribución

 Todos los valores de χ2 son positivos.


 Es una curva sesgada hacia la derecha.
 La media de la distribución son sus grados de libertad.

8
Figura 4: Distribuciones chi cuadrado con diferentes grados de libertad

9
Referencias
Aaron y Aaron (2001). Capítulo 5.

Blalock, H. (1978). Introducción A La Investigación Social. Capítulos XI Y XII.

10

También podría gustarte