Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de probabilidad
Metodología de
Análisis de Datos
Cuantitativos
1
Distribuciones de probabilidad
La distribución de muestreo de un estadístico es la distribución de
probabilidad que puede obtenerse como resultado de considerar todas las
muestras aleatorias independientes posibles, cada una de tamaño n
provenientes de la población de interés.
Recorreremos a continuación las características de las principales
distribuciones teóricas de probabilidad, a través de las cuales es posible
describir las distribuciones en el muestreo de los estadísticos de interés, a
medida que las requiramos.
Distribución Normal
La distribución normal es de amplia difusión debido a una serie de razones:
2
Forma
Parámetros
3
Función de densidad
4
suma de variables aleatorias (ya que los casos que efectivamente forman
parte de esta media surgieron de una muestra aleatoria).
Esta media muestral es una variable aleatoria con distribución normal, con
valor esperado μ y varianza 𝜎2/n (o lo que es lo mismo, con desviación
estándar de la media muestra o error estándar de la media muestral, igual a
𝜎/ √n ). Como puede verse en esta fórmula, a medida que mayor sea el
tamaño de la muestra, menor será el grado de dispersión de la media
muestral, es decir, la fluctuación entre medias muestrales extraídas de la
misma población será mínima en el caso de muestras cuyo tamaño es muy
elevado.
Si las muestras fueran tomadas de una población finita (sin reposición), debe
de introducirse un factor de corrección para poblaciones finitas (fcpf) para
calcular el error estándar de la media. Este error estándar de la media será:
5
Eficiencia: Indica la precisión de la muestra de estadística como un estimador
del parámetro de población. Para distribuciones normales, la media
aritmética es más estable de muestra a muestra que otras medidas de
tendencia central. Para una muestra de tamaño n, la media de la muestra
estará más cerca, en promedio, a la media de población que cualquier otro
estimador.
Consistencia: Tiene en cuenta al efecto del tamaño de muestra sobre la
utilidad de un estimador. Al aumentar el tamaño de muestra, la variabilidad
de la media de muestra respecto de la media de población se hace más
pequeña, de manera que la media aritmética de la muestra se vuelve cada
vez más cercana al valor del parámetro a medida que aumenta el tamaño de
la muestra y por ende se obtiene una mejor estimación de la media de
población.
Distribución “t de Student”
En muchas ocasiones no se conoce 𝜎 y el número de observaciones en la
muestra es menor de 30. En estos casos, se puede utilizar la desviación
estándar de la muestra, S, como una estimación de 𝜎. Pero, como no se
dispone del valor de la desviación estándar poblacional ya que no es posible
usar la variable normal Z como estadístico de prueba. En su lugar, puede
emplearse la distribución t.
para v > 2, donde “v” son los grados de libertad. Cuando los grados de
libertad son suficientemente grandes la varianza de la distribución t tiende
a 1.
6
aumenta el tamaño de la muestra, la distribución t se aproxima a la
distribución normal estándar.
Grados de libertad:
Existe una distribución t distinta para cada uno de los posibles grados de
libertad. ¿Pero, a qué nos referimos con la expresión grados de libertad? Son
el número de valores que podemos elegir libremente de un conjunto de
datos.
Si tenemos una muestra de tamaño n=3 y sabemos que tiene una media de
12. Por definición de la media sabemos que (x1 + x2 + x3)/3 = 12
Dos de estos valores podrían ser cualquier número, sin embargo el tercer no
podrá ser otra cosa que la diferencia de 36 menos la suma de los otros dos
números. Por lo tanto en este problema hay sólo n - 1 = 2 grados de libertad.
Despejando la ecuación del párrafo anterior podrás llegar a la misma
conclusión.
7
En el caso de muestras grandes, la distribución de p se distribuye normal.
Será este el caso cuando se cumplan las siguientes condiciones:
1) n*p > 5
2) n*(1 – p) > 5
Distribución χ2
La distribución χ2 (se lee “chi” cuadrado”) es en realidad una familia
completa de distribuciones. Hay una distribución diferente para cada valor
de los grados de libertad. A medida que aumentan los grados de libertad la
función se vuelve más simétrica. Para grados de libertad superiores a 30 la
distribución se aproxima a la normal.
Esta distribución es importante cuando se desea hacer una inferencia con
respecto a la varianza poblacional basada en una muestra aleatoria tomada
de una población normal.
También tiene aplicaciones en las pruebas de independencia, bondad de
ajuste y proporciones las cuales vamos a ver en los próximos módulos.
Características de la distribución
8
Figura 4: Distribuciones chi cuadrado con diferentes grados de libertad
9
Referencias
Aaron y Aaron (2001). Capítulo 5.
10