Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El teorema central del límite (TCL) es una teoría estadística que establece que, dada una muestra
aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá
una distribución normal.
Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media
muestral se acercará a la media de la población. Por tanto, mediante el TCL podemos definir la
distribución de la media muestral de una determinada población con una varianza conocida. De
manera que la distribución seguirá una distribución normal si el tamaño de la muestra es lo
suficientemente grande.
Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil.
Porque la distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y
construcción de intervalos de confianza. En estadística que una distribución sea normal es
bastante importante, dado que muchos estadísticos requieren este tipo de distribución. Además,
el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y
esto es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una
población.
Ahora bien, siguiendo al TCL podemos coger una muestra de estas 500 empresas para realizar el
análisis. La única limitación que tenemos es que en la muestra tiene que haber más de 30
compañías para que se cumpla el teorema. Entonces imaginemos que cogemos 50 compañías del
índice de manera aleatoria y repetimos el proceso varias veces. Los pasos a seguir del ejemplo
serían los siguientes:
Elegimos la muestra de unas 50 compañías y obtenemos la rentabilidad media de la
totalidad de la muestra.
El teorema del límite central: las medias de muestras grandes y aleatorias son aproximadamente
normales
El teorema del límite central es un teorema fundamental de probabilidad y estadística. El teorema
describe la distribución de la media de una muestra aleatoria proveniente de una población con
varianza finita. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de
las medias sigue aproximadamente una distribución normal. El teorema se aplica
independientemente de la forma de la distribución de la población. Muchos procedimientos
estadísticos comunes requieren que los datos sean aproximadamente normales. El teorema de
límite central le permite aplicar estos procedimientos útiles a poblaciones que son
considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la
distribución original. Si la distribución de la población es simétrica, un tamaño de muestra de 5
podría producir una aproximación adecuada. Si la distribución de la población es
considerablemente asimétrica, es necesario un tamaño de muestra más grande. Por ejemplo, la
distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor
que 50. Las siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de la
muestra que se necesita.
En el caso de sumar variables aleatorias normales, la aproximación anterior no es tal, sino que es
una distribución exacta, como hemos visto anteriormente.
Si, en vez de sumar variables, realizamos la media aritmética de las mismas, también podemos
utilizar el teorema central del límite (puesto que la media aritmética es sumar y luego dividir por
una constante).
Este teorema (del que damos únicamente una idea general, sin establecer las hipótesis
matemáticas reales) establece la importancia de la distribución normal. Su resultado es que,
cuando se suma un número grande de variables aleatorias, la variable resultante es una variable
con distribución aproximadamente igual a la distribución normal. Incluso, el término número
grande (porque matemáticamente el teorema se establece cuando n
tiende a infinito) no lo es tanto, porque, en la práctica, con tener que n sea un número mayor o
igual a 30, la aproximación ya proporciona buenos resultados.
Además, el teorema es cierto independientemente de la distribución que sigan las variables que se
sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita es saber su
media y su varianza.
La proporción muestral de una característica A es el número de veces que dicha
característica A aparece en una muestra. Por ejemplo, si A representa tener una
enfermedad cualquiera, p=P(A)
puede representar estar de acuerdo o no con algo, tener trabajo o no, etc.
(cualquier cosa que admita solo 2 posibilidades complementarias).
Cada vez que consideramos una persona, podemos considerar la variable de Bernoulli X
De esta manera, la proporción muestral que acabamos de definir se puede considerar como
^p=X1+X2+...Xnn,
o no la tenga.
De manera que, si n
es grande, por el teorema central del límite, la variable suma X1+X2+…+Xn se aproximará
mediante una distribución normal, de media la suma de las medias (cada variable de
Bernoulli tiene de media p) y de desviación típica la raiz cuadrada de la suma de varianzas
(y cada variable de Bernoulli tiene de varianza p⋅(1−p)). En consecuencia, la variable
suma Y verificará: Y=X1+X2+...+Xn ≈ N(μ,σ) donde μ=p+p+...+p=np y
σ=√ p⋅(1−p)+...+p⋅(1−p) =√ np(1−p)
que vale 1 si sale cara y 0 si sale cruz es una variable de Bernoulli. Si lanzamos una
moneda, por ejemplo, 200 veces, la variable que mide el número de caras que salen es una
suma de 200 variables (Xi cuenta 1 o 0 si sale cara en el lanzamiento i).
veces (cada operación es lanzar la moneda 200 veces). La primera vez pueden salir 115
caras, la segunda 94, etc. Se supone que el número de caras andará cerca de 100 (es la
media, 200⋅0.5).
¿Qué tipos de estimaciones y características se emplean?
Consideraciones importantes
Las distribuciones de probabilidad se distinguen entre las variables discretas y las
continuas, distinción que se basa en el tipo de valores que puede tomar la variable:
numerable (normalmente finito) o innumerable. Entre las primeras, la más importante es la
distribución binomial (particularidad de la multinomial), con un buen número de
aplicaciones de carácter práctico. Y entre las segundas, la más importante es la
distribución normal, a la cual se ajustan fenómenos de 120
carácter biológico, psicológico, económico, etc. Las distribuciones más
frecuentemente utilizadas en la investigación además de la distribución
normal y la binomial, son la F de Snedecor, la t de Student y la Ji-Cuadrado,
entre otras. La mayoría de valores observados sobre variables continuas a
nuestro alrededor suelen aproximarse a una distribución normal. Esta es
una función de distribución que ofrece un gran interés por las múltiples
aplicaciones que presenta. Por ejemplo, el área bajo la curva normal está
tabulado y se interpreta en términos de probabilidad, proporción o
porcentaje. Los manuales de estadística suelen incluir tablas estadísticas de
las distribuciones más importantes, a pesar de aparecer tanto los valores de
los test, como los de su probabilidad asociada en cualquier programa de
análisis estadístico que facilitan su computación e interpretación. En nuestro
caso, el Anexo contiene las tablas estadísticas que se han comentado
durante este capítulo. Antes de realizar pruebas estadísticas se debería
comprobar que la variable de interés procede de una distribución normal
(supuesto de normalidad), para poder aplicar posteriormente pruebas
paramétricas o no paramétricas.