Está en la página 1de 9

Teorema central del límite

El teorema central del límite (TCL) es una teoría estadística que establece que, dada una muestra
aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá
una distribución normal.
Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media
muestral se acercará a la media de la población. Por tanto, mediante el TCL podemos definir la
distribución de la media muestral de una determinada población con una varianza conocida. De
manera que la distribución seguirá una distribución normal si el tamaño de la muestra es lo
suficientemente grande.

Principales propiedades del teorema central del límite


El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito
estadístico y probabilístico. Las principales son:

 Si el tamaño de la muestra es suficientemente grande, la distribución de las medias


muestrales seguirá aproximadamente una distribución normal. El TCL considera una
muestra como grande cuando el tamaño de la misma es superior a 30. Por tanto, si la
muestra es superior a 30, la media muestral tendrá una función de distribución próxima a
una normal. Y esto se cumple independientemente de la forma de la distribución con la
que estamos trabajando.

 La media poblacional y la media muestral serán iguales. Es decir, la media de la


distribución de todas las medias muestrales será igual a la media del total de la población.

 La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de la


población dividido entre el tamaño de la muestra.

Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil.
Porque la distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y
construcción de intervalos de confianza. En estadística que una distribución sea normal es
bastante importante, dado que muchos estadísticos requieren este tipo de distribución. Además,
el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y
esto es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una
población.

Ejemplo del teorema central del límite


Imaginemos que queremos analizar las rentabilidades medias históricas del índice S&P 500, que
como sabemos, tiene unas 500 compañías dentro del mismo. Pero no tenemos suficiente
información como para analizar la totalidad de las 500 compañías del índice. En este caso la
rentabilidad media del S&P 500 sería la media poblacional.

Ahora bien, siguiendo al TCL podemos coger una muestra de estas 500 empresas para realizar el
análisis. La única limitación que tenemos es que en la muestra tiene que haber más de 30
compañías para que se cumpla el teorema. Entonces imaginemos que cogemos 50 compañías del
índice de manera aleatoria y repetimos el proceso varias veces. Los pasos a seguir del ejemplo
serían los siguientes:
 Elegimos la muestra de unas 50 compañías y obtenemos la rentabilidad media de la
totalidad de la muestra.

 De manera continuada seguimos escogiendo 50 compañías y obtenemos la rentabilidad


media.

 La distribución de todas las rentabilidades medias de todas las muestras escogidas se


aproximará a una distribución normal.

 Las rentabilidades medias de todas las muestras seleccionadas se aproximarán a la


rentabilidad media del total del índice. Tal y como demuestra el teorema Central del
Límite.

Por tanto, mediante inferencia de la rentabilidad media de la muestra podemos acercarnos a la


rentabilidad media del índice.

El teorema del límite central: las medias de muestras grandes y aleatorias son aproximadamente
normales
El teorema del límite central es un teorema fundamental de probabilidad y estadística. El teorema
describe la distribución de la media de una muestra aleatoria proveniente de una población con
varianza finita. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de
las medias sigue aproximadamente una distribución normal. El teorema se aplica
independientemente de la forma de la distribución de la población. Muchos procedimientos
estadísticos comunes requieren que los datos sean aproximadamente normales. El teorema de
límite central le permite aplicar estos procedimientos útiles a poblaciones que son
considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la
distribución original. Si la distribución de la población es simétrica, un tamaño de muestra de 5
podría producir una aproximación adecuada. Si la distribución de la población es
considerablemente asimétrica, es necesario un tamaño de muestra más grande. Por ejemplo, la
distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor
que 50. Las siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de la
muestra que se necesita.

Muestras de una población uniforme


Una población que sigue una distribución uniforme es simétrica, pero marcadamente no normal,
como lo demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000
muestras de tamaño 5 de esta población es aproximadamente normal debido al teorema del
límite central, como lo demuestra el segundo histograma. Este histograma de las medias de las
muestras incluye una curva normal superpuesta para ilustrar esta normalidad.

Muestras de una población exponencial


Una población que sigue una distribución exponencial es asimétrica y no normal, como lo
demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de
tamaño 50 de esta población es aproximadamente normal debido al teorema del límite central,
como lo demuestra el segundo histograma. Este histograma de las medias de las muestras incluye
una curva normal superpuesta para ilustrar esta normalidad.
Este teorema asegura, de manera esquemática, que, cuando sumamos un número grande de
variables, la variable resultante sigue una distribución normal.
De manera general, si X1,X2,...,Xn
Son variables de media o esperanza μi=E(Xi) y varianza σ2i=Var(Xi), i=1,...,n, se
verifica que la variable suma Y=X1+X2+...+Xn (si n es un número tendiendo a infinito)
se puede aproximar por una variable normal, de media la suma de las medias y varianza la
suma de varianzas (desviación típica = raiz de la suma de varianzas), es decir

En el caso de sumar variables aleatorias normales, la aproximación anterior no es tal, sino que es
una distribución exacta, como hemos visto anteriormente.
Si, en vez de sumar variables, realizamos la media aritmética de las mismas, también podemos
utilizar el teorema central del límite (puesto que la media aritmética es sumar y luego dividir por
una constante).
Este teorema (del que damos únicamente una idea general, sin establecer las hipótesis
matemáticas reales) establece la importancia de la distribución normal. Su resultado es que,
cuando se suma un número grande de variables aleatorias, la variable resultante es una variable
con distribución aproximadamente igual a la distribución normal. Incluso, el término número
grande (porque matemáticamente el teorema se establece cuando n
tiende a infinito) no lo es tanto, porque, en la práctica, con tener que n sea un número mayor o
igual a 30, la aproximación ya proporciona buenos resultados.
Además, el teorema es cierto independientemente de la distribución que sigan las variables que se
sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita es saber su
media y su varianza.
La proporción muestral de una característica A es el número de veces que dicha
característica A aparece en una muestra. Por ejemplo, si A representa tener una
enfermedad cualquiera, p=P(A)

es la probabilidad de que una persona tenga la enfermedad.

Si se seleccionan, de manera independiente, n

personas, tenemos una muestra de n individuos de esa población, y la proporción muestral


es: ^p=número de individuos en la muestra con esa enfermedad. En vez de tener
una enfermedad, A

puede representar estar de acuerdo o no con algo, tener trabajo o no, etc.
(cualquier cosa que admita solo 2 posibilidades complementarias).

Cada vez que consideramos una persona, podemos considerar la variable de Bernoulli X

=tiene la enfermedad (o característica) A. Esta variable toma los valores 1 con


probabilidad p y 0 con probabilidad 1−p
.

De esta manera, la proporción muestral que acabamos de definir se puede considerar como
^p=X1+X2+...Xnn,

donde X1 es la variable X en el individuo 1,…, Xn es la variable X en el individuo n, es


decir vale 1 o 0 en cada individuo, según tenga la característica A

o no la tenga.

De manera que, si n

es grande, por el teorema central del límite, la variable suma X1+X2+…+Xn se aproximará
mediante una distribución normal, de media la suma de las medias (cada variable de
Bernoulli tiene de media p) y de desviación típica la raiz cuadrada de la suma de varianzas
(y cada variable de Bernoulli tiene de varianza p⋅(1−p)). En consecuencia, la variable
suma Y verificará: Y=X1+X2+...+Xn ≈ N(μ,σ) donde μ=p+p+...+p=np y
σ=√ p⋅(1−p)+...+p⋅(1−p) =√ np(1−p)

. Supongamos ahora que lanzamos una moneda. La variable X

que vale 1 si sale cara y 0 si sale cruz es una variable de Bernoulli. Si lanzamos una
moneda, por ejemplo, 200 veces, la variable que mide el número de caras que salen es una
suma de 200 variables (Xi cuenta 1 o 0 si sale cara en el lanzamiento i).

Supongamos que repetimos esta operación 10

veces (cada operación es lanzar la moneda 200 veces). La primera vez pueden salir 115
caras, la segunda 94, etc. Se supone que el número de caras andará cerca de 100 (es la
media, 200⋅0.5).
¿Qué tipos de estimaciones y características se emplean?

La estadística está dividida en descriptiva e inferencial donde la estadística Descriptiva se relaciona


principalmente con la recopilación, presentación y descripción de datos. Y la estadística Inferencial
está formada por un conjunto de métodos o técnicas utilizadas para la toma de decisiones o
establecer conclusiones de una población. Para que la estadística inferencial sea efectiva sobre las
conclusiones de una población, se requiere que las muestras seleccionadas de dicha población,
sean muestras aleatorias. Los métodos estadísticos hacen uso de la información contenida en la
muestra aleatoria y con base a esa información, se interpreta, se infiere y se toman las decisiones
de la población.

Concepto de función de distribución


Siempre que se quiera realizar un estudio, debemos medir la(s) variable(s)
que caracterizan los resultados del mismo. Tales variables se conocen como
variables aleatorias. Decimos que una variable es continua si puede tomar
cualquier valor en un intervalo conocido (por ejemplo, TAS) y es discreta si sólo
puede tomar algunos valores (respuesta completa, respuesta parcial, enferme-
dad estable).
Imaginemos que obtenemos una muestra de los valores de TAS de 100 pacientes; si los
agrupáramos en pequeños grupos de igual rango de valores de presión arterial, es decir,
un grupo cada 5 mmHg y contásemos cuántos hay en cada grupo, podríamos dibujar un
gráfico o histograma como el que se muestra. Si cada vez hiciéramos los intervalos más
estrechos, así como
también aumentáramos el tamaño de muestra veríamos que el histograma tiende a
estabilizarse llegando a convertirse su perfil en la gráfica de una función. De esta forma,
las distribuciones de probabilidad de variables continuas se definen
mediante una función y=f(x) llamada función de probabilidad o función de
densidad y asocia valores de una variable aleatoria con sus respectivas
probabilidades.
El teorema central del límite
El teorema central del límite es uno de los resultados fundamentales de la estadística.
Este teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el
tamaño muestral (n) supera los 30), sea cual sea la distribución de la media muestral,
seguirá aproximadamente una distribución normal. Es decir, dada cualquier variable
aleatoria, si extraemos muestras de tamaño n (n>30) y calculamos los promedios
muestrales, dichos promedios seguirán una distribución normal. Además, la media será la
misma que la de la
variable de interés, y la desviación estándar de la media muestral será aproxima-
da mente el error estándar. Un caso concreto del teorema central del límite es la
distribución binomial. A partir de n=30, la distribución binomial se comporta
estadísticamente como una normal, por lo que podemos aplicar los testes estadísticos
apropiados para esta distribución. La importancia del teorema central del límite radica en
que, mediante un conjunto de teoremas, se desvela las razones por las cuales, en
muchos campos
de aplicación, se encuentran en todo momento distribuciones normales o casi normales.

Consideraciones importantes
Las distribuciones de probabilidad se distinguen entre las variables discretas y las
continuas, distinción que se basa en el tipo de valores que puede tomar la variable:
numerable (normalmente finito) o innumerable. Entre las primeras, la más importante es la
distribución binomial (particularidad de la multinomial), con un buen número de
aplicaciones de carácter práctico. Y entre las segundas, la más importante es la
distribución normal, a la cual se ajustan fenómenos de 120
carácter biológico, psicológico, económico, etc. Las distribuciones más
frecuentemente utilizadas en la investigación además de la distribución
normal y la binomial, son la F de Snedecor, la t de Student y la Ji-Cuadrado,
entre otras. La mayoría de valores observados sobre variables continuas a
nuestro alrededor suelen aproximarse a una distribución normal. Esta es
una función de distribución que ofrece un gran interés por las múltiples
aplicaciones que presenta. Por ejemplo, el área bajo la curva normal está
tabulado y se interpreta en términos de probabilidad, proporción o
porcentaje. Los manuales de estadística suelen incluir tablas estadísticas de
las distribuciones más importantes, a pesar de aparecer tanto los valores de
los test, como los de su probabilidad asociada en cualquier programa de
análisis estadístico que facilitan su computación e interpretación. En nuestro
caso, el Anexo contiene las tablas estadísticas que se han comentado
durante este capítulo. Antes de realizar pruebas estadísticas se debería
comprobar que la variable de interés procede de una distribución normal
(supuesto de normalidad), para poder aplicar posteriormente pruebas
paramétricas o no paramétricas.

También podría gustarte