Está en la página 1de 4

TEMA 4 (2º PARTE)

Introducción a la inferencia estadística


Aspectos básicos de la inferencia estadística

La inferencia estadística consiste en averiguar características de una población a partir del estudio de
una muestra de esta.

Supongamos que sabemos que la estatura normal en España sigue una distribución normal N(170,12).

Ahora imaginemos que cogemos varias muestras de tamaño N, por ejemplo 100 personas, y calculamos
su media muestral.

Algunas muestras tendrán =170, otras =169, otras =171… Obteniendo otra curva de Gauss que, al
solaparla con la poblacional resulta ser mucho más platicúrtica.

La curva de distribución de la población es mucho más alargada hacia los extremos, mientras que la de
las medias muestrales es mucho más estrecha y sus valores están muy próximos a µ, con ausencia de
valores extremos. Además, como vemos, lo normal es que la población y las muestras se asemejen
bastante en cuanto a la media.

σ
Como consecuencia de esto, si decíamos que en una población la DE = σ, en la muestra la DE = ,
√N
puesto que, como hemos visto, la curva es mucho más estrecha.

Por tanto, mientras que una distribución poblacional viene definida por N(µ,σ), una distribución
σ
muestral se define como N(µ, ).
√N
(EJEMPLO PÁG 39 PRESENTACIÓN)

Intervalos de confianza para la media poblacional µ

Lo primero que tenemos que plantearnos es si la media muestral x es igual que la media poblacional µ.

Supongamos que tomamos una muestra de 100 personas y medimos su estatura, obteniendo una x
=169cm. ¿Podríamos afirmar con suficiente certeza que µ está entre los siguientes valores?

100 - 238cm → Con seguridad.

140 – 198 cm → Sin duda.

160 – 178 cm → ¿?

168 – 170cm → Muy dudoso.

169cm (μ = x ) → NO.

Por el hecho de haber cogido 100 personas y que su media nos dé 169cm no podemos afirmar que sea
la media de la población.

A partir de la media muestral x puedo general un IC dentro del cual tenemos cierta seguridad de que
estará la media poblacional µ.

No podemos afirmar que la media µ tiene un valor x, pero sí que está, con una cierta seguridad entre 2
valores x 1 y x 2.

Ya habíamos aprendido a calcular el IC para la distribución normal estándar, el cual venía acotado por 2
valores simétricos respecto al 0 llamados - z a ∕ 2y z a ∕ 2. Ahora, lo que queremos calcular son 2 valores
x 1 y x 2 que generen ese mismo intervalo, dentro del cual hay una probabilidad de que esté la media
poblacional µ.

Como partimos de las medias


muestrales, ya sabemos que eso
sigue una distribución
σ
normal (µ, ).
√N
Ahora, para conocer el valor
x 1 y x 2 hay que aplicar la fórmula de la tipificación:

σ
Como vemos, es la fórmula normal de tipificación, pero en el denominar se pone porque estamos
√N
trabajando con medias muestrales.

Como la distribución de las medias sigue una distribución de Gauss, serán de plena aplicación sus
propiedades:

• En el intervalo media ± EEm se encontrará la media de la población 68 de cada 100 veces que
se repita el experimento.
• En el intervalo media ± 1,96 · EEm se encontrará la media de la población 95 de cada 100 veces
que se repita el experimento.
• En el intervalo media ± 2,68 · EEm se encontrará la media de la población 99 de cada 100 veces
que se repita el experimento.

El IC que buscamos viene definido por ( x 1 , x2 ), por lo que nuestro IC será ( x ± error).

Así pues:

σ
IC ( x ± z a ∙ )
2 √N
Esta es la fórmula para calcular los IC a partir de la media muestral para la media poblacional. La
elección del tamaño muestral tiene una gran importancia sobre este concepto puesto ya que, al
aumentar el tamaño muestral (N), como en la fórmula está dividiendo, el IC será más pequeño, por lo
que podemos afirmar que la muestra es más precisa.

A modo de resumen, podemos decir que:

Partiendo de la media muestral, vamos a generar un IC dentro del cual tenemos ciertaseguridad de que
estará la media poblacional µ.

Ese intervalo de confianza viene definido por IC = ( x ± error) donde:


σ
Error = z a ∙
2 √N
Cuanto mayor sea la muestra, más fiable será la media muestral, más pequeño será el error y, por
tanto, más pequeño y específico será el IC.

(EJEMPLO PÁG 47 PRESENTACIÓN)

Contraste de normalidad

Los contrastes o análisis de normalidad tratan de analizar cuánto difiere la distribución de nuestros
datos (los observados en nuestra muestra) respecto a lo que deberíamos esperar si los datos
procediesen de una población en la que la variable siguiese una distribución normal con la misma media
y desviación estándar que la observada en los datos de la muestra.

Las pruebas de contraste de normalidad pueden ser:

• Mediante contraste de hipótesis.


• Mediante métodos gráficos.
• Mediante métodos analíticos.

1. ANÁLISIS DE LA NORMALIDAD MEDIANTE EL CONTRASTE DE HIPÓTESIS.


Parten de la existencia de 2 hipótesis:
◦ H 0 → La distribución cumple criterios de normalidad.
◦ H 1→ La distribución no cumple criterios de normalidad.
Para ello, se deben introducir los datos de la variable aleatoria X en una aplicación informática
(SPSS, Stata, R…), indicar el riesgo α que queramos asumir y realizar alguna de las pruebas de
contraste de normalidad:
➢ Prueba de Shapiro-Wilk: si el tamaño muestral < 50.
➢Prueba de Kolmogorov-Smirnov: muestras > 50. Implica conocer µ y σ.
➢Prueba de Lilliefors: que se aplica en muestras > 50 cuando desconocemos µ y σ.
Una vez realizada la prueba correspondiente, si el p-valor obtenido > 0,05 → No se rechaza H 0 →
Distribución normal.

El problema con estas pruebas, de sencilla realización, es que su resultado debe interpretarse
siempre con cautela:
• Por una parte, son pruebas poco potentes cuando el tamaño de la muestra es pequeño. Al
basarse en la hipótesis nula de normalidad, podemos no alcanzar significación estadística
por falta de potencia estadística, asumiendo erróneamente que los datos siguen una
distribución normal (al no poder rechazar la hipótesis nula).
• Lo contrario sucede cuando la muestra es muy grande: será suficiente una pequeña
desviación de la normalidad para que la prueba nos dé una p significativa y rechacemos la
hipótesis nula, asumiendo la no normalidad de la distribución.
Por ello, es aconsejable completar siempre el análisis de normalidad con un método gráfico y no
quedarnos solo con el método numérico de contraste de hipótesis.

2. ANÁLISIS DE LA NORMALIDAD MEDIANTE MÉTODOS GRÁFICOS.


Observando la representación gráfica de los datos podemos interpretar si su distribución se parece
lo bastante a una normal como para asumir que la variable sigue esa distribución en la población o
si, por el contrario, se aparta de la distribución normal, digan lo que digan los métodos de contraste.
Los tres gráficos más empleados son el histograma, el box-plot y el gráfico de comparación de
cuantiles (o gráfico Q-Q).
3. ANÁLISIS DE LA NORMALIDAD MEDIANTE MÉTODOS ANALÍTICOS.
Están basados en el análisis de dos de los momentos de la distribución normal, el índice de simetría
y el apuntamiento.
Por lo general, se utilizan bastante menos.

También podría gustarte