Está en la página 1de 8

Intervalos de confianza: otras

consideraciones

Intervalos de confianza y probabilidades de cobertura


Un intervalo de confianza (IC) es un intervalo de la forma (a, b), que se construye a partir de
los datos. El propósito de un IC es cubrir un parámetro poblacional desconocido con “alta
probabilidad” (usamos probabilidad aquí ya que no es posible construir un intervalo que esté
garantizado para cubrir siempre el parámetro poblacional de interés). Por ejemplo, si
queremos estimar el índice de masa corporal (IMC) medio en una población de personas,
donde el IMC medio verdadero es 25,5, entonces el intervalo (24, 26,2) cubriría el objetivo,
mientras que el intervalo (26,1, 28) ) no lo haría.

El intervalo de confianza se define a través de su límite de confianza inferior (LCB) y su


límite de confianza superior (UCB) , que son funciones de los datos. El parámetro de
población de interés, denotado aquí por θ ( theta ), es una constante desconocida. En el
ejemplo anterior, θ = 25,5. La “probabilidad de cobertura” del intervalo de confianza es la
probabilidad de que LCB <= θ <= UCB, escrito P (LCB <= θ <= UCB). La probabilidad de
cobertura la establece el investigador y, en la mayoría de los casos, se establecerá en el 95%.

La probabilidad de cobertura se define en términos de muestreo repetido (hipotético) de


múltiples conjuntos de datos de la población de interés. En muchas de estas muestras
repetidas, construyendo un IC de cada muestra, habrá una fracción de los intervalos de
confianza que cubren el objetivo. Esta fracción es la probabilidad de cobertura.

Un intervalo de confianza más amplio hará que sea más fácil cubrir el objetivo que uno más
estrecho. Por otro lado, un intervalo muy amplio no es muy informativo (imagínese si
informamos que la fracción de votantes que apoyan a un candidato en particular en una
elección es del 55%, con un IC del 95% que va del 2% al 98%). Por lo tanto, el objetivo
principal al construir un intervalo es "adaptarse a los datos", produciendo un intervalo más
amplio cuando la potencia es baja y la incertidumbre es alta, y un intervalo más estrecho
cuando la potencia es alta y la incertidumbre es baja.

Idealmente, la probabilidad de cobertura "real" de un intervalo de confianza obtenido en la


práctica coincidirá con la probabilidad de cobertura prevista o "nominal". Pero un CI puede no
funcionar como se desea. Esto se debe a que un CI puede usarse en un entorno donde se
violan las condiciones bajo las cuales se derivó. Aquí exploraremos algunas razones comunes
por las que esto puede ocurrir.

La probabilidad de cobertura real de un intervalo de confianza puede ser menor que el nivel de
cobertura nominal (produciendo un intervalo "anti-conservador") o mayor que el nivel de
cobertura nominal (produciendo un intervalo "conservador"). Aunque un intervalo conservador
a menudo se considera un poco más favorable que un intervalo anti-conservador, ambos
resultados son indeseables; deseamos obtener un intervalo cuya cobertura real sea lo más
cercana posible a la probabilidad de cobertura nominal.

Es importante reiterar que, en la práctica, obtenemos un intervalo de confianza de una


muestra. Este IC cubre o no cubre el valor objetivo. Para un conjunto de datos específico, no
sabemos si el IC derivado de él cubre realmente el valor objetivo, pero esto es algo que es
verdadero o falso: no hay probabilidad involucrada cuando se habla de si un IC específico
cubre el valor objetivo.

Rara vez tenemos varias muestras independientes de la misma población, por lo que
normalmente no podemos verificar que un intervalo de confianza alcance su probabilidad de
cobertura deseada. Para asegurarnos de que se alcanza la cobertura deseada, podemos
estudiar las propiedades teóricas que estarían garantizadas para dar como resultado la tasa
de cobertura deseada. También podemos usar simulaciones por computadora para evaluar
cómo funciona un método dado para construir IC en varios escenarios hipotéticos. Los
estadísticos utilizan ambos enfoques al evaluar el rendimiento de los intervalos de confianza
en entornos particulares.

Los intervalos de confianza que hemos visto hasta ahora se construyen utilizando dos
cantidades clave:

1. una estimación insesgada de un parámetro de población, y

2. el error estándar de esta estimación.

Por ejemplo, si estamos interesados en estimar la media poblacional en base a una muestra
de datos independiente e idénticamente distribuida (iid), la estimación insesgada es la media
muestral (x̄ o x_bar), y el error estándar de esta estimación es s / sqrt (n) (o σ / √n), donde s es
la desviación estándar de los datos y n es el tamaño de la muestra.

Muchos intervalos de confianza se construyen utilizando la forma "estimación puntual +/- K


errores estándar". Por ejemplo, cuando se trabaja con la media muestral x̄ (x_bar), el intervalo
es x̄ +/- 1,96 σ / √n. La constante K es elegido para dar el nivel de cobertura deseado.
Específicamente, necesitamos que el "puntaje Z" (x̄ - mu) / s caiga entre -K y K con
probabilidad alfa. Mientras esto se mantenga, entonces el intervalo x̄ +/- K * σ / √n tendrá la
probabilidad de cobertura deseada La constante K juega un papel muy importante en la
determinación de las propiedades de un CI, y se discutirá con más detalle a continuación.

Construyendo intervalos de confianza


Hay dos formas en que podemos obtener valores de K para usar en la construcción del IC. Un
enfoque se basa en suponer que los datos son independientes y están distribuidos de forma
idéntica y siguen una distribución normal (gaussiana). Si este es el caso, la puntuación Z sigue
una distribución t de Student con n-1 grados de libertad. Si establecemos K igual al cuantil 1 -
(1 - ɑ) / 2 de la distribución t de Student con n-1 grados de libertad, entonces el intervalo
resultante tendrá la tasa de cobertura deseada. Los valores de K construidos a partir de la
distribución t de Student variarán de 2 a 2,5 para intervalos de cobertura del 95% si el tamaño
de la muestra es mayor que 5 (las muestras menores de 5 observaciones son raras en la
práctica). Por lo tanto, la mayoría de los IC se construirán tomando un "margen de error"
alrededor de la estimación puntual que es entre 2 y 2,5 veces el error estándar.

Una base alternativa y de aplicación mucho más amplia para obtener un valor de K es utilizar
el "teorema del límite central" (CLT). El CLT establece que la media muestral de valores
independientes e idénticamente distribuidos tendrá una distribución aproximadamente normal.
El CLT también implica que la puntuación Z tendrá una distribución aproximadamente normal.
Es importante destacar que el CLT ofrece estas garantías incluso cuando los valores de los
datos individuales tienen distribuciones que no son normales, siempre que el tamaño de la
muestra sea "suficientemente grande". Hay algunas condiciones técnicas adicionales
necesarias para que el CLT sea aplicable, pero no las discutiremos aquí.

Desafortunadamente, no existe una regla universal que defina qué tan grande debe ser el
tamaño de la muestra para invocar el teorema del límite central. En general, si la distribución
de datos es cercana a la normal, entonces los puntajes Z estarán cerca de la distribución
normal incluso cuando el tamaño de la muestra sea bastante pequeño (por ejemplo, alrededor
de 10). Si los valores de los datos individuales están lejos de estar distribuidos normalmente
(por ejemplo, están muy sesgados o tienen colas gruesas), entonces el CLT puede no ser
relevante hasta que el tamaño de la muestra sea mayor, digamos alrededor de 50.

Siempre que podamos justificar la invocación del CLT, es apropiado utilizar el cuantil 1 - (1 - ɑ)
/ 2 de la distribución normal para definir K, lo que lleva a establecer K = 1,96 para lograr un
valor (aproximado) de 95 % de probabilidad de cobertura. Por lo tanto, la normalidad de los
valores de los datos individuales no es necesaria para que un IC tenga buenas propiedades
de cobertura. Es una buena práctica inspeccionar la distribución de una muestra antes de
proceder a construir un intervalo de confianza para su media, por ejemplo, mirando un
histograma o un gráfico de cuantiles de los datos. Pero no es necesario que esto muestre una
distribución casi normal para que el intervalo de confianza sea significativo, a menos que el
tamaño de la muestra sea muy pequeño y los datos sean muy anormales.

Otra práctica común es usar K calculado a partir de la distribución t de Student, incluso


cuando los datos no se consideran normales. La razón fundamental para hacer esto es que,
aunque las puntuaciones Z no siguen una distribución t de Student en este entorno, los
valores de K obtenidos mediante la distribución t siempre serán ligeramente mayores que
1,96. Por lo tanto, la cobertura será ligeramente mayor cuando se usa la distribución t para
calcular K en comparación con cuando se usa la distribución normal. El uso de un valor
ligeramente mayor de K ayuda a compensar varios factores posibles que podrían llevar a que
los puntajes Z tengan una cola ligeramente más pesada de lo que predice una distribución
normal. A medida que crece el tamaño de la muestra, los valores de K obtenidos de las
distribuciones normal y t serán muy similares.

Procedimientos alternativos para situaciones


desafiantes
Hay algunas formas de reducir el riesgo de que una fuerte anormalidad dé lugar a intervalos
de confianza con un rendimiento deficiente. Con el fin de proporcionar algo de exposición a los
tipos de procedimientos que utilizan los estadísticos para realizar inferencias en situaciones
desafiantes, a continuación se analizan dos de estos enfoques.

Cuando se trabaja con las proporciones de la muestra, es común agregar dos "éxitos" y dos
"fracasos" adicionales a los datos antes de calcular la proporción. Por lo tanto, si observamos
5 éxitos y 7 fracasos, en lugar de estimar la tasa de éxito como 5 / (5 + 7), la estimamos como
7 / (7 + 9). El error estándar también se estima usando este ajuste. El intervalo de confianza
resultante generalmente tiene mejores propiedades de cobertura que el IC habitual cuando el
tamaño de la muestra es pequeño. Este intervalo se denomina a menudo intervalo "Agresti-
Coull", en honor a sus inventores.

Cuando se trabaja con datos muy sesgados, otra técnica práctica para mejorar las
propiedades de cobertura de los intervalos es transformar los datos con una transformación de
reducción de sesgo, por ejemplo, una transformación logarítmica, luego calcular el intervalo de
la forma habitual (como se describe anteriormente) utilizando el método transformado datos.
El intervalo resultante se puede transformar de nuevo a la escala original aplicando la
transformación inversa a LCB y UCB. Por ejemplo, si la transformación es el logaritmo natural,
la transformación inversa sería exponencializar (anti-log) el LCB y UCB.

Conclusión
En resumen, aunque la normalidad de los datos puede desempeñar un papel en la
determinación de las propiedades de cobertura de un intervalo de confianza, generalmente no
es un factor importante a menos que el tamaño de la muestra sea bastante pequeño (mucho
menor que 50), o si los datos no son muy importantes. -normal. En la mayoría de los casos, es
más probable que otros factores además de la gaussianidad de los valores de los datos
individuales den lugar a una cobertura subóptima. Dos de estos factores que pueden causar
problemas importantes con las probabilidades de cobertura de IC son la agrupación u otras
formas de dependencia en los datos, y las pruebas previas o la multiplicidad en el análisis,
abiertas u ocultas. La agrupación se discutirá ampliamente en el Curso 3. Discutiremos la
multiplicidad en la Semana 3 de este curso.

¿Qué afecta el error estándar de una


estimación?

Hasta ahora en la especialización, hemos estado enfatizando la importancia del error


estándar de una estimación estadística para hacer inferencias sobre el parámetro que se
estima. Recuerde de la semana 4 del primer curso de esta especialización que esta cantidad
nos proporciona una estimación de la desviación estándar de la distribución muestral de
estimaciones que surgirían si hubiéramos extraído muestras repetidas del mismo tamaño y
calculado la misma estimación para cada distribución aleatoria. muestra. En un sentido
simplificado, el error estándar nos da una idea de la incertidumbre asociada con nuestra
estimación. Por tanto, las estimaciones con errores estándar más pequeños se consideran
más precisas.

Entonces, ¿qué impacta exactamente un error estándar en términos del diseño de un estudio?
A continuación se muestra una lista de características de diseño que generalmente afectarían
el error estándar de una estimación. Claramente, hay un componente de costo asociado con
esta lista, ya que algunas de las características del diseño ciertamente requerirían más
recursos financieros.

1) La varianza de las variables de interés que se utilizan para calcular la


estimación.

En general, cuanta más variabilidad esté asociada con una determinada variable que se esté
midiendo, más imprecisas serán las estimaciones basadas en esa variable. Esto hace que la
medición cuidadosa y precisa de las variables de interés sea muy importante para cualquier
estudio dado.
2) El tamaño de la muestra.

Las muestras más grandes tenderán a producir distribuciones muestrales con menos
variabilidad (o, en otras palabras, estimaciones con errores estándar más pequeños). Cuanta
más muestra se pueda medir, mejor, pero también debemos pensar detenidamente en el
primer punto anterior. El hecho de que tengamos un conjunto de "macrodatos" no significa que
tengamos una colección de mediciones precisas. Medidas muy inusuales (valores atípicos)
podrían tener una gran influencia en la varianza de una variable dada, y esto requiere una
evaluación descriptiva cuidadosa.

3) La cantidad de dependencia en las observaciones recopiladas, posiblemente


debido al muestreo por conglomerados.

En los estudios en los que se miden conglomerados de unidades con características similares,
los datos recopilados no serán del todo independientes con un conglomerado determinado
(barrio, clínica, escuela, etc.). Esto se debe a que las unidades que provienen del mismo
grupo generalmente tendrán valores similares en las variables de interés, y esto podría
suceder por una variedad de razones. Esta falta de independencia en las observaciones
recopiladas reduce nuestro tamaño de muestra efectivo; no tenemos tanta información única
como sugeriría el tamaño de nuestra muestra. Podemos explicar esta dependencia dentro de
los conglomerados mediante el uso de procedimientos estadísticos especializados para
estimar los errores estándar de una manera que tenga en cuenta el muestreo por
conglomerados. El mismo problema surge en los estudios longitudinales, donde recopilamos
mediciones repetidas de los mismos individuos a lo largo del tiempo. Si bien puede parecer
que tenemos una gran muestra de observaciones, muchas de estas observaciones estarán
fuertemente correlacionadas entre sí, y debemos tenerlo en cuenta. En general, con estos
tipos de datos agrupados, los errores estándar tenderán a ser mucho mayores, porque las
estimaciones calculadas en diferentes estudios dependerán por completo de los grupos que
se estén estudiando. Si los conglomerados tienden a variar sustancialmente en términos de
las medidas de interés, ¡aumentará la variabilidad de la distribución muestral! Además, cuanto
mayor sea el tamaño de la muestra seleccionada de cada conglomerado (y, por tanto, más
pequeña sea la muestra de conglomerados), mayores tenderán a ser los errores estándar.

4) La estratificación de la muestra objetivo.

Si seleccionamos una muestra estratificada de una población objetivo (ver la Semana 4 del
Curso 1), tendremos a producir estimaciones con mayor precisión, ¡porque estamos
eliminando la varianza entre estratos de la variabilidad de nuestras estimaciones por diseño!
La estratificación de las muestras es siempre una consideración importante, por este motivo.
5) El uso de ponderaciones muestrales para calcular nuestras estimaciones.

Si bien las ponderaciones muestrales suelen ser necesarias para calcular estimaciones de
población no sesgadas, el uso de ponderaciones en la estimación puede inflar la varianza de
nuestras estimaciones. Podemos utilizar procedimientos estadísticos especializados para
asegurarnos de que nuestros errores estándar reflejen la incertidumbre en nuestras
estimaciones debido a la ponderación. En general, cuanto mayor sea la variabilidad en
nuestras ponderaciones, más variables serán nuestras estimaciones.

Estas cinco características son generalmente los principales impulsores de errores estándar,
pero otras características de diseño también pueden afectar en última instancia a los errores
estándar (por ejemplo, imputación de datos faltantes). Los abordaremos a lo largo de la
especialización.

Para aclarar estos puntos, la figura siguiente simula nueve distribuciones de muestreo para
una media de población basada en combinaciones de tamaño de muestra (n = 500, 1000 y
5000) y el tamaño de los conglomerados (sin conglomerados, conglomerados con 10
unidades muestreadas de cada uno). y conglomerados con 50 unidades muestreadas de cada
uno) en un diseño de muestra de conglomerados. Los efectos de estas decisiones de diseño
sobre la variabilidad de las distribuciones muestrales son claros: con tamaños de muestra más
grandes (bajando por las columnas), la extensión de la distribución muestral se reduce
(¡errores estándar más bajos!). Con conglomerados más grandes, la extensión de la
distribución muestral aumenta (¡errores estándar más altos!).
https://integratedmlai.com/normal-distribution-an-introductory-guide-to-pdf-and-cdf/

También podría gustarte