Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTERVALOS DE CONFIANZA Y
CONTRASTE DE HIPÓTESIS
Tipos de muestreo
Para conocer una característica de una población se toma como referencia
una muestra de dicha población, es decir, un pequeño número de
elementos que representan dicha población.
Tras esto se debe de hacer la inferencia que consiste en utilizar los datos
obtenidos de la muestra, en una población. Sin embargo, siempre nos dará
un error al azar que dependerá del tamaño de la muestra.
Cuanto mayor sea la muestra, menor será el error.
El muestreo se realiza porque no se puede estudiar a toda la población porque es muy caro, largo y puede
ser destructivo (si sacamos todo el potasio de una persona se morirá).
Existen varios tipos de muestreos y la forma de hacer el muestreo influye en la forma de hacer el análisis y a
partir de ahora solo utilizaremos el muestreo aleatorio simple.
Muestreo aleatorio simple
Muestreo estratificado
Muestreo con conglomerado.
En el muestreo aleatorio simple toda persona tiene igual probabilidad de ser elegida para la muestra y
cada persona se elige con independencia de las demás. Esto garantiza la representatividad de la
muestra. Cualquier método al azar que asigne la misma probabilidad a cada individuo es correcto.
Por el otro lado el muestreo en conglomerado consiste en dividir la población en grupos que son
convenientes para el muestreo. Luego seleccionar una porción de los grupos al azar o por un método
sistemático. Finalmente tomar todos estos elementos o parte de ellos al azar por un método sistemático de
los grupos seleccionados para obtener la muestra. Ej.: Si estudiamos la tuberculosis en los colegios de
Cantabria, podemos estudiar 3 colegios. Si se parecen entre sí, podemos escoger al azar uno de ellos y
realizar el estudio solo de ese.
Los errores aleatorios o al azar son aquellos debidos a causas imponderables e imposibles de controlar (No
pueden evitarse). Estos errores se pueden medir y van a disminuir con el aumento del tamaño muestral.
1
Ejemplo:
Supongamos que un individuo está disparando con una escopeta a una diana. Como
tiene mala puntería, los disparos que efectúa estarán muy separados unos de otros,
rodeando la periferia de la diana. Si viésemos la diana por detrás podríamos pensar que
apunta al centro de la diana porque está enmarcado por sus disparos
Son errores que pueden ir en cualquier dirección, son impredecibles. Se trata del error
aleatorio o al azar.
Si la escopeta que utiliza el tirador, tiene la mirilla desviada, desviando los tiros hacia
abajo y a la izquierda, el tirador cuando efectúa muchos disparos apuntando al centro
hará disparos que están muy juntos entre sí pero lejos del centro de la diana. Si viésemos
los impactos por detrás nos equivocaríamos pensando que el centro de la diana está
en medio del espacio circunscrito por los disparos. Se trata del error sistemático o sesgo.
El error al azar no puede evitarse mientras que el sesgo si, pero el error al azar puede medirse y disminuye al
aumentar el tamaño de la muestra mientras que en el sesgo se mantiene siempre constante.
Se llama intervalo de confianza en estadística al par de números entre los cuales se estima que estará
cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números
determinan un intervalo que se calcula a partir de datos de una muestra y el valor desconocido es un
parámetro poblacional.
La probabilidad de éxito en la estimación se representa por 1-a y se denomina el nivel de confianza. En
estas circunstancias, a es denominado el error aleatorio o nivel de significación y es una medida de las
posibilidades de fallar la estimación.
Primero debemos de asumir que la muestra es representativa de la población, es decir, estos 1000
individuos no tienen ni más ni menos probabilidad de fumar que el resto de los habitantes de la misma
edad. Tras esto, nos interesa saber entre que rango podría encontrarse la proporción de fumadores.
Podrían ser 0,01% al 99,99% pero entonces podríamos estar seguros casi al 100%, ya que es prácticamente
2
seguro que dentro de ellos estará la verdadera proporción. Si lo limitamos, podría ser que la proporción
cayera fuera.
Por esto hablamos de intervalos de confianza y no de probabilidad. Los científicos suelen usar los intervalos
en los que tienen una confianza del 95% de que se contenga el parámetro.
El problema se resuelve sumando y restando una cantidad a la proporción calculada en la muestra. Esta
confianza del 95% nos dice que si repitiésemos la experiencia 100 veces con 100 muestras distintas cada
una de 1000 individuos y en todas ellas calculásemos un intervalo del 95% habría 95 de los intervalos que
contendrían al parámetro y 5 que no.
Aquí podemos ver que si aumenta la n, baja el error, pero no de forma lineal sino en menor proporción. Por
lo que si n es grande, el intervalo de confianza al 95% es igual a p±1,96· [p(1-p)] 1/2y usamos esto debido a
que estamos aproximando a una normal.
Debemos:
1. Calcular la proporción: p=c/n donde c es el número de sujetos con el carácter y n es el número
individuos que forman parte de la muestra.
2.
3. Comprobar las condiciones de la aplicación es decir pn>5 y (1-p)n>5, es decir las mismas
condiciones para aproximar una binomial a una normal.
5. Buscar en las tablas de la distribución normal un valor de z adecuado al error alfa del intervalo de
confianza que deseemos calcular. Si el intervalo es al 95%, alfa valdrá 0,025 en cada cola, 0,05 en
las dos colas y z=1,96. Es decir buscamos DENTRO de la tabla lo que deja por encima, en este caso
0,05.
6.
7. Sumar y restar a la proporción z veces el EEP.
Ej.1: En una muestra de 335 varones de una ciudad, 127 dijeron ser fumadores. Calcule la proporción de
fumadores y su intervalo de confianza.
P=127/335=0,379
Error estándar de la proporción= (0,379(1-0379)/335)1/2=0,027
Valor de z= 1,96
Intervalo de confianza al 95%= 0,379±1,96· 0,027= 0,326 - 0,432.
Esto quiere decir que podemos tener una confianza al 95% de que el porcentaje de fumadores en la
población está entre 32,6% y 43,2%.
3
Ejemplo: En una muestra de 150 alumnos, la altura media fue 170,0cm, con desviación estándar de 20cm.
Calcular el intervalo de confianza de la media al 95%.
S /n1/2 =20/1501/2=1,63
El intervalo de confianza al 95% será de 170,0±1,96· 1,63= 166,8-173,2.
Tenemos una confianza del 95% de que la media de la población está entre 166,8 y 173,2.
T de Student
El intervalo de confianza anteriormente no sería válido para muestras muy pequeñas como n<60. En lugar
de la distribución normal se utiliza la distribución T de student.
Es imprescindible sustituir el valor z por otro mayor que sigue otra distribución llamada distribución T.
Para cada valor de T hay una cola que queda fuera de ese límite y el área bajo esa cola corresponde a la
probabilidad de que una observación se separe de la media una distancia igual a T.
Para cada valor de a se proporciona un valor de t que es distinto para cada tamaño de muestra.
Para usarla debemos saber que los grados de libertad son n-1, por lo que para buscar en las tablas de la T
hace falta conocer dos valores:
a/2
grados de libertad (n-1)
4
Ej.: En 24 pacientes con síndromes coronarios, la media de una puntuación global de dieta mediterránea
era de 24,3 puntos, con una desviación estándar de 5,0. ¿Cuál sería el intervalo de confianza al 95% para
la media poblacional?
m=24,3
s=5,0
n=24
Miramos en la tabla de T de student cuál es el valor de T para cada error alfa y para cada tamaño de la
muestra (grados de libertad = n-1). En este caso los grados de libertad serán de 23 y el valor de t es de
2,069 para un error alfa de 0,025 en cada cola, o 0,05 en las dos colas.
IC 95%= 24,3± (1,02 · 2,069)=22,2 a 26,4.
Desde un punto de vista práctico siempre se puede usar la t pero cuando la muestra es muy grande
(n>100), usar la z es prácticamente equivalente a usar la t. Por último a medida que aumenta la confianza,
eíble que el intervalo
contenga a la media poblacional.
Si son datos muy dispersos, la desviación típica es grande por lo que el intervalo será grande. Si la muestra
es muy grande, habrá menor error por lo que el intervalo de confianza será menor. El valor de alfa lo
fijamos nosotros por el error además del número de personas de de la muestra, lo que no podemos
controlar es el error de la media.
muestra es muy superior al error se concluye diciendo que la muestra apoya la existencia del efecto en la
población.
Si el efecto observado en la muestra es similar o inferior en magnitud al error, se concluye diciendo que la
muestra no apoya la existencia de dicho efecto en la población. Para tomar una u otra decisión
Hipótesis alternativa: Mantiene que existe algún efecto distinto de 0 en la población de la que
procede la muestra.
H1: X 0 en una media o H1: 0 en una proporción
Ej.: La tensión arterial es mayor en los que toman X que en los que no lo toman O los fumadores
tienen más riesgo de infarto que los no fumadores.
5
Sin embargo la hipótesis alternativa que describimos es menos ambiciosa ya que en el caso de la
tensión arterial puede ser que la tensión baje con el medicamente o que aumente la tensión. Es
importante tener en cuenta que enunciar las hipótesis nos condiciona para que sirve el estudio.
4. Buscamos esta Z en la tabla de la normal para obtener una P, y rechazar o no la hipótesis nula.
Cuando sacamos el valor de p es la probabilidad de encontrar un resultado más extremo del que
me ha salido, de tal manera que me determina que la hipótesis nula sea cierta o no. Somos muy
exigentes con la hipótesis alternativa, de tal manera que tenemos como punto de corte p=0,05
para creerse la hipótesis alternativa. Un valor más alto = hipótesis nula y un valor más bajo hipótesis
alternativa.
Si queremos saber el valor p para dos colas, tendremos que multiplicarlo por 2 ya que en la tabla
de la distribución normal solo se tiene en cuenta una cola, es decir el valor extremo por arriba y por
debajo.
Ej.1:
En una muestra de 150 alumnos de la Facultad de Medicina, la altura media fue de 170,0 cm con
desviación estándar de 20cm. La altura media de los alumnos de la Universidad de Cantabria es de 173,0.
¿Es menor la altura de los alumnos de Medicina?
La hipótesis nula será: H0 X = 173 mientras que la hipótesis alternativa será que H1 X <173.
Si calculamos la Z por medio de la ecuación mencionada antes:
Buscamos 1,84 en la tabla y nos sale una P de 0,032, lo que es <0,05 y por tanto rechazamos la hipótesis
nula, y aceptamos la alternativa que dice que los alumnos de medicina tenemos una altura menor de 173.
Ej.2:
El colesterol en Cantabria tiene una media de 260mg/dl. A 200 personas les damos atorvastatina y vemos
que estos pacientes tienen una media de 230mg/dl con una desviación típica de 12. ¿Este resultado es
como consecuencia de la astorvastatina o al azar?
Primero
Hallamos el valor z=media de la muestra-media de la distribución/EEM = (230-260)/0,84=-35.
Buscamos -35 en la tabla (no la tenemos en nuestra tabla porque no llega)
El porcentaje que queda por debajo de z es muy pequeño 1.10000% por lo que damos por buena la
hipótesis alternativa.
1. Formular una hipótesis nula a priori que mantiene que no existen diferencias en la población, y que
las únicas que vamos a encontrar son debidas al azar. H0: = 0
6
3. Contrastar la hipótesis nula con los resultados hallados en la muestra, ya que no siempre será
exactamente 0 ya que siempre hay un error al azar.
4. Calcular la probabilidad de hallar unos resultados como los hallados o más distantes aún de lo
esperado, bajo el supuesto de que la hipótesis fuese cierta.
a. Calcularemos el error estándar de la proporción= cuando p son las
proporciones
b. Obtenemos un valor
5. Decidir si rechazamos o no la hipótesis nula. Cuando p<0,05 se rechaza la hipótesis nula, y se dice
Ej.1: De una muestra de 100 pacientes se encontró que 22 tenían un diagnóstico de bronquitis crónica. Este
resultado, ¿Es significativamente mayor que el 10%?
Si calculamos la Z obtendremos:
Buscamos en la tabla de la normal, utilizando el valor de Z en los márgenes de la tabla para obtener una p
de 0,00135, ya que z es 0,99865. Esto quiere decir que si la proporción de adultos con bronquitis crónica en
la población fuera del 10% entonces la probabilidad de observar una proporción en la muestra igual o
mayor que 22% es de 0,0035%. Aceptamos por tanto la hipótesis alternativa, ya que p<0,05.
El error tipo 2 consiste en no rechazar H0 cuando debería debe hacerse hecho. Se dice que no hay
diferencias significativas cuando en realidad las hay.
Se llama a los rechazos incorrectos de la hipótesis nula errores tipo 1 y a la probabilidad de cometerlos se le
lla
El error o riesgo a, es la probabilidad establecida a priori de rechazar la hipótesis nula siendo ésta en
realidad verdadera. El riesgo alfa es de 0.05.No coincide con la p ya que alfa se fija de antemano y p
puede variar en función de que varíen estos datos.
Ej.: Decir que el tratamiento A es mejor que el B cuando realmente son iguales O decir que los fumadores
tienen más riesgo de enfermedad de Parkinson, cuando realmente tienen el mismo.
Cuando no se rechaza la hipótesis nula cuando ésta en realidad es falsa y se debería de rechazar se
El riesgo beta es de 0,1-0,2
7
Los errores de tipo II se pueden producir o bien porque el efecto sea pequeño (diferencias reales pero de
poca magnitud) o bien porque el número de sujetos estudiados sea escaso.
Ej.: Decir que dos tratamientos son iguales cuando realmente uno es mejor que el otro O decir que el
tabaco no aumenta el riesgo de infarto cuando realmente sí lo aumenta.
Por esto se dice que es mejor aceptar una hipótesis nula y estar equivocado que aceptar una hipótesis
alternativa y estar equivocado, es decir, es mejor cometer el error beta.
Un ejemplo de esto sería que puede que el medicamento no funcione pero peor es no darlo.
medicamentos con una pureza del 99% y al recibirlo hacemos un análisis de una muestra para comprobar
Pureza en el lote
<99%
Pureza en la H0 es cierta y se acepta H0
muestra <99% H0 es cierta y se rechaza (error a) H0 es falsa y se rechaza
Lo ideal es usar pruebas cuyos riesgos alfa y beta sean los menores posibles. Este objetivo requiere un cierto
compromiso ya que reducir alfa supone aumentar beta y viceversa.
La potencia de una prueba o test de contraste de hipótesis es la capacidad de una prueba para detectar
una prueba.
Valor P
El valor p se refiere a la probabilidad de encontrar un valor más extremo que z y decíamos que el valor p
arbitrariamente se suele considerar que existe un resultado significativo cuando p tiene un valor menor de
0.05. Un valor de p menor del 5% determina que el estudio es estadísticamente significativo, lo que indica
que los resultados no se deben al azar sino que la diferencia se debe al estudio.
Este valor del 5%, es arbitrario, una tradición. Realmente no es tan importante que salga el 6%.
El valor p, hay que tener en cuenta que se puede hallar para una cola o para dos.
En el caso que únicamente sea para una cola, se deja como esta, mientras en el caso en el que sea para
dos, se multiplica el valor p por dos. El valor p de dos colas es más exigente, por eso, la mayoría de los test
estadísticos tienen un valor p de dos colas.
Salvo que haya una justificación estadística para usar sólo una en el examen: 2 colas salvo que
se diga lo contrario
8
Se dice que las pruebas que son
ANOVA
T de student
Correlación de Pearson
Regresión lineal
Test de Wilcoxon
U de Mann-Whitney
Correlación de Spearman
Si el intervalo de confianza no fuese 0,05 sino simplemente 1-a, y no incluyese la hipótesis nula, p>a.
Si por el contrario si estuviese dentro del intervalo de confianza, aceptaríamos la hipótesis nula por lo que
p>0,05, marcando que no hay diferencias estadísticamente significativas.
Si el intervalo de confianza no fuese 0,05 sino simplemente 1-a, e incluyese la hipótesis nula, p<a.
Por ello podemos decir que el valor de p depende de la diferencia entre la media y la media establecida
en la hipótesis nula y el tamaño muestral.
Si el tamaño muestral es muy pequeño es casi imposible que p<0,05 mientras que si n es muy grande,
pequeñas diferencias m- 0 pueden producir p<0,05.
Ejemplo:
La hipótesis nula establece que la media es de 140.
Si un experimento tiene una n =20 y una m=160, puede ser que la p>0,05 y si un experimento tiene una
n=10000 y una m=141 puede ser que la p<0,05, sin embargo, aumentar la tensión arterial en 20mmHg (140
a 160) es muy importante en la práctica mientras que aumentarla en 1mmHg no tiene importancia