Está en la página 1de 10

TEMA 3.

INTERVALOS DE CONFIANZA Y
CONTRASTE DE HIPÓTESIS
Tipos de muestreo
Para conocer una característica de una población se toma como referencia
una muestra de dicha población, es decir, un pequeño número de
elementos que representan dicha población.
Tras esto se debe de hacer la inferencia que consiste en utilizar los datos
obtenidos de la muestra, en una población. Sin embargo, siempre nos dará
un error al azar que dependerá del tamaño de la muestra.
Cuanto mayor sea la muestra, menor será el error.

El muestreo se realiza porque no se puede estudiar a toda la población porque es muy caro, largo y puede
ser destructivo (si sacamos todo el potasio de una persona se morirá).

Existen varios tipos de muestreos y la forma de hacer el muestreo influye en la forma de hacer el análisis y a
partir de ahora solo utilizaremos el muestreo aleatorio simple.
Muestreo aleatorio simple
Muestreo estratificado
Muestreo con conglomerado.

En el muestreo aleatorio simple toda persona tiene igual probabilidad de ser elegida para la muestra y
cada persona se elige con independencia de las demás. Esto garantiza la representatividad de la
muestra. Cualquier método al azar que asigne la misma probabilidad a cada individuo es correcto.

El muestreo estratificado es aquel que divide la población de N individuos en K subpoblaciones o estratos


atendiendo a criterios que puedan ser importantes en el estudio.
Ej.: Si estudiamos cáncer en Cantabria, y hay dos grupos totalmente distintos como hombres y mujeres, nos
interesa una muestra al azar de cada grupo.

Por el otro lado el muestreo en conglomerado consiste en dividir la población en grupos que son
convenientes para el muestreo. Luego seleccionar una porción de los grupos al azar o por un método
sistemático. Finalmente tomar todos estos elementos o parte de ellos al azar por un método sistemático de
los grupos seleccionados para obtener la muestra. Ej.: Si estudiamos la tuberculosis en los colegios de
Cantabria, podemos estudiar 3 colegios. Si se parecen entre sí, podemos escoger al azar uno de ellos y
realizar el estudio solo de ese.

¿Cómo hacer un muestreo aleatorio simple?


Se asigna a cada persona un número y se seleccionan los números usando tablas de números aleatorios
(antes) o números aleatorios generados por el ordenador.
Cualquier método de azar que asigne la misma probabilidad a cada individuo es correcto. Es por esto que
no es justo contar de diez en diez, porque estas influyendo por lo que no es al azar.

Error al azar y error sistemático


Los errores que se pueden cometer al medir son de dos tipos: sistemáticos o al azar.
Los errores sistemáticos están producidos por un defecto del instrumento de medición o por una tendencia
errónea del observador. Estos errores no dependen del tamaño del estudio, pueden evitarse. Ej.: Una mala
elección de la muestra en un sondeo electoral.

Los errores aleatorios o al azar son aquellos debidos a causas imponderables e imposibles de controlar (No
pueden evitarse). Estos errores se pueden medir y van a disminuir con el aumento del tamaño muestral.

1
Ejemplo:
Supongamos que un individuo está disparando con una escopeta a una diana. Como
tiene mala puntería, los disparos que efectúa estarán muy separados unos de otros,
rodeando la periferia de la diana. Si viésemos la diana por detrás podríamos pensar que
apunta al centro de la diana porque está enmarcado por sus disparos
Son errores que pueden ir en cualquier dirección, son impredecibles. Se trata del error
aleatorio o al azar.

Si la escopeta que utiliza el tirador, tiene la mirilla desviada, desviando los tiros hacia
abajo y a la izquierda, el tirador cuando efectúa muchos disparos apuntando al centro
hará disparos que están muy juntos entre sí pero lejos del centro de la diana. Si viésemos
los impactos por detrás nos equivocaríamos pensando que el centro de la diana está
en medio del espacio circunscrito por los disparos. Se trata del error sistemático o sesgo.

El error al azar no puede evitarse mientras que el sesgo si, pero el error al azar puede medirse y disminuye al
aumentar el tamaño de la muestra mientras que en el sesgo se mantiene siempre constante.

Estimación puntual y estimación por intervalo


La estimación puntual proporciona un valor único aproximado de parámetro desconocido, quedo sin
especificar como de buena es tal aproximación.
La estimación por intervalo proporciona un abanico u horquilla de posibles valores, uno de los cuales
confiamos en que sea el verdadero valor del parámetro desconocido.
Es por esto que los intervalos de confianza permiten presentar un resultado acompañándolo de un margen
de error, con un límite superior y otro inferior.

Se llama intervalo de confianza en estadística al par de números entre los cuales se estima que estará
cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números
determinan un intervalo que se calcula a partir de datos de una muestra y el valor desconocido es un
parámetro poblacional.
La probabilidad de éxito en la estimación se representa por 1-a y se denomina el nivel de confianza. En
estas circunstancias, a es denominado el error aleatorio o nivel de significación y es una medida de las
posibilidades de fallar la estimación.

Estimación de una proporción


El uso de una proporción, es habitualmente expresada como porcentajes o tantos por cierto. Es muy
frecuente en biología y aun lo es mas en medicina.
Imaginamos que se realiza un estudio para estimar la proporción de individuos de 18 años o menos que
fuman regularmente. De 1000, 200 fuman regularmente, es decir el 20%.
Debemos extrapolar los resultados a una población, pero esta es inabarcable, por lo que debemos
basarnos en la muestra.

Primero debemos de asumir que la muestra es representativa de la población, es decir, estos 1000
individuos no tienen ni más ni menos probabilidad de fumar que el resto de los habitantes de la misma
edad. Tras esto, nos interesa saber entre que rango podría encontrarse la proporción de fumadores.
Podrían ser 0,01% al 99,99% pero entonces podríamos estar seguros casi al 100%, ya que es prácticamente

2
seguro que dentro de ellos estará la verdadera proporción. Si lo limitamos, podría ser que la proporción
cayera fuera.

Por esto hablamos de intervalos de confianza y no de probabilidad. Los científicos suelen usar los intervalos
en los que tienen una confianza del 95% de que se contenga el parámetro.
El problema se resuelve sumando y restando una cantidad a la proporción calculada en la muestra. Esta
confianza del 95% nos dice que si repitiésemos la experiencia 100 veces con 100 muestras distintas cada
una de 1000 individuos y en todas ellas calculásemos un intervalo del 95% habría 95 de los intervalos que
contendrían al parámetro y 5 que no.

En una distribución binomial con tamaño muestral n:


La media = p (proporción)
La desviación estándar= [p(1-p)] 1/2
El error estándar de la proporción =[p(1-p)/n] 1/2

Aquí podemos ver que si aumenta la n, baja el error, pero no de forma lineal sino en menor proporción. Por
lo que si n es grande, el intervalo de confianza al 95% es igual a p±1,96· [p(1-p)] 1/2y usamos esto debido a
que estamos aproximando a una normal.

Debemos:
1. Calcular la proporción: p=c/n donde c es el número de sujetos con el carácter y n es el número
individuos que forman parte de la muestra.
2.
3. Comprobar las condiciones de la aplicación es decir pn>5 y (1-p)n>5, es decir las mismas
condiciones para aproximar una binomial a una normal.

4. Calcular el error estándar de la proporción (EEP):

5. Buscar en las tablas de la distribución normal un valor de z adecuado al error alfa del intervalo de
confianza que deseemos calcular. Si el intervalo es al 95%, alfa valdrá 0,025 en cada cola, 0,05 en
las dos colas y z=1,96. Es decir buscamos DENTRO de la tabla lo que deja por encima, en este caso
0,05.
6.
7. Sumar y restar a la proporción z veces el EEP.

Ej.1: En una muestra de 335 varones de una ciudad, 127 dijeron ser fumadores. Calcule la proporción de
fumadores y su intervalo de confianza.
P=127/335=0,379
Error estándar de la proporción= (0,379(1-0379)/335)1/2=0,027
Valor de z= 1,96
Intervalo de confianza al 95%= 0,379±1,96· 0,027= 0,326 - 0,432.
Esto quiere decir que podemos tener una confianza al 95% de que el porcentaje de fumadores en la
población está entre 32,6% y 43,2%.

Algunas interpretaciones erróneas son que:


Entre el 32,6% y el 43,2% de la población son fumadores
Hay una probabilidad del 95% de que la proporción de fumadores esté entre 32,6 y 43,2%.
La prevalencia de tabaquismo en la población es del 37,9%.

Intervalo de confianza de una media


1. Calculamos la media muestral (m)
2. Calculamos la desviación estándar muestral (s)
3. Calcular el error estándar de la media (desviación estándar de la distribución de las medias):
4. Intervalo de confianza al 95% será

3
Ejemplo: En una muestra de 150 alumnos, la altura media fue 170,0cm, con desviación estándar de 20cm.
Calcular el intervalo de confianza de la media al 95%.
S /n1/2 =20/1501/2=1,63
El intervalo de confianza al 95% será de 170,0±1,96· 1,63= 166,8-173,2.
Tenemos una confianza del 95% de que la media de la población está entre 166,8 y 173,2.

Algunas interpretaciones erróneas son:


El verdadero valor de la media en la población estará entre 166,8 y 173,2 el 95% de las veces.
El 95% de la población tiene una altura entre 166,8 y 173,2.

Intervalo de confianza al 1-a


Si el intervalo de confianza es de 95% (1-a) habrá un 5% (a) de error que se reparte en dos colas, una a
cada lado, y cada cola valdría un 2,5% (a/2).
Para calcular el intervalo de confianza al 1-a:
1. Calculamos el error estándar de la media
2. Buscamos en la tabla normal el valor de za/2
3. El intervalo de confianza es:

T de Student
El intervalo de confianza anteriormente no sería válido para muestras muy pequeñas como n<60. En lugar
de la distribución normal se utiliza la distribución T de student.
Es imprescindible sustituir el valor z por otro mayor que sigue otra distribución llamada distribución T.

La distribución T es distribución teórica de probabilidad cuyos valores T se interpretan de la misma forma


que los valores z de la distribución normal, pero en las tablas de la t.

Para cada valor de T hay una cola que queda fuera de ese límite y el área bajo esa cola corresponde a la
probabilidad de que una observación se separe de la media una distancia igual a T.
Para cada valor de a se proporciona un valor de t que es distinto para cada tamaño de muestra.
Para usarla debemos saber que los grados de libertad son n-1, por lo que para buscar en las tablas de la T
hace falta conocer dos valores:
a/2
grados de libertad (n-1)

Estimación de una media con la t de Student

1. Calculamos el error estándar de la media


2. Buscamos en la tabla t de student el valor de ta/2,n-1
3. El intervalo de confianza es:
La amplitud del intervalo de confianza depende del error a y del error estándar de la media.

4
Ej.: En 24 pacientes con síndromes coronarios, la media de una puntuación global de dieta mediterránea
era de 24,3 puntos, con una desviación estándar de 5,0. ¿Cuál sería el intervalo de confianza al 95% para
la media poblacional?
m=24,3
s=5,0
n=24

Se calcula primero el error estándar de la media

Miramos en la tabla de T de student cuál es el valor de T para cada error alfa y para cada tamaño de la
muestra (grados de libertad = n-1). En este caso los grados de libertad serán de 23 y el valor de t es de
2,069 para un error alfa de 0,025 en cada cola, o 0,05 en las dos colas.
IC 95%= 24,3± (1,02 · 2,069)=22,2 a 26,4.

Desde un punto de vista práctico siempre se puede usar la t pero cuando la muestra es muy grande
(n>100), usar la z es prácticamente equivalente a usar la t. Por último a medida que aumenta la confianza,
eíble que el intervalo
contenga a la media poblacional.

***¿Cómo ajusta la T de student a la normal al aumentar los grados de libertad?


Si la muestra es muy grande, la t nos va a dar aproximadamente lo mismo que la distribución normal, y si la
muestra es pequeña, la t es más grande que la distribución normal.

*** ¿Cómo influye el tamaño muestral (n) en el intervalo de confianza?


Como hemos dicho antes, si la muestra es pequeña la t es más grande, por lo que el intervalo de
confianza es mayor y mayor será por tanto el grado de incertidumbre.
La amplitud del intervalo de confianza depende entonces del error alfa y del error estándar de la media,
ya que si escogemos un intervalo de confianza del 95, estamos dispuestos a dejar más error por fuera que
al 100%, y cuanto más error estemos dispuestos a admitir, menor será el intervalo.
Por lo que: cuanto mayor sea el error estándar de la media, mayor será el intervalo.

Si son datos muy dispersos, la desviación típica es grande por lo que el intervalo será grande. Si la muestra
es muy grande, habrá menor error por lo que el intervalo de confianza será menor. El valor de alfa lo
fijamos nosotros por el error además del número de personas de de la muestra, lo que no podemos
controlar es el error de la media.

Contraste de Hipótesis sobre una media


Hay otro enfoque, al que se le tiende a dar preferencia en biomedicina. Se trata del contraste de hipótesis

muestra es muy superior al error se concluye diciendo que la muestra apoya la existencia del efecto en la
población.
Si el efecto observado en la muestra es similar o inferior en magnitud al error, se concluye diciendo que la
muestra no apoya la existencia de dicho efecto en la población. Para tomar una u otra decisión

Hipótesis nula: Mantiene que el efecto de interés no existe y vale 0.


H0 X 0 en una media o H0: = 0 en una proporción
Ej.: La tensión arterial es la misma en todos los que toman el medicamento X y en los que no lo
toman O los fumadores tienen el mismo riesgo de infarto que los no fumadores

Hipótesis alternativa: Mantiene que existe algún efecto distinto de 0 en la población de la que
procede la muestra.
H1: X 0 en una media o H1: 0 en una proporción
Ej.: La tensión arterial es mayor en los que toman X que en los que no lo toman O los fumadores
tienen más riesgo de infarto que los no fumadores.

5
Sin embargo la hipótesis alternativa que describimos es menos ambiciosa ya que en el caso de la
tensión arterial puede ser que la tensión baje con el medicamente o que aumente la tensión. Es
importante tener en cuenta que enunciar las hipótesis nos condiciona para que sirve el estudio.

Se realiza de la siguiente forma:


1. Se establece la hipótesis nula: H0 X 0

2. Se establece una hipótesis alternativa H1 X 0

3. Se calcula Z mediante la ecuación: donde es el error estándar de la media al igual

que en el cálculo del intervalo de confianza de una media.


Utilizamos el EEM en vez de la desviación estándar porque si utilizáramos la desviación típica nos
diría cual es el porcentaje de esas personas que quedan por debajo de la media y lo que
queremos saber es la probabilidad de que la muestra al azar tenga otra media, por lo que
comparamos todas las posibles medias de las posibles muestras. Es decir intentamos averiguar el
valor Z de la distribución de las medias

4. Buscamos esta Z en la tabla de la normal para obtener una P, y rechazar o no la hipótesis nula.
Cuando sacamos el valor de p es la probabilidad de encontrar un resultado más extremo del que
me ha salido, de tal manera que me determina que la hipótesis nula sea cierta o no. Somos muy
exigentes con la hipótesis alternativa, de tal manera que tenemos como punto de corte p=0,05
para creerse la hipótesis alternativa. Un valor más alto = hipótesis nula y un valor más bajo hipótesis
alternativa.
Si queremos saber el valor p para dos colas, tendremos que multiplicarlo por 2 ya que en la tabla
de la distribución normal solo se tiene en cuenta una cola, es decir el valor extremo por arriba y por
debajo.

Ej.1:
En una muestra de 150 alumnos de la Facultad de Medicina, la altura media fue de 170,0 cm con
desviación estándar de 20cm. La altura media de los alumnos de la Universidad de Cantabria es de 173,0.
¿Es menor la altura de los alumnos de Medicina?
La hipótesis nula será: H0 X = 173 mientras que la hipótesis alternativa será que H1 X <173.
Si calculamos la Z por medio de la ecuación mencionada antes:
Buscamos 1,84 en la tabla y nos sale una P de 0,032, lo que es <0,05 y por tanto rechazamos la hipótesis
nula, y aceptamos la alternativa que dice que los alumnos de medicina tenemos una altura menor de 173.

Ej.2:
El colesterol en Cantabria tiene una media de 260mg/dl. A 200 personas les damos atorvastatina y vemos
que estos pacientes tienen una media de 230mg/dl con una desviación típica de 12. ¿Este resultado es
como consecuencia de la astorvastatina o al azar?

H0= media de pacientes con astorvastatina=media de pacientes sin astorvastatina


H1=media de pacientes con astorvastatina<media de pacientes sin astorvastatina

Primero
Hallamos el valor z=media de la muestra-media de la distribución/EEM = (230-260)/0,84=-35.
Buscamos -35 en la tabla (no la tenemos en nuestra tabla porque no llega)
El porcentaje que queda por debajo de z es muy pequeño 1.10000% por lo que damos por buena la
hipótesis alternativa.

Contraste de Hipótesis sobre una proporción


Los pasos para realizar un contraste de hipótesis son:

1. Formular una hipótesis nula a priori que mantiene que no existen diferencias en la población, y que
las únicas que vamos a encontrar son debidas al azar. H0: = 0

2. Se establece la hipótesis alternativa: H1: 0

6
3. Contrastar la hipótesis nula con los resultados hallados en la muestra, ya que no siempre será
exactamente 0 ya que siempre hay un error al azar.

4. Calcular la probabilidad de hallar unos resultados como los hallados o más distantes aún de lo
esperado, bajo el supuesto de que la hipótesis fuese cierta.
a. Calcularemos el error estándar de la proporción= cuando p son las
proporciones
b. Obtenemos un valor

c. Podemos buscar en la tabla de la distribución normal. Z nos responde a que porcentaje de


muestras estarán a z errores estándar del parámetro poblacional.

5. Decidir si rechazamos o no la hipótesis nula. Cuando p<0,05 se rechaza la hipótesis nula, y se dice

Ej.1: De una muestra de 100 pacientes se encontró que 22 tenían un diagnóstico de bronquitis crónica. Este
resultado, ¿Es significativamente mayor que el 10%?

La hipótesis nula es que H0: =0,10


La hipótesis alternativa es que H1:
El error estándar de la proporción es de

Si calculamos la Z obtendremos:

Buscamos en la tabla de la normal, utilizando el valor de Z en los márgenes de la tabla para obtener una p
de 0,00135, ya que z es 0,99865. Esto quiere decir que si la proporción de adultos con bronquitis crónica en
la población fuera del 10% entonces la probabilidad de observar una proporción en la muestra igual o
mayor que 22% es de 0,0035%. Aceptamos por tanto la hipótesis alternativa, ya que p<0,05.

Error tipo I y Error tipo II


Esta tabla combina todas las posibles decisiones que pueden tomarse en un contraste de hipótesis con la
verdad respecto a la hipótesis nula e hipótesis alternativa.
Se conoce como error de tipo 1 al rechazo de H0 cuando debería de haberse aceptado, es decir, que hay
diferencias significativas cuando en realidad no las hay.

El error tipo 2 consiste en no rechazar H0 cuando debería debe hacerse hecho. Se dice que no hay
diferencias significativas cuando en realidad las hay.

Se llama a los rechazos incorrectos de la hipótesis nula errores tipo 1 y a la probabilidad de cometerlos se le
lla
El error o riesgo a, es la probabilidad establecida a priori de rechazar la hipótesis nula siendo ésta en
realidad verdadera. El riesgo alfa es de 0.05.No coincide con la p ya que alfa se fija de antemano y p
puede variar en función de que varíen estos datos.
Ej.: Decir que el tratamiento A es mejor que el B cuando realmente son iguales O decir que los fumadores
tienen más riesgo de enfermedad de Parkinson, cuando realmente tienen el mismo.

Cuando no se rechaza la hipótesis nula cuando ésta en realidad es falsa y se debería de rechazar se
El riesgo beta es de 0,1-0,2
7
Los errores de tipo II se pueden producir o bien porque el efecto sea pequeño (diferencias reales pero de
poca magnitud) o bien porque el número de sujetos estudiados sea escaso.
Ej.: Decir que dos tratamientos son iguales cuando realmente uno es mejor que el otro O decir que el
tabaco no aumenta el riesgo de infarto cuando realmente sí lo aumenta.

Por esto se dice que es mejor aceptar una hipótesis nula y estar equivocado que aceptar una hipótesis
alternativa y estar equivocado, es decir, es mejor cometer el error beta.
Un ejemplo de esto sería que puede que el medicamento no funcione pero peor es no darlo.

medicamentos con una pureza del 99% y al recibirlo hacemos un análisis de una muestra para comprobar

En este caso la hipótesis nula diría que: H0


H1: pureza<99%.

Pureza en el lote
<99%
Pureza en la H0 es cierta y se acepta H0
muestra <99% H0 es cierta y se rechaza (error a) H0 es falsa y se rechaza

Lo ideal es usar pruebas cuyos riesgos alfa y beta sean los menores posibles. Este objetivo requiere un cierto
compromiso ya que reducir alfa supone aumentar beta y viceversa.
La potencia de una prueba o test de contraste de hipótesis es la capacidad de una prueba para detectar

una prueba.

Potencia del estudio


La capacidad de rechazar la hipótesis nula cuando es falsa. La potencia se calcula como 1- y
habitualmente trabajamos con potencias del 80-90%

Valor P
El valor p se refiere a la probabilidad de encontrar un valor más extremo que z y decíamos que el valor p
arbitrariamente se suele considerar que existe un resultado significativo cuando p tiene un valor menor de
0.05. Un valor de p menor del 5% determina que el estudio es estadísticamente significativo, lo que indica
que los resultados no se deben al azar sino que la diferencia se debe al estudio.
Este valor del 5%, es arbitrario, una tradición. Realmente no es tan importante que salga el 6%.

El valor p, hay que tener en cuenta que se puede hallar para una cola o para dos.
En el caso que únicamente sea para una cola, se deja como esta, mientras en el caso en el que sea para
dos, se multiplica el valor p por dos. El valor p de dos colas es más exigente, por eso, la mayoría de los test
estadísticos tienen un valor p de dos colas.
Salvo que haya una justificación estadística para usar sólo una en el examen: 2 colas salvo que
se diga lo contrario

Diferencias entre el error alfa y el valor p


El error alfa es que error al azar estamos dispuestos a admitir rechazando la hipótesis nula, de tal manera
que es delimitado en el diseño del estudio. Por otro lado el valor de p es el error aleatorio que hemos
podido cometer rechazando H0, de tal manera que se determina siempre después del estudio.

Pruebas paramétricas y no paramétricas


Son pruebas estadísticas que solo se pueden aplicar a distribuciones normales y que utilizan en sus cálculos
la media y la desviación estándar.

8
Se dice que las pruebas que son
ANOVA
T de student
Correlación de Pearson
Regresión lineal

En ocasiones la distribución no es normal y se puede transformar la variable para convertirla en una


distribución normal mediante logaritmos o cuadrados como es el caso de la edad. Podemos aplicar sino
pruebas no paramétricas que son aquellas que no requieren normalidad y son:
2 (ji cuadrado

Test de Wilcoxon
U de Mann-Whitney
Correlación de Spearman

Contraste de hipótesis vs. intervalos de confianza


Si tenemos una hipótesis nula que establece que una media es de 140, pero obtenemos un resultado de
160. Si realizamos los intervalos de confianza del experimento, vemos que van desde 144 a 176 para uno al
95%.
Por lo tanto podemos de decir que si la media que establece la hipótesis nula NO está dentro del intervalo
de confianza, esta se tiene que rechazar por lo que p<0,05, por lo que se aceptaría la alternativa o

Si el intervalo de confianza no fuese 0,05 sino simplemente 1-a, y no incluyese la hipótesis nula, p>a.

Si por el contrario si estuviese dentro del intervalo de confianza, aceptaríamos la hipótesis nula por lo que
p>0,05, marcando que no hay diferencias estadísticamente significativas.
Si el intervalo de confianza no fuese 0,05 sino simplemente 1-a, e incluyese la hipótesis nula, p<a.

Por ello podemos decir que el valor de p depende de la diferencia entre la media y la media establecida
en la hipótesis nula y el tamaño muestral.
Si el tamaño muestral es muy pequeño es casi imposible que p<0,05 mientras que si n es muy grande,
pequeñas diferencias m- 0 pueden producir p<0,05.

Ejemplo:
La hipótesis nula establece que la media es de 140.
Si un experimento tiene una n =20 y una m=160, puede ser que la p>0,05 y si un experimento tiene una
n=10000 y una m=141 puede ser que la p<0,05, sin embargo, aumentar la tensión arterial en 20mmHg (140
a 160) es muy importante en la práctica mientras que aumentarla en 1mmHg no tiene importancia

También podría gustarte