Está en la página 1de 9

INTERVALOS DE CONFIANZA UNA MUESTRA:

Para la construcción de los intervalos de confianza se debe pensar en cuál es el parámetro a estimar, cuáles son las características con que se cuenta, y
verificar si los supuestos correspondientes se cumplen para que la estimación realizada sea válida. Después de comprobar lo supuestos se construye el
intervalo de confianza. Cuando no se dice nada acerca de la confianza del intervalo se asume que la confianza es del 95%. Otro aspecto importante en la
academia es observar en el enunciado de un problema si la información es suministrada con datos o con medidas calculadas de esos datos.

INTERVALOS DE CONFIANZA
INTERVALO DE CONFIANZA PARA LA MEDIA
Ejemplo 1: De acuerdo con estudios anteriores la ingesta promedio diaria de productos lácteos en los adultos hombres debe ser de 750 gramos (mililitros) al día, el
consumo de productos lácteos deberá cubrir las necesidades de calcio que el organismo empieza a necesitar sobre todo a partir de los 40 años. Un investigador
interesado en analizar la ingesta de los alimentos lácteos en la dieta humana seleccionó una muestra aleatoria de 50 (n=50) adultos hombres, y encontró que el
promedio de ingesta diaria de productos lácteos fue de 756 gramos por día ( x́=¿ 756), con una desviación estándar de 35 gramos por día (S=35).

Que se puede decir acerca de la ingesta promedio de los hombres adultos en este caso (Media).
Supuesto: Análisis del Supuesto:
Los datos deben tener un comportamiento Normal. El Teorema del Limite Central (TLC) garantiza que X́ es aproximadamente Normal sin
importar la forma de la distribución de donde provienen los datos. Como regla empírica
general, un tamaño de muestra de 30 o más se considera suficiente grande para que se
aplique el TLC.
Procedimiento (IC, con medidas, Script 3) Script en R
x́ =756 m=756
s=35
S = 35 n=50 n=50
c<-0.95;a<-1-c
S t <- qt(a/2,n-1,lower.tail=F)
x́ ∓ t (1− α ; n−1 ) qt(0.025,49) li<-m-t*s/sqrt(n)
2 √ n
ls<-m+t*s/sqrt(n)
756 ∓2.009575(35)/√50 En R, 746.0531 765.9469 c(li,ls)
Análisis IC: Conclusión:
Con una confianza de 95% se estima que la ingesta diaria Con base en los resultados de la muestra, si la ingesta diaria promedio de productos lácteos
promedio de la población de productos lácteos para hombres en los adultos hombres es de 750 gramos.
es de 746.30531 a 765.9469 gramos por día.
¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con este
procedimiento son válidas.
INTERVALO PARA DESVIACION ESTANDAR: ¿Se puede pensar que la variación del consumo de productos lácteos en cada adulto hombre con respecto a su
promedio es inferior a 25 gramos?
Supuesto: Análisis del Supuesto:
Los datos deben tener un comportamiento Normal. El TLC garantiza que X́ es aproximadamente Normal sin importar la forma de la distribución
de donde provienen los datos.
Procedimiento (IC, con medidas-Script 5) Script en R
( n−1 ) S 2 v=1225
qchisq(0.025,49) n=50
χ ¿¿ ¿ c<-0.95
qchisq(0.025,49,lower.tail=F) a<-1-c
x1 <- qchisq(1-a/2,n-1,lower.tail=F)
En R, 29.23669 43.61467 x2 <- qchisq(a/2,n-1,lower.tail=F)
li<-sqrt((n-1)*v/x2)
ls<-sqrt((n-1)*v/x1)
c(li,ls)

Análisis IC: Conclusión:


Con una confianza del 95% se estima que la variación del consumo No, la variación del consumo de productos lácteos en cada adulto con respecto a su
de productos lácteos en la dieta de cada uno de los hombres de la promedio es superior a 25 gramos.
muestra varía entre 29.23669 y 43.61467 gramos con respecto al
consumo medio en productos lácteos.
¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con este
procedimiento son válidas.

Ejemplo 2: El fabricante de cierto modelo de automóvil afirma que el kilometraje medio del modelo es de 12 Km por litro de gasolina corriente. Un organismo de
defensa del consumidor piensa que ese kilometraje ha sido exagerado por el fabricante. La información recogida de diez automóviles en el experimento fue la
siguiente: 12 11 10 10.5 11.5 11.5 11 12.5 10 10.5 que puede concluir el organismo. α=0.01
Supuesto: Análisis del supuesto:
Los datos deben tener un comportamiento Normal. Aunque todavía no se ha abordado el procedimiento de las pruebas de hipótesis es importante
adelantar un criterio usado para saber si no se rechaza la hipótesis nula o se rechaza, el cual es el
siguiente:
Usando el p-valor: o nivel de significancia observado de una prueba estadística
Si el valor el p-valor, es menor que α para el cual H0 se rechaza, o se acepta Ha.
Si el valor de p-valor es superior que α previamente asignado no se rechaza H0.
H0: Los datos de Km se distribuyen Normal
Ha: Los datos de Km no se distribuyen Normal

En R, Prueba de Normalidad (Script en R: shapiro.test(x))


Shapiro-Wilk normality test (Prueba de Normalidad, Script 1)
data: x
W = 0.94808, p-value = 0.6459 .
Dado que el valor p (0.6459) es superior a 0.01, entonces existen razones para creer que el
comportamiento de los datos de Km se distribuyen normal
Procedimiento (intervalo de confianza, con datos, Script en R
Script 2 ) x<-c(12,11,10,10.5,11.5,11.5,11,12.5,10,10.5)
x́ =11.05 n <- length(x)
m <- mean(x)
S = 0.831665 n=10 s <- sd(x)
c <- 0.99;a <- 1-c
S t <- qt(a/2,n-1,lower.tail=F)
x́ ∓ t (1− α ; n−1 ) li <- m-t*s/sqrt(n)
2 √n ls <- m+t*s/sqrt(n)
En R, 10.19531 11.90469
c(li,ls) En R: t.test(x,conf.level=c)$conf.int
Análisis IC: Conclusión:
Análisis: Con una confianza del 99% se estima que el Por lo tanto, el fabricante si ha exagerado el kilometraje medio del automóvil, dado que está por
verdadero kilometraje medio por litro de gasolina debajo de los 12 Km.
corriente se encontrará entre 10.19531 y 11.90469
kilómetros.
¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con este
procedimiento son válidas.

INTERVALO PARA DESVIACION ESTANDAR: ¿Existe evidencia para pensar que la desviación estándar es inferior a 4 kilómetros?
Supuesto: El comportamiento de los datos es normal Análisis del Supuesto: Los datos son normales, ya se comprobó en el punto anterior.
Procedimiento (intervalo de confianza, con datos, Script 4) Script en R (para la Varianza y la desviatión estándar)
( n−1 ) S 2 x<-c(12,11,10,10.5,11.5,11.5,11,12.5,10,10.5)
n<-length(x)
χ ¿¿ ¿ v <- var(x)
c <- 0.99
a <- 1-c
En R, 0.2638903 3.5880350 IC para la varianza x1 <- qchisq(1-a/2,n-1,lower.tail=F)
0.5137025 1.8942109 IC para la desviación estandar x2 <- qchisq(a/2,n-1,lower.tail=F)
li<-(n-1)*v/x2
ls<-(n-1)*v/x1
c(li,ls) # IC para la varianza
c(sqrt(li),sqrt(ls)) # IC para la desviación estándar

Análisis IC: Conclusión:


Con una confianza del 99% se estima que el kilometraje de cada Si, la desviación típica de los kilómetros recorridos por los autos con un litro de gasolina es
uno de los autos varía entre 0.5137025 1.8942109 km con inferior a 4 kilómetros.
respecto al kilometraje promedio
¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con
este procedimiento son válidas.

Ejemplo 3: Una Compañía de seguridad conoce por experiencia que aproximadamente todos los meses son introducidos en promedio ilegalmente en el país 28
millones de dólares en artículos. En 64 meses esta Compañía interceptó un promedio de 30.3 millones de dólares en artículos de contrabando con una desviación
estándar de 16 millones de dólares. Estime el real promedio del monto en contrabando con una confianza del 90%. Según el intervalo calculado,
¿puede concluirse que el contrabando está cogiendo más fuerza en el país?
Supuesto: Análisis del Supuesto:
Los datos deben tener un comportamiento Normal. El TLC garantiza que X́ es aproximadamente Normal sin importar la forma de la distribución
de donde provienen los datos.
Procedimiento (intervalo de confianza, con medidas, Script en R
Script 3) m=30.3
S s=16
x́ ∓ t (1− α ; n−1 ) n=64
2 √ n c<-0.90;a<-1-c
t <- qt(a/2,n-1,lower.tail=F)
30.3 ∓ 1.669402(16/ 64 )
√ li<-m-t*s/sqrt(n)
En R, 26.9612 ; 33.6388 ls<-m+t*s/sqrt(n)

c(li,ls) .
Análisis de intervalo: Conclusión:
Con una confianza del 90% se estima que el verdadero valor del Se puede decir que son introducidos ilegalmente 28 millones de dólares, pero no se puede
contrabando se encontrara entre 26.9612 y 33.6388 millones de afirmar que ha cogido mayor fuerza.
dólares.
¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con
este procedimiento es válido.

CONSTRUIR UN INTERVALO PARA DESVIACION ESTANDAR: ¿La variación del valor mensual en contrabando de los artículos varia más de 25 millones
con respecto al promedio mensual?
Supuesto: Análisis del Supuesto:
Los datos deben tener un comportamiento Normal. El TLC garantiza que X́ es aproximadamente Normal sin importar la forma de la distribución
de donde provienen los datos.
Procedimiento (intervalo de confianza, con medidas, Script en R:
Script 5) v=256
( n−1 ) S 2 n=64
c<-0.90
χ ¿¿ ¿ a<-1-c
x1 <- qchisq(1-a/2,n-1,lower.tail=F)
Con medidas x2 <- qchisq(a/2,n-1,lower.tail=F)
li<-sqrt((n-1)*v/x2)
En R, 13.97937 18.77741 ls<-sqrt((n-1)*v/x1)
c(li,ls)
Análisis IC: Conclusión:
Con una confianza del 90% se estima que el valor del contrabando Si la variación mensual del valor de los artículos de contrabando varia más de 25 millones con
mensual en artículos varía entre 13.97937 y 18.77741 millones de respecto al valor medio de contrabando de los artículos. De acuerdo con el coeficiente de
dólares con respecto al valor medio mensual de artículos de variación (52.81%), la variabilidad es grande, existe heterogeneidad con respecto al valor del
contrabando. contrabando mensual.
¿Es válido el procedimiento? Si dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con
este procedimiento son válidas.
Cuando no se cumple la normalidad, se puede transformar los datos (Logaritmo, Raíz cuadrada, Reciproco, Arco seno, etc….,) logrando mediante esta
transformación,, la normalidad de los datos y posteriormente para el análisis se re-transforman los datos. Cuando no se logra la normalidad mediante la
transformación, existen los métodos no paramétricos. Lamentablemente este tema no está considerado en este curso, se deja para que el alumno investigue por su
cuenta.

SCRIPT EN R, PARA LOS INTERVALOS DE LA MEDIA, Y LA DESVIACIÓN ESTÁNDAR


Ejemplo 4: Una compañía distribuidora cree que una llamada telefónica es más efectiva que una carta para acelerar el pago de las cuentas atrasadas. Se contactaron dos
grupos de clientes con cuenta atrasadas y se registró el tiempo (en días) entre el contacto y el día de pago, así:
CARTA: 10,8,9,11,11,14,10
TELEFONO: 7,4,5,4,8,6,9,13
Con una probabilidad del 0.95 pruebe si la creencia de la compañía es cierta.
a. Construya y analice un IC para estimar el tiempo medio para pagar las cuentas atrasadas mediante una carta:

Definición de variable: Datos: Media=m=10.42857, desviación estándar=s=1.902379, tamaño de muestra=7


Tiempo (en días) para pagar una cuenta atrasada usando una carta de la Valor t=1.9432
compañía

IC DE LA MEDIA SUPUESTOS EN R Script 1 IC CON DATOS EN R Script 2 IC CON MEDIDAS EN R Script


3

Normalidad: x<-c(10,8,9,11,11,14,10) m=10.42857


S ( N−n )
x́ ∓ t α

( 2 ;n−1) √ n ( N−1 ) Los datos de la muestra tienen un
Comportamiento normal o provienen
de una población normal.
n <- length(x)
m <- mean(x)
s <- sd(x)
c <- 0.95;a <- 1-c
s=1.902379
n=7
c<-0.95;a<-1-c
t <- qt(a/2,n-1,lower.tail=F)
t <- qt(a/2,n-1,lower.tail=F) li<-m-t*s/sqrt(n)
Shapiro.test(x) li <- m-t*s/sqrt(n) ls<-m+t*s/sqrt(n)
W=0.92669 p-value=0.5231 ls <- m+t*s/sqrt(n) c(li,ls) 8.669163 12.18798
(Se puede probar si se cuenta con c(li,ls) 8.669164 12.18798
los datos, de lo contrario no es
posible) Otra forma:
t.test(x, conf.level = 0.95)$conf.int o
t.test(x)$conf.int

En general:
t.test(x,conf.level=c)$conf.int

b. Construya un IC para estimar la desviación estándar del tiempo para pagar las cuentas atrasadas mediante una carta:

Definición de variable: Tiempo para pagar una cuenta atrasada por carta de la Datos: Desviación estándar=1.902379 tamaño de muestra=7, Valor chi-
compañía (en días) cuadrada=12.59
IC DESVIACION ESTANDAR SUPUESTOS EN R IC CON DATOS EN R Script 4 IC CON MEDIDAS EN R Script
5
( n−1 ) S 2 Normalidad: x<-c(10,8,9,11,11,14,10) v=3.619048
n<-length(x) n=7
χ ¿¿ ¿ La muestra proviene de una v <- var(x) c<-0.95
población normal. c <- 0.95 a<-1-c
a <- 1-c x1 <- qchisq(1-a/2,n-1,lower.tail=F)
Shapiro.test(x) x1 <- qchisq(1-a/2,n-1,lower.tail=F) x2 <- qchisq(a/2,n-1,lower.tail=F)
Se demostró en el anterior intervalo x2 <- qchisq(a/2,n-1,lower.tail=F) li<-sqrt((n-1)*v/x2)
para la media. li<-(n-1)*v/x2 ls<-sqrt((n-1)*v/x1)
ls<-(n-1)*v/x1 c(li,ls)
c(li,ls) 1.225881 4.189165 #IC para la
1.502784 17.549106 #IC para la desviación estándar
Varianza
c(sqrt(li),sqrt(ls)) # IC para la
desviación estándar
1.225881 4.189165

INTERVALO DE CONFIANZA PARA LA PROPORCION


La proporción se define como el número de veces (a) que se presenta una característica respecto al total de datos (n), p=(a/n). Es uno de los parámetros de cálculo más
sencillo, se calcula para variables de tipo cualitativo o variables categorizadas. Por ejemplo, si se estudia el color de ojos de un grupo de 20 personas, donde 7 de ellas los
tienen azules, la proporción de individuos con ojos azules, p =7/20=0.35 o 35%. Se puede pensar en una variable de tipo cuantitativo categorizada, por ejemplo, en un
grupo de personas se desea analizar aquellas personas menores de 18 años (suponga que de las 60 personas de estudio hay 12 personas que cumplen esa
característica), entonces la proporción de menores de 18 años será p =12/60= 0.2 0 el 20% del total.

Ejemplo 5: Se sabe que aproximadamente 1 de cada 10 fumadores prefiere la marca A de cigarrillos. ¿Después de una campaña publicitaria en una región, se entrevistó
a 200 fumadores y 26 manifestaron preferencia por la marca A. Puede considerarse que la campaña fue efectiva?
Supuesto: Análisis del Supuesto:
Los datos deben tener un comportamiento Normal. n p=0.13(200)=26 nq=0.87 (200)=174
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente
grande para que la distribución muestral de p puede ser aproximada por una distribución Normal.
Procedimiento (IC, con medidas, Script 6 ) n=200;x=26;p=x/n;c=0.95;a=1-c
p=26/200=0.13 z<-qnorm(a/2,lower.tail=F)
Z=1.96 li<-p-z*sqrt(p*(1-p)/n)
ls<- p+z*sqrt(p*(1-p)/n)
0.13(0.87)
0.13 ∓ 1.96
0.0834; 0.1766
√ 200
c(li,ls)
0.08339158 0.17660842
prop.test(26,200,conf.level=0.95) con corrección, El software R Efectúa corrección para
N −n
En R, 0.08819814 ; 0.18648006 Poblaciones finitas,
√ N −1
0.08819814 0.18648006

prop.test(26,200,correct=F,conf.level=0.95) sin corrección


0.09028202 0.18366352
Análisis de intervalo: Conclusión:
Con una confianza del 95% se estima que la verdadera No existe evidencia para poder decir que la campaña fue efectiva, dado que para decir esto el
proporción de fumadores que prefiere la marca A de cigarrillos intervalo debería estar todo por encima del 10%.
se encontrara entre 0.08819814 y 0.18648006 (a veces el
análisis se hace en porcentaje entre 8.81% y 18.64%).
¿Es válido el procedimiento? Si, dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con este
procedimiento son válidas.

Ejemplo 6: Una campaña de control de calidad se ha enfocado en reducir el porcentaje de automóviles nuevos vendidos por un fabricante, que se regresan para
reparaciones mayores. Antes de esta campaña el porcentaje era del 12%. Después de seis meses de la campaña de mejoramiento, la compañía hace una selección
aleatoria entre varios de sus distribuidores y determina el número de automóviles vendidos y el número de los que regresaron para reparaciones mayores. Durante el
periodo de la muestra, los distribuidores entregaron 1542 automóviles y 123 de ellos regresaron. ¿Fue efectiva la campaña de mejoramiento?
Supuesto: Análisis del Supuesto:
Los datos deben tener un comportamiento Normal. np=¿ 0.08(1542)=123.36
nq=0.92(1542)=1418.64
Dado que estos dos valores son mayores que 5, el tamaño de la muestra es lo suficientemente
grande para que la distribución muestral de p puede ser aproximada por una distribución Normal.
Procedimiento (intervalo de confianza, Script en R:
con medidas,Script 6 40) prop.test(123,1542,conf.level=0.95)
p=¿123/1542= 0.08 Z=1.96
0.06696609 0.09470544
0.08( 0.92)
0.08 ∓ 1.96
√1542
En R, 0.06696609 0.09470544
0.0665 ; 0.0935

Análisis de intervalo: Conclusión:


Con una confianza del 95% se estima que la verdadera La campaña de mejoramiento si fue efectiva debido a que se redujo la proporción de autos que
proporción de autos que regresan para reparaciones mayores se regresan para reparaciones, todo el intervalo se encuentra por debajo del 12%.
encontrará entre el 6.70% y 9.47%.
¿Es válido el procedimiento? Si dado que se cumple el supuesto de Normalidad. Las estimaciones que se hagan con este
procedimiento son válidas.

SCRIPT EN R PARA INTERVALO DE CONFIANZA DE UNA PROPORCION


Ejemplo 7: En una encuesta realizada entre los accionistas de una compañía 300 (x) de 500 (n1) hombres estuvieron a favor de lanzar una nueva línea de
productos, mientras 64 (y) de 100 (n2) Mujeres apoyaron el proyecto. ¿Puede concluirse con una confianza del 99% que la proporción de mujeres que no están de
acuerdo con el proyecto es mayor que la de los hombres?
a. Construya un IC del 99% para estimar la proporción de hombres que apoyaron el proyecto

IC PARA UNA PROPORCION SUPUESTO EN R IC CON MEDIDAS EN R Script 6 OBSERVACION

Normalidad: n=500;x=300;p=x/n;c=0.99;a=1-c El software R efectúa la corrección para


p.q El tamaño de la muestra z<-qnorm(a/2,lower.tail=F) N −n
p∓Z
( )
1−
α
2
√ n
debe ser lo suficientemente
grande para que
distribución muestral de p
la
li<-p-z*sqrt(p*(1-p)/n)
ls<- p+z*sqrt(p*(1-p)/n)
c(li,ls) [1] 0.5435664 0.6564336
poblaciones finitas,
√ N −1
métodos de aproximación, así:
mediante

pueda ser aproximada


por una distribución Normal, Prop.test(x,n,correct=T,conf.level=0.99) o
si n p=0.6∗500=300>5 prop.test(x,n,correct=F,conf.level=0.99)$conf.int Prop.test(x,n,conf.level=0.99)
[1] 0.5426123 0.6547685
nq=0.4∗500=200>5
Si no desea que R efectué la corrección
prop.test(x,n,correct=T,conf.level=0.99)$conf.int debe especificar:
[1] 0.5416024 0.6557323 o también, Prop.test(x,n,correct=F,conf.level=0.99)

prop.test(x,n,conf.level=0.99)$conf.int
[1] 0.5416024 0.6557323

o tambien: prop.test(300,500,conf.level=0.99)