Está en la página 1de 61

Unidad II: Teoría del muestreo y estimaciones

ESTADÍSTICA INFERENCIAL APLICADA

Mg. Mijail Davis Huamán Romero

(mhuamanr1@usmp.pe)

Universidad de San Martin de Porres - USMP

0 / 60
Contenido

1. Teoría del muestreo

2. Estimaciones puntuales y por intervalo para variables


cuantitativas

3. Estimaciones puntuales y por intervalo para variables


cualitativas

1 / 60
1. Teoría del muestreo

1. Teoría del muestreo 2 / 60


1. Teoría del muestreo

▶ La población es el conjunto de todos los elementos de interés


en un estudio determinado.
▶ La muestra es un subconjunto de la población.
▶ El resultado de observar o medir una característica de un ele-
mento de la población, se denomina dato u observación.
▶ Una variable es una característica de los elementos de una
población. Dicha característica debe ser factible de medirse u
observarse.

1. Teoría del muestreo 3 / 60


Población y muestra

Población: El conjunto de todos los alumnos universitarios.


Unidad estadística: Alumnos universitarios.
Muestra: El conjunto de los alumnos de la USMP, el conjunto de
alumnos del curso de Uso de Probabilidad.
Variables: Edad, sexo, ciclo, promedio ponderado, ingresos, etc.

1. Teoría del muestreo 4 / 60


Marco Muestral

¿Qué es un Marco Muestral?


▶ Lista de los elementos o grupos de elementos desde la cual, la
muestra es seleccionada.
▶ Sin ellos es muy difícil poder utilizar un muestreo probabilístico.
▶ También forman parte de él: mapas, direcciones, información
auxiliar.

Por ejemplo: Guía telefónica, lista de empresas o locales productivos,


listado de viviendas, listado de pacientes dentro de un hospital, etc.

1. Teoría del muestreo 5 / 60


Marco Muestral

¿Por qué es tan importante?


Porque de el depende:
▶ La población que realmente se va a estudiar y sobre la que se
va hacer inferencia.
▶ El tipo de diseño muestral a emplear.
▶ Del tipo de unidad que se va a muestrear.
▶ De como se va a llegar a la población.
▶ El tipo de procedimiento de estimación para obtener los resul-
tados.

1. Teoría del muestreo 6 / 60


Tipo de errores muestrales
Errores muestrales

▶ Es el error que surge por estudiar a una parte de la población.


▶ Su magnitud es desconocida y por lo tanto imposible de calcular.
▶ Se sabe que disminuye cuando aumenta el tamaño de la muestra, que
depende del diseño aplicado y del estimador empleado.
▶ Si la muestra está diseñada de forma probabilística es posible controlar
su magnitud y dar una estimación del mismo.
▶ Tanto la variancia como el desvío estándar lo cuantifican pero no son
las únicas medidas que lo hacen.

Errores no muestrales

▶ Otros errores ajenos al muestreo: no respuesta, codificación, encues-


tador, encuestado, lógico, etc.
▶ No disminuyen cuando el tamaño de la muestra aumenta.
▶ Muy pero muy difíciles de medir.
1. Teoría del muestreo 7 / 60
Parámetros poblacionales

▶ Es una medida resumen de una característica o atributo medido


sobre la población objetivo, o sea, θ = f (y1 , y2 , ..., yN )
▶ Es una magnitud fija y desconocida.
▶ Es descriptivo de la población en cuestión.
▶ Tiene sentido práctico y estadístico
▶ Algunos ejemplos:
▶ Total poblacional
▶ Media poblacional
▶ Un parámetro puede ser función de valores de 2 o más variables,
por ejemplo, la razón entre los totales poblacionales y y z.

P
ty Yk
θ= = PU
tz U Zk

1. Teoría del muestreo 8 / 60


Estimador (o estadístico)
▶ Llamaremos θ̂ = θ̂(S) al estimador de θ.
▶ Es una formulación algebraíca aplicable a la muestra que trata de
dar respuesta sobre un parámetro, o sea, θ̂ = g(yi1 , yi2 , ...., yin ).
▶ Existen infinitos estimadores para cualquier parámetro.

Distribución muestral del estimador

▶ Para cada muestra posible se origina una estimación y estos val-


ores permiten definir la distribución muestral o probabilistica del es-
timador.
▶ La distribución muestral de un estimador me va permitir:
▶ Conocer sus propiedades.
▶ Fijar criterior comparativos entre distintos estimadores.
▶ Evaluar su precisión y su exactitud.
▶ Determinar si es adecuado o no para un diseño muestral
específico.
▶ Calcular el tamaño de una muestra (con otros insumos).
1. Teoría del muestreo 9 / 60
Muestreo aleatorio

En el muestreo aleatorio todos los elementos tienen la misma proba-


bilidad de ser elegidos. Los individuos que formarán parte de la mues-
tra se elegirán al azar mediante números aleatorios. El muestreo
aleatorio puede realizarse de distintas maneras, las más frecuentes
son el sistemático, el estratificado y el muestreo por conglomerados.

1. Teoría del muestreo 10 / 60


Tipos de muestreo
Muestreo simple al azar

▶ Es aquella que para un tamaño dado todas las muestras posibles del marco
tienen la misma posibilidad de ser seleccionadas.
▶ Esto permite que cada miembro de la población tenga igual chance o prob-
abilidad de ser incluido en una muestra.
▶ Probabilidades de inclusión iguales para todos.
▶ Bajo el muestreo simple al azar, cada muestra s de tamaño n tiene la misma
probabilidad de selección:

 1
si s es de tamaño n
Pd (s) = (Nn )
0 en otro caso

▶ La probabilidad de inclusión de primer orden es πk = n


N
= f ∀k ∈ U,
donde f se denomina fracción de muestreo.
n(n−1)
▶ La probabilidad de inclusión de segundo orden es πk = N(N−1)
∀k ̸= I, k ∧
I∈U

1. Teoría del muestreo 11 / 60


Determinación del tamaño de muestra

▶ De que depende el tamaño de muestra?


▶ De los recursos y del presupuesto.
▶ Del tipo de población en estudio.
▶ Del tipo de variable bajo estudio (cuantitativa o atributo)
▶ Del grado de homogeneidad de la misma en la población.
▶ Del diseño muestral empleado.
▶ Del tipo de estimador a emplear.
▶ Elementos necesarios para determinar el tamaño
▶ Margen de error.
▶ Nivel de confianza.
▶ Magnitud de la dispersión de la variable en estudio.

1. Teoría del muestreo 12 / 60


Caclulo del tamaño de la muestra
▶ Para la estimación de una media poblacional:

z 2S 2
n0 =
c2

▶ Para la estimación de una proporción poblacional:

z 2 pq
n0 =
c2

▶ En ambos casos, si n0
N no es despreciable, el tamaño difinitivo
es:

n0
n=
1 + nN0

1. Teoría del muestreo 13 / 60


Tamaño de muestra para la estimación de la media
poblacional “u”

(zα/2 )2 σ 2 N
n=
(zα/2 )2 σ 2 + e 2 (N − 1)

n : Tamaño de muestra
N : Tamaño de la población
zα/2 : Valor estándar de Z con nivel de α
e : Precisión o error admitido
σ : Desviación estándar poblacional

1. Teoría del muestreo 14 / 60


Tamaño de muestra para la estimación de la
proporción poblacional “p”

(zα/2 )2 p(1 − p)N


n=
(zα/2 )2 p(1 − p) + e 2 (N − 1)

n : Tamaño de muestra
N : Tamaño de la población
zα/2 : Valor estándar de Z con nivel de α
e : Precisión o error admitido
p : Proporción poblacional de éxito

1. Teoría del muestreo 15 / 60


Margen de error
Son dos números que para un tamaño de muestra y un estimador
dado permiten fijar el porcentaje de muestras (sobre todas las posi-
bles) que brindan estimaciones entre los límites que esos números
definen.

Es la cantidad de error que se espera con un tamaño de muestra y


un diseño dado a cierto nivel de confianza.

1. Teoría del muestreo 16 / 60


Nivel de confianza

Magnitud que señala el porcentaje de muestras sobre las posibles


que brindan estimaciones dentro de los márgenes de error fijados.

el nivel de confianza indica el porcentaje de “muestras buenas” que


nos permitimos.

1. Teoría del muestreo 17 / 60


Grado de homogeneidad

▶ Es la disperción de la variable en la población.


▶ Es la magnitud que señala cuán diferentes son las unidades de
la población en la variable de estudio.
▶ Varianza, desviación estándar, rango intercuartil, son elementos
que dan idea de esta magnitud.

1. Teoría del muestreo 18 / 60


Muestreo sistemático

En este caso se elige el primer individuo al azar y el resto viene


condicionado por aquél. Este método es muy simple de aplicar en
la práctica y tiene la ventaja de que no hace falta disponer de un
marco de encuesta elaborado.
▶ Un primer elemento es seleccionar al azar, con igual probabili-
dad entre los primeros x elementos del marco muestral.
▶ El número x (entero y positivo) es fijado y se lo denomina
intervalo muestral.
▶ El resto de la muestra es determinada sistematicamente
tomando cada x elementos hasta llegar al final de la lista.
▶ Por lo tanto hay solo x muestras posibles, cada una con prob-
abilidad de selección igual a x1 .

1. Teoría del muestreo 19 / 60


Muestreo estratificado

Se divide la población en grupos en función de un carácter determinado


y después se muestrea cada grupo aleatoriamente, para obtener la parte
proporcional de la muestra.
¿Por qué se estratifica?

▶ Para lograr homogeneidad en las sub poblaciones o estratos y por lo


tanto disminuir la dispersión general de la variable en estudio.
▶ Para lograr mayor precisión en los resultados.
▶ Para disminuir el tamaño de la muestra.
▶ Para brindar estimaciones en las sub poblaciones o estratos más
importantes.
▶ Cuando se requiere incrementar la eficiencia de la muestra por
unidad de costo operativo.

1. Teoría del muestreo 20 / 60


Tamaño de muestra para la estimación de la media
poblacional “u”
Asignación proporcional
Este método de asignación de la muestra a los estratos es llamado asignación propor-
cional por que los tamaños de muestra n1 , n2 , n3 , ...nL son proporcionales a los tamaños
de los estratos N1 , N2 , N3 , ...NL .
B2
D= 4

PL
N σ2
i=1 i i
n= L
1
P
ND + N
N σ2
i=1 i i
!
Ni
ni = n PL
i=1
Ni

n : Tamaño de muestra total


ni : Tamaño de la muestra de cada estrato L
B : Error de estimación
σ 2 : Varianza poblacional
N : Tamaño de la población
1. Teoría del muestreo 21 / 60
Tamaño de muestra para la estimación de la
proporción poblacional “p”
Asignación proporcional
Este método de asignación de la muestra a los estratos es llamado asignación propor-
cional por que los tamaños de muestra n1 , n2 , n3 , ...nL son proporcionales a los tamaños
de los estratos N1 , N2 , N3 , ...NL .
B2
D= 4

PL
i1
Ni p̂i q̂i
n= PL
1
ND + N i=1
Ni p̂i q̂i
!
Ni
ni = n PL
i=1
Ni

n : Tamaño de muestra total


ni : Tamaño de la muestra de cada estrato L
B : Error de estimación
p : Proporción poblacional de éxito
N : Tamaño de la población
1. Teoría del muestreo 22 / 60
Muestreo conglomerado

Se divide la población en varios grupos de características parecidas


entre ellos y luego se analizan completamente algunos de los gru-
pos, descartando los demás. Dentro de cada conglomerado existe
una variación importante, pero los distintos conglomerados son pare-
cidos.

1. Teoría del muestreo 23 / 60


Pruebas paramétricas y no paramétricas

Se le conoce como aquel número determinado de sujetos o cosas que


componen la muestra extraída de una población, necesarios para que
los datos obtenidos sean representativos de la población.
Pruebas paramétricas
Las pruebas paramétricas son una herramienta estadística que se
utiliza para el análisis de los factores de la población. Esta muestra
debe cumplir ciertos requisitos como el tamaño, ya que mientras
más grande sea, más exacto sera el cálculo.
Pruebas no parametricas
Son las que se basan en determinadas hipótesis, pero los datos obser-
vados no tienen una organización normal. Generalmente, las pruebas
no paramétricas contienen resultados estadísticos que provienen de
su ordenación, lo que las vuelve más fáciles de comprender.

1. Teoría del muestreo 24 / 60


2. Estimaciones puntuales y por intervalo
para variables cuantitativas

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 25 / 60
Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de


valores donde es más probable se encuentre el parámetro.
µ1 = media poblacional 1
µ2 = media poblacional 2
La diferencia de medias poblacionales es µ1 − µ2
Para estimar µ1 − µ2 ,se calculan las dos medias muestrales x¯1 − x¯2
Estimador puntual de la diferencia entre las dos medias pobla-
cionales

x¯1 − x¯2

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 26 / 60
Error estandar de la diferencia de medias

Cuando se tienen dos muestras aleatorias simples independientes, el


error estándar de x¯1 − x¯2 es el siguiente:
s
σ12 σ22
σx¯1 −x¯2 = +
n1 n2

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 27 / 60
Estimación puntual de la media poblacional

Estimación de la media poblacional

PN
i1 xi
µ=
N
Intervalo de estimación para la media poblacional

σ
x̄ ± zα/2 √
n

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 28 / 60
Estimación por intervalo de la diferencia entre dos
medias poblacionales conocidas

s
σ12 σ22
(x¯1 − x¯2 ) ± zα/2 +
n1 n2

x̄1 y x̄2 : Son las medias muestrales


σ1 y σ2 ; Son las desviaciones estándar

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 29 / 60
Ejemplo para la estimación de intervalo de una
diferencia de medias poblacionales

En una tienda de departamento. De acuerdo con datos de anteriores


estudios demográficos sobre los clientes, las dos desviaciones están-
dar poblacionales se conocen y son σ1 = 9 años y σ2 = 10 años. De
los datos de las dos muestras aleatorias simples independientes de
los clientes de la tienda de departamento se obtuvieron los siguientes
resultados.

Tienda principal Tienda secundaria


Tamaño de la muestra n1 = 36 n2 = 49
Media muestral x̄1 = 40 años x̄2 = 35 años

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 30 / 60
Solución
La diferencia entre las dos medias poblacionales es x̄1 − x̄2 = 40 − 35 = 5
años. Por ende, se estima que, en promedio, los clientes de la tienda
principal son cinco años mayores que los clientes de la tienda secundaria.
Ahora, calculamos el margen de error y se proporciona una estimación por
intervalo de µ1 − µ2 . Si tiene 95% de confianza y zα/2 = z0.025 = 1.96 :
s
σ12 σ2
(x̄1 − x̄2 ) ± zα/2 + 2
n1 n2
r
92 102
(40 − 35) ± 1.96 +
36 49

5 ± 4.06

El margen de error es 4.06 años y la estimación por intervalo de 95% de


confianza va de 5 - 4.06 = 0.94 años a 5 + 4.06 = 9.06 años
2. Estimaciones puntuales y por intervalo para variables
cuantitativas 31 / 60
Ejercicio 1

Una muestra de 150 bombillas de la marca A mostró un tiempo de


vida media de 1400 horas y una desviación estándar de 120 horas.
Una muestra de 200 bombillas de la marca B mostró un tiempo de
vida media de 1200 horas y una desviación estándar de 80 horas.
Encontrar los limites de confianza de 95%, para la diferencia de los
tiempos de vida media de las poblaciones de la marca A y B.

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 32 / 60
Solución

Marca A Marca B
n1 = 150 bombillas n2 = 200 bombillas
x̄1 = 1400 horas x̄2 = 1200 horas
σ1 = 120 horas σ2 = 80 horas

α = 0.05
s
σ12 σ22
(x̄1 − x̄2 ) ± zα/2 +
n1 n2

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 33 / 60
Solución

s
1202 802
(1400 − 1200) ± 1.96 +
150 200

177.83 ≤ µ1 − µ2 ≤ 222.17

La diferencia de los tiempos de vida de las poblaciones de la marca


A y B oscila entre 177.83 y 222.17 para un nivel de confianza de
95%.

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 34 / 60
Ejercicio 2

El banco del Estado de Río desea estimar la diferencia entre las me-
dias de los saldos de las tarjetas de crédito de dos de sus sucursales.
Una muestra independiente de tarjeta de habitantes generaron los
resultados que aparecen en la siguiente tabla. Determinar un in-
tervalo de confianza de 90% para la diferencia entre medias de los
saldos.

Sucursal 1 Sucursal 2
n1 = 32 n2 = 36
x̄1 = $500 x̄2 = $375
σ1 = $150 σ2 = $130

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 35 / 60
Solución

Sucursal 1 Sucursal 2
Medias 500 375
Desviaciones 150 130
n 32 36

α = 0.1
s
σ12 σ22
(x̄1 − x̄2 ) ± zα/2 +
n1 n2

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 36 / 60
Solución

s
1502 1302
(500 − 375) ± 1.65 +
32 36

68.5 ≤ µ1 − µ2 ≤ 181.5

El intervalo de confianza de 90% para la diferencia entre las medias


de los saldos oscila entre 68.5 y 181.5

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 37 / 60
Prueba de hipótesis

Ahora se veran las pruebas de hipótesis acerca de la diferencia


entre dos medias poblacionales, D0 denota la diferencia hipotética
entre µ1 y µ2 , las tres formas que pueden tener una prueba de
hipótsis son las siguientes:
H0 : µ 1 − µ 2 ≥ D 0 H0 : µ 1 − µ 2 ≤ D 0 H0 : µ1 − µ2 = D0
Ha : µ 1 − µ 2 < D 0 Ha : µ 1 − µ 2 > D 0 Ha : µ1 − µ2 ̸= D0

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 38 / 60
Estadístico de prueba para prueba de hipótesis

Para µ1 − µ2 : σ1 y σ2 conocidas

(x̄1 − x̄2 ) − D0
z= r
σ12 σ22
n1 + n2

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 39 / 60
Ejemplo

En exámenes estandarizados practicados ya en diversas ocasiones,


siempre se ha obtenido una desviación estándar cercana a 10 puntos.
por tanto, usará esta información y considerará que las desviaciónes
estándar poblacionales se conocen y que son σ1 = 10 y σ2 = 10.
Para este estudio se especifica un nivel de significancia α = 0.05.
Con muestras aleatorias simples independientes de n1 = 30 individ-
uos del centro de enseñanza A y n2 = 40 individuos del centro de
enseñanza B. Las medias muestrales correspondientes son x̄1 = 82
y x̄2 = 78. ¿Estos datos indican que existen una diferencia significa-
tiva entre las medias poblacionales de los dos centros de enseñanza?.

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 40 / 60
Solución

Para responder esta pregunta se calcula el estadístico de prueba empleando


la siguiente ecuación.

(x̄1 − x̄2 ) − D0 (82 − 78) − 0


z= q 2 2
= q = 1.66
σ1 σ2 102 102
n1 + n2 30 + 40

A continuación se calcula el valor-p de esta prueba de dos colas. Como el


estadístico de prueba z se encuentra en la cola superior, se calcula primero
el área bajo la curva a la derecha de z = 1.66. En la tabla de la distribución
normal estándar, el área a la izquierda de z = 1.66 es 0.9515. Por ende,
el área en la cola superior de la distribución es 1.000 - 0.9515 = 0.0485.
Como es una prueba de dos colas, hay que duplicar el área que queda a la
cola: el valor-p = 2(0.0485) = 0.0970. Como la regla es rechazar H0 si el
valor-p ≤ α , puesto que el valor-p es 0.0970, no se puede rechazar H0 al
nivel de significancia 0.05.

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 41 / 60
Inferencia acerca de la diferencia entre dos medias
poblacionales desconocidas
Estimación por intervalos para la diferencia entre dos medias
poblacionales desconocidas
s
s12 s2
(x̄1 − x̄2 ) ± tα/2 + 2
n1 n2

donde 1 - α es el coeficiente de confianza.


Estadistico de prueba para pruebas de hipótesis
Para µ1 − µ2 : σ1 y σ2 desconocidas

(x̄1 − x̄2 ) − D0
t= r
s12 s22
n1 + n2

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 42 / 60
Ejemplo

El investigador encargado de la evaluación del nuevo software espera


poder demostrar que con el nuevo software se necesita menos tiempo
para el proyecto del sistema de información. De manera que el
investigador tratará de hallar evidencias que le permitan concluir que
µ2 es menor que µ1 , caso en el que la diferencia µ1 - µ2 será mayor
que cero. La hipótesis de investigación µ1 - µ2 > 0 se establece
como la hipótesis alternativa. Por lo que la prueba de hipótesis será
H0 : µ1 − µ2 ≤ 0
Ha : µ1 − µ2 > 0
Como nivel de significancia se usará α = 0.05

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 43 / 60
Ejemplo
Datos:

Software antiguo Software nuevo


300 274
280 220
344 308
385 336
372 198
360 300
288 315
321 258
376 318
290 310
301 332
283 263

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 44 / 60
Resumen Estadístico

Resumen estadístico Software antiguo Software nuevo


Tamaño de la n1 = 12 n2 = 12
muestra
Media muestral x̄1 = 325 horas x̄2 = 286 horas
Desviación estándar s1 = 40 s2 = 44
muestral

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 45 / 60
Solución

(325 − 286) − 0
t= q = 2.27
402 442
12 + 12

Para calcular los grados de libertad usamos la siguiente fórmula y


reemplazamos:

s2 s22 2 442
( n11 + n2 ) ( 40
12 + 12 )
gl = s12 2 s22 2
= 1 402 2 1 442 2
= 21.8
12−1 ( 12 ) + 12−1 ( 12 )
1 1
n1 −1 ( n1 ) + n2 −1 ( n2 )

Al redondear hacia abajo, se usará una distribución t con 21 grados


de libertad.

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 46 / 60
Solución

Área en la cola superior 0.20 0.10 0.05 0.025


Valor t (21 gl) 0.859 1.323 1.721 2.080

α
Entonces para un valor t (21 gl) y 2 = 0.025 es de 2.080.
En una prueba de la cola superior, el valor-p es el área en la cola
superior a la derecha de t = 2.27. De acuerdo con este resultado
se ve que el valor-p está entre 0.025 y 0.01. Por tanto, el valor-p
es menor que α = 0.05 y se rechaza H0 . Los resultados muestrales
permiten al investigador concluir que µ1 − µ2 > 0, o que µ1 > µ2 .
La investigación favorece la conclusión de que con el nuevo software
el tiempo requerido es menor.

2. Estimaciones puntuales y por intervalo para variables


cuantitativas 47 / 60
3. Estimaciones puntuales y por intervalo
para variables cualitativas

3. Estimaciones puntuales y por intervalo para variables


cualitativas 48 / 60
3. Estimaciones puntuales y por intervalo para
variables cualitativas

Para las inferencias acerca de estas diferencias, se seleccionan


dos muestras aleatorias independientes, una de n1 unidades de la
población 1 y otra de n2 unidades de la población 2.
Inferencia acerca de la diferencia entre dos proporciones pobla-
cionales

p̄1 − p̄2

Como ocurre con otros estimadores puntuales, p̄1 y p̄2 tiene una
distribución muestral que refleja los valores que podría tomar p̄1 y p̄2
si se tomaran repetidas muestras aleatorias simples independientes.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 49 / 60
Error estándar y estimación de intervalos

Error estandar
s
(1 − p1 ) p2 (1 − p2 )
σp̄1 −p̄2 = +
n1 n2

Estimación por intervalo para la diferecnia entre dos porpor-


ciones poblacionales
s
p̄1 (1 − p̄1 ) p̄2 (1 − p̄2 )
p̄1 − p̄2 ± zα/2 +
n1 n2

donde 1 - α es el coeficiente de confianza.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 50 / 60
Ejemplo
tenemos los siguintes datos de 2 oficinas en la siguiente tabla.

Oficina 1 Oficina 2
n1 = 250 n2 = 300
Número de declaraciones con Número de declaraciones con
errores = 35 errores = 27

Las proporciones muestrales en cada una de las oficinas son las siguientes.
35
p̄1 = 250 = 0.14
27
p̄2 = 300 = 0.09
La estimación puntual de la diferencia entre las proporciones de declara-
ciones con errores en las dos poblaciones es p1 − p2 = 0.14 − 0.09 = 0.05.
Entonces se estima que la oficina 1 comete 0.05 o 5% más errores que la
oficina 2.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 51 / 60
Ejemplo

Ahora calcularemos la estimación por intervalos, para lo cual reem-


plazamos los datos, con un 90% de confianza.
donde zα/2 = z0.05 = 1.645
s
0.14(1 − 0.14) 0.09(1 − 0.09)
0.14 − 0.09 ± 1.645 +
250 300

0.05 ± 0.045
El margen de error es 0.045 y el intervalo de 90% de confianza es el
intervalo que va de 0.005 a 0.095.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 52 / 60
Prueba de hipótesis acerca de p1 - p2

Ahora se considerarán las pruebas de hipótesis acerca de la diferen-


cia entre las proporciones de dos poblaciones. Se verán pruebas que
comprenden el caso en que no hay diferencia entre las dos propor-
ciones poblacionales. En tal caso, las tres formas de las pruebas de
hipótesis son las siguientes:
H0 : p 1 − p 2 ≥ 0 H0 : p1 − p2 ≤ 0 H0 : p1 − p2 = 0
Ha : p 1 − p 2 < 0 Ha : p1 − p2 > 0 Ha : p1 − p2 ̸= 0

3. Estimaciones puntuales y por intervalo para variables


cualitativas 53 / 60
Error estándar y estimador combinado de p cuando
p1=p2=p

Para p̄1 − p̄2 cuando p̄1 = p̄2 = p


s s
p(1 − p) p(1 − p) 1 1
σp̄1 −p̄2 = + = p(1 − p)( − )
n1 n2 n1 n2

Estimador combiando

n1 p̄1 + n2 p̄2
p̄ =
n1 + n2

El estimador combinado de p es un promedio ponderado de p̄1 y p̄2 .

3. Estimaciones puntuales y por intervalo para variables


cualitativas 54 / 60
Estadístico de prueba para pruebas de hipótesis

(p̄1 − p̄2 )
z=q
p̄(1 − p̄)( n11 + 1
n2 )

Ejemplo
Una empresa que se dedica a elaborar declaraciones de impuestos,
suponga que la empresa desea realizar una prueba de hipótesis para
determinar si las proporciones de errores en las dos oficinas son
diferentes. Para esto, se requiere una prueba de hipótesis de dos
colas. Las hipótesis nula y alternativa son las siguientes:
H0 : p 1 − p 2 = 0
Ha : p1 − p2 ̸= 0

3. Estimaciones puntuales y por intervalo para variables


cualitativas 55 / 60
Ejemplo
Para un nivel de significancia se usará α = 0.10
En los datos muestrales recogidos previamente se encuentra que p̄1 = 0.14
en la muestra de n1 = 250 declaraciones de la oficina 1 y p̄2 = 0.09 en
la muestra de n2 = 300 declaraciones en la muestra de la oficina 2. A
continuación se calculará la estimación combinada de p.

n1 p̄1 + n2 p̄2 250(0.14) + 300(0.09)


p̄ = = = 0.1127
n1 + n2 250 + 300

con la estimación combinada y la diferencia entre las proporciones mues-


trales, se obtienen el valor estadístico de prueba como se indicara a con-
tinuación:

(p̄1 − p̄2 ) (0.14 − 0.09)


z=q =q = 1.85
p̄(1 − p̄)( n11 + 1
n2 )
1
0.1127(1 − 0.1127)( 250 + 1
300 )

3. Estimaciones puntuales y por intervalo para variables


cualitativas 56 / 60
Ejemplo

Para calcular el valor-p para esta prueba de dos colas, se observa,


primero, que z = 1.85 se encuentra en la cola superior de la dis-
tribución normal estándar. A partir de z = 1.85 y la tabla de la
distribución normal estándar, se encuentra que el área en la cola
superior es 1.0000 - 0.9678 = 0.0322. Multiplicando esta área por
dos, dado que se trata de una prueba de dos colas, se encuentra que
el valor-p es 2(0.0322) = 0.0644. Como el valor-p es menor a α =
0.10, se rechaza H0 para el nivel de significancia 0.10.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 57 / 60
Ejercicio

La proporcion de votantes a favor del candidato A es mayor que la


proporción de votantes del candidato B? use 95% de confianza para
responder.
Suponga que en una muestra de 1000 personas, 340 dijeron que
votarían por A. En otra muestra de 1000 personas 450 dijeron que
votarían por B.
Calcular el intervalo de confianza y interprete su respuesta.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 58 / 60
Solución
Calculamos el porcentaje de éxitos en las muestras p1 y p2 :

x1 340
p̂1 = = = 0.34
n1 1000

x2 450
p̂2 = = = 0.45
n2 1000

Según la confianza el valor de Z α será:


2

Z α = 1.96
2

Primero, el límite inferior del intervalo

r
0.34(1 − 0.34) 0.45(1 − 0.45)
(0.34 − 0.45) − 1.96 + = −0.1525776
1000 1000

Ahora el límite superior:

r
0.34(1 − 0.34) 0.45(1 − 0.45)
(0.34 − 0.45) + 1.96 + = −0.06742241
1000 1000
3. Estimaciones puntuales y por intervalo para variables
cualitativas 59 / 60
Solución

El intervalo va de -0.153 a -0.067. Se observa que el 0 no esta


contenido en el intervalo y que los dos limtes son negativos, por lo
que se puede decir que:
Al 95% de confianza, la proporción que votará por A es menor que
la proporción de votantes de B.

3. Estimaciones puntuales y por intervalo para variables


cualitativas 60 / 60

También podría gustarte