Está en la página 1de 21

Parte 1

Tamaño de muestra

Utilizando la variable edad (P6040), realice lo siguiente:

● Realice un histograma y describa la información según la forma y la curtosis


de los datos.

Ahora veamos la medida de forma la curtosis (o apuntamiento) la cual mide cuan


escarpada o achatada esta una curva o distribución.

El coeficiente de curtosis viene dado por la siguiente ecuación:


∑𝑁
𝑁=1 (𝑁𝑁 −𝑁)4
Curtosis= −3
𝑁𝑁4

Siendo
𝑁=la media
S=desviación típica

La curva se puede clasificar en 3 grupos según el signo de la curtosis, es decir


según el signo de la distribución.
➢ Leptocurtica: la curtosis>o. los datos están muy concentrados en la media
siendo una curva muy apuntada
➢ Mesocurtica: : la curtosis=0 la distribución es normal
➢ platicurtica: la curtosis<o. muy poca concentración de datos en la media
presentando una forma muy hachada.
Del resumen de los datos se tienen que

Media = 30,525 Desviación Estándar = 19,6759

(24−30.525)4 (1−30.525)4
Luego Curtosis=( 4 + ⋯ + (320)(19.67594 ) − 3 = - 0.749137
(320)(19.6759

Luego respecto a la información de los datos (edad “p6040”) Según la forma la


curtosis es platicurtica muy poca concentración de datos en la media presentando
una forma muy hachada. Es decir el valor de curtosis no se encuentra dentro del
rango esperado para datos provenientes de una distribución normal.

● Realice una descripción numérica y descripción como es la población.

La población consta de 31 variables las cuales están clasificadas como numéricas


y categóricas dichas variables están clasificados como directorios, secuencias
orden, hogar, Registro p6016, p6020 edad p6040, clase, mes Dpto. Entre otras,
algunas variables tienen un tamaño de 320 datos

● Calcule una nueva variable que sea el

A partir de la variable 𝑁6040𝑁𝑁𝑁 vamos a generar una nueva variable la cual seria
𝑁60402/3
● Teniendo en cuenta la variable anterior realice el cálculo del tamaño de
muestra, utilizando la siguiente fórmula:

Donde, se tiene lo siguiente:


Z: Es el cuantil de la distribución normal estándar al nivel de significancia que se
establezca.

S: Es la desviación estándar de la variable.

Es el margen de error absoluto.

Para calcular el tamaño de la muestra, utilice un nivel de confianza del 95% y un


margen de error de absoluto que no supere 0.5.

Del resumen de los datos anteriores se tiene:

µ=9.2162

S=4.4333

=0.5

N=320

Con un nivel de confianza del 95% es decir α=0.05 entonces el cuantil de la


distribución normal estándar seria 𝑁𝑁/2 =𝑁0.05/2 = 1.96

Así reemplazando en la ecuación anterior se tiene:

𝑁2 𝑁2 (1.96)2 (4.4333)2
𝑁0 = 2 = =302.01≅ 302 es decir
𝑁 (0.5)2

𝑁0 = 302

● Teniendo en cuenta los resultados anteriores, realice una selección de


elementos para una muestra, utilizando el algoritmo del coordinado negativo.

Veamos la implementación del algoritmo del coordinado negativo. Para realizar


una selección de elemento para una muestra.

Así para extraer la muestra de tamaño n de un universo de N objetos.

Generar N realizaciones de una variable aleatoria 𝜀𝑁 (k ∈ U) con distribución


uniforme (0,1).

Asignar 𝜀𝑁 al elemento k-´esimo de la población.


Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio 𝜀𝑁 .
A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta
selección corresponde a la muestra realizada.

En este caso note que

𝑁0 = 302
Intervalo de confianza para dos variables numéricas
Un investigador, cree determinar que existen diferencias entre los niveles de estudio de los hombres
y las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de la hoja
“muestra” y realizar lo siguiente:

● Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma para los
hombres y mujeres. Según los resultados, ¿Existen diferencias?

(Grafico # 1)
Del gráfico de
frecuencia
anterior se
tiene existen
mucha
diferencia en
cuanto a la
comparación
entre las
variables escolaridad (ESC) y sexo (P6020) hombres y mujeres, es decir el nivel de
escolaridad en mujeres se encuentra entre 0 a 19 mientras que en los hombres de 0 a
20, también se puede ver que 30 mujeres se encuentran en un nivel de escolaridad 10,
y 17 mujeres tienen nivel de escolaridad 0 del total que son 157. Por otro lado, se puede
ver que hay 27 hombres con un nivel de escolaridad 5 y 24 hombres con nivel de
escolaridad 1, del total que son 207 mujeres.

● Teniendo en cuenta lo anterior, realice un estudio descriptivo de ambas variables. Realice


lectura de resultados.
Veamos un estudio descriptivo de las variables anteriores escolaridad (ESC) y sexo (P6020)

En cuanto a la escolaridad (ESC) para el sexo masculino estas variables constan de 157
hombres la consta un nivel de escolaridad de (0 a 20) puede observarse que en esa columna
hay unas casillas en NA

Veamos la lectura de datos:


En cuanto a la escolaridad (ESC) para el sexo femenino estas variables constan de 207
mujeres con niveles de escolaridad de (0 a 19) puede observarse que en esa columna hay
unas casillas en NA

Veamos la lectura de datos:


● Asumiendo que los datos son normales, calcule un intervalo de confianza del 95% y
determine, la escolaridad de los hombres y de las mujeres de forma individual.

Calculemos un intervalo de confianza del 95% para la escolaridad de los hombres y de las
mujeres de forma individual

➢ Hombres
Intervalo de confianza para la media. Varianza Desconocida

Un intervalo de confianza del (1 - α) 100% para µ está dado por

𝑁 𝑁
𝑁 - 𝑁(𝑁,𝑁−1) ≤ µ ≤ 𝑁 + 𝑁(𝑁,𝑁−1)
2 √𝑁 2 √𝑁
Donde 𝑁(𝑁,𝑁−1) es el punto de la distribución t, con (n -1) grados de libertad, que deja a su
2
derecha un área de α/2.

Del resumen de los datos se tienen:

n =148

𝑁= 7.42568

S= 4.80234

Para α=0.05 entonces 𝑁(𝑁,𝑁−1) = 𝑁(0.05,148−1) = 1.976233


2 2

Reemplazando en la ecuación anterior se tiene:

4.80234 4.80234
7.42568- (1.976233) ≤ µ ≤ 7.42568 + (1.976233)
√148 √148

6.64556≤ µ ≤ 8.2058

Por lo que el intervalo pedido para la escolaridad de los hombres es [6.64556, 8.2058], es
decir la media verdadera se encuentra en algún lugar entre 6.64556 y 8.2058

➢ mujeres
Intervalo de confianza para la media. Varianza Desconocida

Un intervalo de confianza del (1 - α) 100% para µ está dado por

𝑁 𝑁
𝑁 - 𝑁(𝑁,𝑁−1) ≤ µ ≤ 𝑁 + 𝑁(𝑁,𝑁−1)
2 √𝑁 2 √𝑁

Donde 𝑁(𝑁,𝑁−1) es el punto de la distribución t, con (n -1) grados de libertad, que deja a su
2
derecha un área de α/2.

Del resumen de los datos se tienen:

n =158

𝑁= 7.72785
S= 5.07855

Para α=0.05 entonces 𝑁(𝑁,𝑁−1) = 𝑁(0.05,158−1) = 1.975189


2 2

Reemplazando en la ecuación anterior se tiene:

5.078553 5.078553
7.72785- (1.975189) ≤ µ ≤ 7.72785 + (1.975189)
√158 √158
6.92981≤ µ ≤ 8.52588

Por lo que el intervalo pedido para la escolaridad de las mujeres es [6.92981, 8.52588], es
decir la media verdadera se encuentra en algún lugar entre 6.92981 y 8.52588.

● Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%
para la diferencia de los niveles de escolaridad para los hombres y mujeres.
Inicialmente calculemos un intervalo de confianza para la razón de varianzas si dicho
intervalo de confianza contiene a la unidad, realizaremos un intervalo de confianza para la
diferencia de medias con varianzas desconocidas pero iguales, de lo contrario realizaremos
un intervalo de confianza para diferencia de medias con varianzas desconocidas pero
desiguales

𝜎1 2
Un intervalo de confianza del (1 - α) 100% para cociente de varianzas está dado por:
𝑁2 2

𝑁1 2 𝑁1 2 2
𝑁 (1−𝑁,𝑁2 −1,𝑁1 −1)≤ 2 ≤𝑁12 𝑁(𝑁,𝑁2−1,𝑁1−1)
𝑁2 2 𝑁2 𝑁2

De los datos anteriores se tienen

2 2 2
(4,80234) 𝑁1 (4,80234)
2 𝑁(0.95,157,147) ≤ 2 ≤ 2 𝑁(0.05,157,147)
(5,07855) 𝑁2 (5,07855)

2
𝜎
0.685162 ≤ 1 2 ≤ 1.168545
𝑁2
Puesto que este intervalo de confianza incluye la unidad podemos asumir que las varianzas
son desconocidas pero iguales
En este caso calculemos un intervalo de confianza para µ1 − µ2 Dos distribuciones
normales 𝜎1 2 = 𝑁2 2 = 𝑁 desconocida.

Un intervalo de confianza del (1 - α) 100% para µ1 − µ2 está dado por:

1 1 1 1
(𝑁1 − 𝑁2 ) -𝑁(𝑁,𝑁)𝑁 √ +𝑁 ≤ µ1 − µ2 ≤ (𝑁1 − 𝑁2 ) +𝑁(𝑁,𝑁)𝑁 √ +𝑁
2 𝑁 𝑁1 2 2 𝑁 𝑁1 2

Donde 𝑁 = 𝑁1 -𝑁2 − 2 𝑁 𝑁𝑁/2,𝑁 es el punto crítico de la distribución t con 𝑁1 -𝑁2 −


2 grados de libertad que deja a su derecha un área de 𝑁/2.

(𝑁1 −1)𝑁1 2 +(𝑁2 −1)𝑁2 2


𝑁𝑁 2 =√ 𝑁1 +𝑁2 −2

Luego del resumen de los datos anteriores se tiene

𝑁1 =7.42568

𝑁2 =7.72785

𝑁1 2 =20.0913

𝑁2 2 =25.7916

𝑁1 =148

𝑁2 =158

𝑁 = 𝑁1 -𝑁2 − 2= 148 -158 − 2=304

(148−1)(20.0913)+(158−1)(25.7916)
𝑁𝑁 2 =√ = 4.7995 entonces la desviación estándar
148+158−2
combinada es

𝑁𝑁 =2.1907
Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑁𝑁/2,𝑁 = 𝑁(1−0.05,304)
2
=1.971661

Luego reemplazando los datos en la ecuación anterior se tiene:

1 1
(7.42568-7.72785) – (1.971661) (2.1907) √ + 158 ≤ µ1 − µ2 ≤ (7.42568-7.72785) +
148

1 1
(1.971661) (2.1907) √ + 158
148

-0.79751≤ µ1 − µ2 ≤ 0.19317

Por lo que el intervalo al 95% para la diferencia de los niveles de escolaridad para los
hombres y mujeres es.

(-0.79751, 0.19317)

Parte 2

Prueba de hipótesis para dos variables nominales


Un investigador, cree determinar que los hombres asisten más a un colegio
oficial que las mujeres en Colombia. Para determinar lo anterior, se sugiere
utilizar la base de la hoja de “muestra” y realizar lo siguiente:

● Utilizando la variable si actualmente asiste a un establecimiento oficial


(P6175) y sexo (P6020), realice un diagrama de barras comparativo para
los hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen
diferencias?
Solución:
Sean las variables si actualmente asiste a un establecimiento oficial (P6175)
y sexo (P6020) realicemos un diagrama de barra comparativo para los
hombres y mujeres

Del diagrama de barras para (P6175) y (P6020) se puede observar que


existe mucha diferencia en cuanto si asisten o no, a un establecimiento
oficial por parte de los hombres y las mujeres.

Es decir que los hay una mayor frecuencia de asistencia de los hombres y
mujeres a establecimientos oficiales. Ahora podemos decir que en esa
asistencia por parte de los hombres y mujeres hay diferencias no muy
grandes, es decir que 36 mujeres están asistiendo a un establecimiento
oficial respecto al total de mujeres, mientras que 32 hombres están
asistiendo a dicho estadero oficial respecto al total de hombres.

● Con un nivel de confianza del 95%, realice una estimación de los


hombres que asisten a un establecimiento oficial.
En este caso dicha estimación corresponde a un intervalo de confianza para la
proporción
Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad de
éxito 𝜋 entonces un intervalo de confianza al (1 - 𝛼) 100% para 𝜋 está dado
por
̂ ̂ ̂ ̂
̂ - 𝑁 𝑁 √𝑁(1−𝑁) ≤ 𝑁 ≤ 𝑁
𝑁 ̂ + 𝑁 𝑁 √𝑁(1−𝑁)
( )
2 𝑁 ( )
2 𝑁

𝑁 𝑁𝑁𝑁𝑁𝑁𝑁 𝑁𝑁 𝑁𝑁𝑁𝑁𝑁𝑁 𝑁𝑁 𝑁𝑁 𝑁𝑁𝑁𝑁𝑁𝑁𝑁


̂= =
Donde 𝑁
𝑁 𝑁𝑁𝑁𝑁𝑁𝑁𝑁 𝑁𝑁 𝑁𝑁𝑁𝑁𝑁𝑁𝑁

y z 𝑁/2 el valor que deja un área de 𝑁/2 en la cola superior de la


distribución normal estándar.
En este caso se tiene que X =32, n =45, de donde

̂ =𝑁=32 =0.7111
𝑁
𝑁 45

Como se pide un intervalo al 95% entonces 𝑁 = 0.05 z 0.05/2 =1.96

Con estos datos se tiene

(0.7111)(1−0.7111) (0.7111)(1−0.7111)
(0.7111)- (1.96)√ ≤ 𝑁 ≤ (0.7111) + (1.96)√
45 45

0.5786 ≤ 𝑁 ≤ 0.8435

Estamos 95% confiados que el porcentaje de los hombres que asisten a un


establecimiento oficial. Está entre un 57.86% y un 84.35 %.

● Con un nivel de confianza del 95%, realice una estimación de las mujeres
que asisten a un establecimiento oficial.
De manera análoga en este caso dicha estimación corresponde a un intervalo
de confianza para la proporción

Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad de


éxito 𝜋 entonces un intervalo de confianza al (1 - 𝛼) 100% para 𝜋 está dado
por

̂ ̂ ̂ ̂
̂ - 𝑁 𝑁 √𝑁(1−𝑁) ≤ 𝑁 ≤ 𝑁
𝑁 ̂ + 𝑁 𝑁 √𝑁(1−𝑁)
( )
2 𝑁 ( )
2 𝑁

En este caso se tiene que X =36, n =48, de donde

̂ =𝑁=36 =0.75
𝑁
𝑁 48

Como se pide un intervalo al 95% entonces 𝑁 = 0.05 z 0.05/2 =1.96

Con estos datos se tiene

(0.75)(1−0.75) (0.75)(1−0.75)
(0.75)- (1.96)√ ≤ 𝑁 ≤ (0.75)+ (1.96)√
48 48

0.6275 ≤ 𝑁 ≤ 0.8725

Estamos 95% confiados que el porcentaje de las mujeres que asisten a un


establecimiento oficial. Está entre un 62.75% y un 87.25 %.
● Realice una prueba de hipótesis para determinar la afirmación del
investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede
decir de lo anterior?

En este caso estamos interesados en realizar una prueba de hipótesis sobre


dos proporciones.

Que los hombres asisten más a un colegio oficial que las mujeres en
Colombia

Sea el juego de hipótesis

{ 𝑁1 ≤ 𝑁2 𝑁𝑁 𝑁1 > 𝑁2

Donde

𝑁1 32
̂1=
𝑁 = =0.7111
𝑁1 45

𝑁2 36
̂2=
𝑁 = =0.75
𝑁2 48

̂ = 𝑁1+𝑁2 = 32+36 =0.7311


𝑁
𝑁1 +𝑁2 45+48

El valor de la estadística de prueba es


̂ 1 −𝑁
𝑁 ̂2 0.7111−0.75
Z= = = - 0.4228
̂ )( 1 + 1 )
̂ (1−𝑁
√𝑁
1 1
√(0.7311)(1−0.7311)( + )
𝑁 𝑁
1 2 45 48

Con un nivel de significancia de 𝑁 = 0.05 𝑁𝑁 = 𝑁0.05 =1.64

El valor del estadístico de prueba Z=-0.4228 < 𝑁0.05 =1.64 con un nivel de
confianza 𝑁 = 0.05 No se rechaza la hipótesis nula H0, con eso encontramos
que no hay suficiente evidencia para concluir que la afirmación del
investigador es la correcta.

También podría gustarte