Está en la página 1de 12

1.

Actividad 1 (Semana 3)

En esta sección y en los ejercicios futuros asuman que los 47.734 datos corresponden
a la población de clientes de la cadena de almacenes que obtuvo la información de la
base de datos descargada. Se quiere estudiar cómo fueron las compras en esa
jornada, por lo que se analizará principalmente la variable PURCHASE.

a. Dado que la población es finita, estime cuál debe ser el tamaño de muestra si se
desea un margen de error E = US$600, un nivel de confianza del 95% y se conoce
por estudios anteriores que la desviación estándar poblacional es
aproximadamente US$4986.

b. Use Excel para extraer una muestra aleatoria del tamaño determinado en el ítem
a. Deben explicar el paso a paso, fórmulas de Excel y adjuntar la muestra en
formado .xlsx (Solo la muestra, el archivo no debe contener fórmulas ni procesos
allí usados). Este archivo es el único adjunto válido para esta actividad dado que el
grupo deberá trabajarlo en la próxima entrega y en el siguiente ítem, para esto
deben escoger una sola muestra por equipo y trabajarla.

c. De la variable PURCHASE, determine el valor de la media y la desviación


estándar poblacionales y muestrales (tienen la población y una muestra). Explique
brevemente quién es el estimador de quién allí. Además, calcule la probabilidad de
que la media muestral sea mayor o igual que el valor de la poblacional para una
muestra del tamaño encontrado en el ítem a.

Solución:

Considerando la base de datos en la cual aparece una muestra de 47.734 compras


hechas en uno de los Black fridays que se realizan en Estados Unidos.

En la cual se consideran las siguientes variables

User_ID Identificador único del comprador


Product_ID Identificador único del producto.
Gender Sexo del comprador
Age Edad del comprador dividida en contenedores
Occupation Ocupación del comprador.
City_Category Lugar de residencia del comprador.
Stay_In_Current_City_Years Número de años en la ciudad actual.
Marital_Status Estado civil del comprador (1 -> Casado, 0 ->
Soltero)
Product_Category_1 Categoría de producto de compra
Product_Category_2 El producto puede pertenecer a otra categoría
Product_Category_3 El producto puede pertenecer a otra categoría
Purchase Valor de la compra en dólares

a) Veamos, para calcula el tamaño de muestra representativo a la población, se


utiliza la siguiente ecuación, para el tamaño muestra para la media población finita,
la cual viene expresada como:
2 2
Zα σ N
n= 2 2 2
Z α σ + ( N −1 ) ϵ

Donde;

N=47734 ; E=600 , σ=4986 y α =0.05

Valor crítico
Para un nivel de significancia α =0.05 , el valor critico en la tabla de distribución Normal,
viene dado por
Z α =Z 0.05 =1.96
(1− )
2

Mediante Excel se tiene

Al sustituir en la ecuación del tamaño de muestra, se tiene

(1,96 )2 ( 4986 )2 (47734)


n= ≈ 264
( 1,96 )2 ( 4986 )2+ ( 47734−1 )( 600 )2

b) Ahora el siguiente paso es extraer una muestra aleatoria del tamaño 264
representativa de la población
Para realizar dicha selección se implementará un mecanismo de selección llamado
coordinado negativo, cuyo algoritmo se ilustra a continuación.

Método coordinado negativo

 Generar N realizaciones de una variable aleatoria ξ k ( k ∈U ) con distribución


uniforme (0,1).
 Asignar ξ k al elemento k-´esimo de la población.
 Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio ξ k
 A continuación, seleccionar los n primeros (o los n ´últimos) elementos. Esta
selección corresponde a la muestra realizada.

En el archivo de Excel también se evidencia la muestra seleccionada completa

c) Para la variable PURCHASE, se procede a determine el valor de la media y la


desviación estándar poblacionales y muéstrales.

 Para la población:

 La media poblacional

∑ xi 446053507
i=1
μ= = =9344,57
N 47734
En Excel:
 La desviación estándar poblacional.


n

∑ ( xi −μ )2
i=1
σ= =√ ¿¿ ¿
N
En Excel:

En consecuencia, se tiene resumido en la tabla

Tamaño poblacional 47734


Media Poblacional 9344,57
Varianza Poblacional 24866112
Desviación Estándar Poblacional 4986,59

 Para la muestra:

Se calculan las siguientes cantidades, para ello

Tamaño de Muestra 264


Número de intervalos 9
Valor Máximo 23648
Valor Mínimo 393
Rango 23255
Amplitud 2584
En consecuencia, la tabla de distribución de frecuencias

Intervalo de
2
clases Mc f fr F Fr ( M c∗f ) (M c −X ) f
393 2977 1684,94 18 0,068 18 0,07 30329,00 1024993417
2977 5561 4268,83 36 0,136 54 0,20 153678,00 886458144,5
5561 8145 6852,72 82 0,311 136 0,52 561923,22 463837881,7
8145 10729 9436,61 53 0,201 189 0,72 500140,39 2239000,931
12020,5
10729 13312 0 21 0,080 210 0,80 252430,50 163398787,6
14604,3
13312 15896 9 22 0,083 232 0,88 321296,56 635195166,7
17188,2
15896 18480 8 8 0,030 240 0,91 137506,22 506536672,7
19772,1
18480 21064 7 22 0,083 262 1,0 434987,67 2444521732
22356,0
21064 23648 6 2 0,008 264 1,0 44712,11 344530255,7
2437003,6
Total   264       7 6471711059

De esta forma se procede a calcular el promedio y desviación estándar para la muestra

 Media muestral
n

∑ M c∗f [(1684,94) ( 18 ) +. . .+ ( 22356,06 ) ( 2 ) ] 2437003,67


i=1
X= = = =9231,1
n 268 264
 Desviación estándar de la muestra


n

∑ ( M c −X )2 ¿ ni

2 2
i=1 [ ( 1699,6−9231,1 ) ( 18 ) +. . .+ ( 22524,4−9231,1 ) ( 6 ) ] 6471711059
S= = = =4960,6
n−1 264−1 264−1
De donde se tiene el siguiente resumen:

Tamaño de Muestra (n) 264


Media Muestral 9231,1
Varianza Muestral 24607266,4
Desviación Estándar Muestral 4960,6

Con base a la teoría consultada se puede decir que media muestral es un estimador de la
media poblacional, mientras que la desviación estándar de la muestra es un estimador de
la desviación estándar de la población, en consecuencia.

Nombre Parámetros Parámetros muéstrales (Estimadores)


poblacionales
Media μ X
Varianza σ
2
S
2

Desviación Estándar σ S
Por últimos se calcula la probabilidad aplicando el teorema de limite central (TLC)

P ( X ≥ μ 0 )=1−P ( X ≤ μ 0)
Esto es;

( )
9344,57−9344,57
P ( X ≥ μ 0 )=1−P X ≤ =1−P ( Z ≤ 0 )=1−∅ ( 0 )=1−0,5=0,5
(4960,6
√ 264 )
Por lo tanto, la probabilidad de que la que la variable media muestral sea mayor o igual
que el valor de la poblacional, es de 0.5

2. Actividad 2 (Semana 4)

Use la muestra seleccionada en la actividad 1 para todos los desarrollos:

a. Construya un intervalo de confianza al noventa por ciento para el promedio


de la variable PURCHASE. Escriba la interpretación en el contexto del
caso. Compruebe si la media poblacional cae en dicho intervalo.
b. Construya un intervalo de confianza al noventa y cinco por ciento para la
proporción de ventas superiores a US$7.000. Escriba la interpretación en el
contexto del caso. Compruebe si la proporción poblacional está en este
intervalo.
c. Construya un intervalo de confianza al noventa por ciento para la diferencia
de medias de las compras hechas por hombres y por mujeres. Escriba la
interpretación en el contexto del caso.

Solución:
Considerando la muestra seleccionada en la actividad 1, se procede a desarrollar

a) Un intervalo del ( 1−α ) 10 % de confianza para la media poblacional μ, viene


dado por.

X −Z
( 1−
α
2
() √σn )≤ μ ≤ X +Z ( )( √σn )
1−
α
2

Datos del problema

  Variable (Compra)
Tamaño de muestra 264
Media muestral 9231,07
Desviación Estándar muestral 4960,57

Para α =0.1, el valor del cuantil de la distribución normal es


Z α =Z 0.1 =1,645
(1− 2 ) (1− 2 )
Mediante Excel;

El intervalo requerido seria


( 9231,07 )−( 1,645 ) ( 4960,57
√ 264 ) ≤ μ ≤ ( 9231,07 )+ ( 1,645 )
( √264 )
4960,57

8728,90 ≤ μ ≤ 9733,25

Por lo tanto, el intervalo de confianza al 90 % para el promedio de la compra en


dólares, se encuentra entra [8728,90; 9733,25], además es claro ver que la media
poblacional de la variable en contexto (Purchase), está contenida en el intervalo
de confianza.

b. Un intervalo del ( 1−α ) 10 % de confianza para la proporción poblacional π ,


viene expresado de la siguiente manera

P−Z
( )
1−
α
2
√ P ( 1−P )
n
≤ π ≤ P+ Z α
(1− √
2
)
P (1−P)
n
Considerando la variable
X := ventas superiores a US$7.000, de donde se tiene

Ventas superiores
  $7000
n 264
X 182
P 0,69

Para α =0.05 , el valor del cuantil de la distribución normal es


Z α =Z 0.05 =1,960
(1− 2 ) (1− 2 )
Mediante Excel;

El intervalo requerido seria

( 0,69 ) −( 1,960 )
√ ( 0,69 ) (1−0,69 )
264 √
≤ π ≤ ( 0,69 ) + ( 1,960 )
0,634 ≤ π ≤ 0,745
( 0,69 )( 1−0,69 )
264

Por lo tanto, el intervalo de confianza al noventa y cinco por ciento para la


proporción de ventas superiores a US$7.000, es [0,634 ; 0,745], nótese que la
proporción poblacional este contenido en dicho intervalo

c. Un intervalo del ( 1−α ) 10 % de confianza para la diferencia de media μ1−μ 2,


está dado por.

√ √
2 2 2 2
S1 S2 S1 S 2
( X 1−X 2 ) −t 1− α ; v + ≤ μ 1−μ2 ≤ ( X 1−X 2 ) +t α +
( 2 ) n1 n 2 (1− 2 ;v ) n1 n2
Para este caso, se asume que las varianzas desconocidas y diferentes

Datos del problema se resumen a continuación


 Compra Hombre

Hombre Variable (Compra)


n 196
Promedio 9437
Desviación Estándar 4938

 Compras Mujeres

Mujeres Variable (compra)


n 68
Promedio 9228
Desviación Estándar 5002

Los grados de libertad


( )
2 2

( )
2 2 2
S1 S 2 2
(4938) (5002)
+ +
n1 n2 196 68
v= = =115

( ) ( ) ( ) ( )
2 2 2 2 2 2 2 2
S1 S2 (4938) (5002)
n1 n2 196 68
+ +
n1 −1 n2−1 196−1 68−1

Valor critico Para α =0.1, el valor crítico de la distribución t con 115 grados de
libertad es
t α =t 0.1 =1,658
( 1− 2 ; v ) (1−
2
;115)

Mediante Excel;

El intervalo requerido seria

√ √
2 2 2 2
( 4938 ) ( 5002 ) (4938) (5002)
( 9437−9228 ) −( 1,658 ) + ≤ μ 1−μ2 ≤ ( 9437−9228 )+ (1,658 ) +
196 68 196 68
−954,456 ≤ μ1−μ2 ≤1372,550

Por lo tanto, el intervalo de confianza al noventa por ciento para la diferencia de


medias de las compras hechas por hombres y por mujeres, es
[−954,456 ;1372,550]

3. Actividad 3 (Semana 5)

Usando la muestra seleccionada en la actividad 1, conteste:

a. Construya una prueba de hipótesis con un nivel de significancia de 0,10


para las ventas promedio, usando como hipótesis alternativa: “Miu es mayor
a el valor real encontrado en la población (Actividad 1 ítem c.)". Justifique
cada parte del proceso, al final dé su conclusión en el contexto del
problema.
b. Construya una prueba de hipótesis con un nivel de significancia de 0,01
para concluir si hay diferencia entre las compras promedio de hombres y
mujeres. Justifique cada parte del proceso, al final dé su conclusión en el
contexto del problema.

Solución:

a) Definamos el contraste de hipótesis

{
H 0 : μ=9344,57
contra
H 1 : μ> 9344.57
De la muestra el siguiente resumen

  Variable (PURCHASE)
Tamaño de muestra 264
Media Muestral 9231,07
Desviación Estándar 4960,57
Media poblacional 9344,57

Nivel de significancia α =0.10


Para α =0.10 , el valor del cuantil de la distribución normal es
Z( 1−α )=Z (1−0.10)=1,282
Mediante Excel;

El valor del estadístico de prueba

Z c=
√ n( X−μ) = √264 (9231,07−9344,57) =−0,372
σ 4960,57

Dado que el valor del estadístico de prueba Z c =−0,372<1,282, no se puede


rechaza la hipótesis nula H 0, por lo tanto, las ventas promedio, no son superiores
a 9344,57

b) se desea contrastar el siguiente juego de hipótesis


{
H 0 : μ Hombres=μ Mujeres
contra
H 1 : μHombres ≠ μMujeres

De acuerdo a los cálculos realizados en Excel

Hombre Variable (Compra)


n 196
Promedio 9437
Desviación Estándar 4938

Mujeres Variable (compra)


n 68
Promedio 9228
Desviación Estándar 5002

Los grados de libertad

( )
2

( )
S21 S 22 2
(4938) (5002)
2 2
+ +
n1 n2 196 68
v= = =115

( ) ( ) ( ) ( )
2 2 2 2 2
S1 S2
2
(4938)2 (5002)2
n1 n2 196 68
+ +
n1 −1 n2−1 196−1 68−1

Valor critico Para α =0.01 , el valor crítico de la distribución t con 115 grados de
libertad es
t α =t 0.01 =2,622
(1− 2 ; v ) (1−
2
;108)

Mediante Excel;

El valor del estadístico de prueba


X 1 −X 2 ( 9437−9228 )−0
t c= = =0,765

√ √
2 2 2 2
S1 S2 (4938) ( 5002)
+ +
n1 n2 196 68
Dado que el valor absoluto del estadístico de prueba t c =0,765<2,622, no se
rechaza la hipótesis nula H 0, en consecuencia, no existe diferencia entre las
compras promedio de hombres y mujeres

También podría gustarte