Está en la página 1de 6

Actividad 1 (Semana 3)

En esta sección y en los ejercicios futuros asuman que los 47.734 datos corresponden
a la población de clientes de la cadena de almacenes que obtuvo la información de la
base de datos descargada. Se quiere estudiar cómo fueron las compras en esa jornada,
por lo que se analizará principalmente la variable PURCHASE.

1. Dado que la población es finita, estime cuál debe ser el tamaño de muestra si se
desea un margen de error E=$ 500, un nivel de confianza del 90% y se conoce por
estudios anteriores que la desviación estándar poblacional es aproximadamente
US$4986.
2. Use Excel para extraer una muestra aleatoria del tamaño determinado en el ítem
a. Deben explicar el paso a paso, fórmulas de Excel y adjuntar la muestra en
formado .xlsx (Solo la muestra, el archivo no debe contener fórmulas ni procesos
allí usados).
3. De la variable PURCHASE, determine el valor de la media y la desviación estándar
poblacionales y muéstrales (tienen la población y una muestra). Explique
brevemente quién es el estimador de quién allí. Además calcule la probabilidad de
que la variable media muestral sea mayor o igual que el valor de la poblacional.
4. Haga el histograma de la variable PURCHASE, calcule el sesgo, la curtosis e indique
con ellos brevemente si la variable parece distribuirse de forma normal o no.

Solución:

1. El tamaño de la muestra correspondiente se calcula mediante la fórmula para el


tamaño muestra para la media población finita, la cual viene dada por:

Zα2 σ2 N
n=
Z α 2 σ 2+ ( N −1 ) ϵ 2

Para nuestro caso, consideremos

N=47734 ; E=500 , σ=4986 y α =0.1

Para α =0.1, el valor crítico en la t0061bla de distribución Normal es

Z α =Z 0.1 =¿1.644854
(1− )
2

En Excel mediante la siguiente función


Luego al reemplazar en la formula, se tiene

(1,644854 )2 ( 4986 )2 (47734)


n= =267.5391 ≈ 268
( 1,644854 )2 ( 4986 )2+ ( 47734−1 ) (500 )2

2. Para la selección de la muestra aleatoria simple de tamaño 268, se implementara


un mecanismo de selección llamado coordinado negativo, cuyo algoritmo se ilustra
a continuación.

Método coordinado negativo

 Generar N realizaciones de una variable aleatoria ξ k ( k ∈U ) con distribución


uniforme (0,1).
 Asignar ξ k al elemento k-´esimo de la población.
 Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio ξ k
 A continuación, seleccionar los n primeros (o los n ´últimos) elementos. Esta
selección corresponde a la muestra realizada.

A continuación se evidencias las primeras y últimas observaciones de la muestra


aleatoria simple seleccionada de tamaño 268, mediante el método de selección ya
mencionada.
3. Considerando la variable PURCHASE, mencionada inicialmente, se procede a
determine el valor de la media y la desviación estándar poblacionales y muéstrales.

 Media y desviación estándar de la población.

La media poblacional
n

∑ xi 20502+5851+. . .+9888+20207
μ= i=1 = =9344,57 ≈ 9345
N 47734

La desviación estándar poblacional.

σ=
√ ∑ ( x i−μ )2
i=1
N
=√ ¿ ¿ ¿
 Media y desviación estándar de la muestra.

Para calcular la media y desviación estándar de la muestra, inicialmente se


construye la tabla de distribución de frecuencias para datos agrupados, dado que
la muestra n ≥ 30

¿ de intervalos=1+3,32∗log ⁡(268)≈ 9

Maximo=23320

Minimo=566

Rango=Maximo−Minimo=23320−566=22754

Rango 22754
Amplitud= = =2528,22
¿ de intervalos 9

Luego

Intervalo de clases Mc ni fi Ni Fi
566 3094 1830 17 0,06 17 0,06
3094 5622 4358 46 0,17 63 0,24
5622 8151 6887 75 0,28 138 0,51
8151 10679 9415 42 0,16 180 0,67
10679 13207 11943 27 0,10 207 0,77
13207 15735 14471 22 0,08 229 0,85
15735 18264 16999 19 0,07 248 0,93
18264 20792 19528 17 0,06 265 0,99
20792 23320 22056 3 0,01 268 1,0
Total   268      

Media muestral
n

∑ M c ni [ ( 1830 ) (17 )+ .. .+ ( 22056 )( 3 ) ]


X́ = i=1 = =9348,74 ≈ 9349
n 268

Desviación estándar de la muestra


2
∑ ( M c − X́ ) ¿ ni
i=1
S= =√ ¿ ¿ ¿
n−1
De acuerdo a lo anterior, se puede decir que la media muestral es un estimador de la
media poblacional, mientras que la desviación estándar de la muestra es un estimador de
la desviación estándar de la población, en consecuencia.

Nombre Parámetros Parámetros muéstrales


poblacionales (Estimadores)
Media μ X́
Varianza σ2 S2
Desviación Estándar σ S

Distribución muestral de la media

En otras palabras

σ2
( )
X́ N μ ,
n

En este caso nos piden calcular

P ( X́ ≥ μ 0 )=1−P( X́ ≤ μ 0)

Aplicando el teorema de límite central

9345−9349

(
P ( X́ ≥ μ 0 )=1−P X́ ≤
(4987
)
√ 268 )
=1−P ( Z ≤−0.013 )=1−∅ (−0.013 ) =0.5052

En consecuencia, la probabilidad de que la que la variable media muestral sea mayor o


igual que el valor de la poblacional, es de 0.5052

4. Ahora para identificar la forma de la distribución de la variable PURCHASE, se


calcula el sesgo, la curtosis.

Inicialmente se realiza el histograma de frecuencias


Histograma de frecuencias (Purchase)
80 75
70
60
Frecuencias absolutas 50 46 42
40
30 27
22 19
20 17 17
10 3
0
9 4) 2 2) 5 1) 7 9) 0 7) 3 5) 6 4) 9 2) 2 0]
-30 -56 -81 1 06 1 32 1 57 1 82 2 07 2 33
6 6 9 4 2 2 1- 9- 7- 5- 4- 2-
[5 [3
0
[5
6 15 7 0 3 6 9
[8 06 32 57 82 07
[1 [1 [1 [1 [2

Intervaos de clases

 Sesgo (Asimetría)

El coeficiente de asimetría muestral para datos agrupados viene dado por


n
3
∑ ( M c − X́ ) ¿ ni [( 1830−9349 ) ¿ ¿ 3(17)+. ..+ (22056−9349 ) (3)]
3
i=1
A s= = =0,6427 ¿
n S3 268 ( 5001 )
3

Como A s=0,6427> 0, entonces se puede decir que la distribución para la variable


PURCHASE, será asimétrica positiva.

 Curtosis

La curtosis para datos agrupados viene dado por


n
4
∑ ( M c − X́ ) ¿ ni [ ( 1830−9349 ) ¿ ¿ 4 (17)+ .. .+ ( 22056−9349 ) ( 3)]
4
i=1
κ= = =−0,3173 ¿
n S4 268 ( 5001 )
4

Como el coeficiente de curtosis κ=−0,3173< 0, hay muy poca concentración de los


datos en la media, presentando una forma muy achatada, la distribución es
Platicurtica

De acuerdo a la representación gráfica (Histograma de frecuencias) y medidas de formas


se puede concluir que la variable (PURCHASE), no parece distribuirse de forma normal.

También podría gustarte