Está en la página 1de 7

Actividad 1 (Semana 3)

En esta sección y en los ejercicios futuros asuman que los 47.734 datos corresponden
a la población de clientes de la cadena de almacenes que obtuvo la información de la
base de datos descargada. Se quiere estudiar cómo fueron las compras en esa jornada,
por lo que se analizará principalmente la variable PURCHASE.

1. Dado que la población es finita, estime cuál debe ser el tamaño de muestra si se
desea un margen de error E=$ 500 , un nivel de confianza del 90% y se conoce por
estudios anteriores que la desviación estándar poblacional es aproximadamente
US$4986.
2. Use Excel para extraer una muestra aleatoria del tamaño determinado en el ítem
a. Deben explicar el paso a paso, fórmulas de Excel y adjuntar la muestra en
formado .xlsx (Solo la muestra, el archivo no debe contener fórmulas ni procesos
allí usados).
3. De la variable PURCHASE, determine el valor de la media y la desviación estándar
poblacionales y muéstrales (tienen la población y una muestra). Explique
brevemente quién es el estimador de quién allí. Además calcule la probabilidad de
que la variable media muestral sea mayor o igual que el valor de la poblacional.
4. Haga el histograma de la variable PURCHASE, calcule el sesgo, la curtosis e indique
con ellos brevemente si la variable parece distribuirse de forma normal o no.

Solución:

1. El tamaño de la muestra correspondiente se calcula mediante la fórmula para el


tamaño muestra para la media población finita, la cual viene dada por:
2 2
Zα σ N
n= 2 2 2
Z α σ + ( N −1 ) ϵ

Para nuestro caso, se consideremos

N=47734 ; E=500 , σ=4986 y α=0.1

El valor crítico para α =0.1 en la tabla de distribución Normal es

Z α =Z 0.1 =¿1,64
(1− )
2

En Excel mediante la siguiente función


Luego al reemplazar en la formula, se tiene

(1,64485363 )2 ( 4986 )2( 47734)


n= ≈ 268
( 1,64485363 )2 ( 4986 )2 + ( 47734−1 )( 500 )2

2. Para la selección de la muestra aleatoria simple de tamaño 268, se implementara


un mecanismo de selección llamado coordinado negativo, cuyo algoritmo se ilustra
a continuación.

Método coordinado negativo

 Generar N realizaciones de una variable aleatoria ξ k ( k ∈U ) con distribución


uniforme (0,1).
 Asignar ξ k al elemento k-´esimo de la población.
 Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio ξ k
 A continuación, seleccionar los n primeros (o los n ´últimos) elementos. Esta
selección corresponde a la muestra realizada.

A continuación, se evidencias las primeras y últimas observaciones de la muestra


aleatoria simple seleccionada de tamaño 268, mediante el método de selección ya
mencionada.
3. Considerando la variable PURCHASE, mencionada inicialmente, se procede a
determine el valor de la media y la desviación estándar poblacionales y muéstrales.

 Media y desviación estándar de la población.

La media poblacional
n

∑ xi 20502+5851+. . .+9888+20207
i=1
μ= = =9344,57
N 47734

La desviación estándar poblacional.


n

∑ ( xi −μ )2
i=1
σ= =√ ¿¿ ¿
N

En Excel se callan mediante las siguientes funciones


 Media y desviación estándar de la muestra.

Para calcular la media y desviación estándar de la muestra, inicialmente se


construye la tabla de distribución de frecuencias para datos agrupados, dado que
la muestra n ≥ 30

¿ de intervalos=1+3,32∗log ⁡(268)≈ 9

Tamaño de Muestra 268


# de intervalos 9
Máximo 23453
Mínimo 386
Rango 23067
Amplitud 2563

Para el cálculo de lo anterior se realizas las siguientes funciones en Excel


Luego la tabla de distribución de frecuencias seria

Intervalo de clases Mc ni fi Ni Fi
386,00 2949,00 1667,50 20 0,07 20 0,07
2949,00 5512,00 4230,50 41 0,15 61 0,23
5512,00 8075,00 6793,50 75 0,28 136 0,51
8075,00 10638,00 9356,50 56 0,21 192 0,72
10638,00 13201,00 11919,50 24 0,09 216 0,81
13201,00 15764,00 14482,50 25 0,09 241 0,90
15764,00 18327,00 17045,50 11 0,04 252 0,94
18327,00 20890,00 19608,50 14 0,05 266 0,99
20890,00 23453,00 22171,50 2 0,01 268 1,0
Total   268      
Tabla N1: Distribución de frecuencias Purches

Media muestral
n

∑ M c ni [ ( 1667,50 )( 20 )+ .. .+(22171,50) ( 2 ) ]
i=1
X= = =8935,71
n 268

Desviación estándar de la muestra


n

∑ ( M c−X )2 ¿ ni
i=1
S= = √¿ ¿ ¿
n−1

De acuerdo a lo anterior, se puede decir que la media muestral es un estimador de la


media poblacional, mientras que la desviación estándar de la muestra es un estimador de
la desviación estándar de la población.

En este caso nos piden calcular


P ( X ≥ μ 0 )=1−P ( X ≤ μ 0)

Aplicando el teorema de límite central

( )
9344,57−8935,71
P ( X ≥ μ 0 )=1−P X ≤ =1−P ( Z ≤1,34 )=1−∅ ( 1,34 )=0,0901
(
4986,59
√ 268 )
En Excel

En consecuencia, la probabilidad de que la que la variable media muestral sea mayor o


igual que el valor de la poblacional, es de 0,0901

4. Ahora para identificar la forma de la distribución de la variable PURCHASE, se


calcula el sesgo, la curtosis.

Inicialmente se realiza el histograma de frecuencias

Histograma de Frecuencias(Purchase)
80 75
70
60 56
Frecuencias absolutas

50
41
40
30 24 25
20
20 14
11
10
2
0
[386- [2949- [5512- [8075- [10638- [13201- [15764- [18327- [20890-
2949) 5512) 8075) 10638) 13201) 15764) 18327) 20890) 23453)

Intervalos de clases

Gráfico N1: Histograma de frecuencias (Purchase)


 Sesgo (Asimetría)

El coeficiente de asimetría muestral para datos agrupados viene dado por


n

∑ ( M c −X )3 ¿ ni
A s= i=1 3
=0,741
nS

Como A s=0,741>0 , entonces se puede decir que la distribución para la variable


PURCHASE, será asimétrica positiva.

 Curtosis

La curtosis para datos agrupados viene dado por


n

∑ ( M c−X )4 ¿ ni
κ= i=1 =0,1871
n S4

Como el coeficiente de curtosis κ=0,1871> 0, los datos están muy concentrados en la


media, siendo una curva muy apuntada, en consecuencia la distribución es leptocúrtica

De acuerdo a la representación gráfica (Histograma de frecuencias) y medidas de formas


se puede concluir que la variable (PURCHASE), no parece distribuirse de forma normal.

También podría gustarte