Está en la página 1de 15

lOMoARcPSD|9111924

Estada E2 (pago) Final - trabajo de las semanas 3-5 con


desarrollo
Estadística II (Politécnico Grancolombiano)

StuDocu is not sponsored or endorsed by any college or university


Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)
lOMoARcPSD|9111924

Actividad 1 (Semana 3)

En esta sección y en los ejercicios futuros asuman que los 47.734 datos corresponden
a la población de clientes de la cadena de almacenes que obtuvo la información de la
base de datos descargada. Se quiere estudiar cómo fueron las compras en esa jornada,
por lo que se analizará principalmente la variable PURCHASE.

1. Dado que la población es finita, estime cuál debe ser el tamaño de muestra si se
desea un margen de error 𝐸 = $500, un nivel de confianza del 90% y se conoce
por estudios anteriores que la desviación estándar poblacional es
aproximadamente US$4986.
2. Use Excel para extraer una muestra aleatoria del tamaño determinado en el ítem
a. Deben explicar el paso a paso, fórmulas de Excel y adjuntar la muestra en
formado .xlsx (Solo la muestra, el archivo no debe contener fórmulas ni procesos
allí usados).
3. De la variable PURCHASE, determine el valor de la media y la desviación estándar
poblacionales y muéstrales (tienen la población y una muestra). Explique
brevemente quién es el estimador de quién allí. Además calcule la probabilidad de
que la variable media muestral sea mayor o igual que el valor de la poblacional.
4. Haga el histograma de la variable PURCHASE, calcule el sesgo, la curtosis e indique
con ellos brevemente si la variable parece distribuirse de forma normal o no.

Solución:

1. El tamaño de la muestra correspondiente se calcula mediante la fórmula para el


tamaño muestra para la media población finita, la cual viene dada por:

𝑍𝛼 2 𝜎 2 𝑁
𝑛= 2 2
𝑍𝛼 𝜎 + (𝑁 − 1)𝜖 2

Para nuestro caso, se consideremos

𝑁 = 47734; 𝐸 = 500 , 𝜎 = 4986 𝑦 𝛼 = 0.1

El valor crítico para 𝛼 = 0.1 en la tabla de distribución Normal es

𝑍𝛼 = 𝑍(1−0.1) =1,64
2

En Excel mediante la siguiente función

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

Luego al reemplazar en la formula, se tiene

(1,64485363)2 (4986)2 (47734)


𝑛= ≈ 268
(1,64485363)2 (4986)2 + (47734 − 1)(500)2

2. Para la selección de la muestra aleatoria simple de tamaño 268, se implementara


un mecanismo de selección llamado coordinado negativo, cuyo algoritmo se ilustra
a continuación.

Método coordinado negativo

✓ Generar N realizaciones de una variable aleatoria 𝜉𝑘 (𝑘 ∈ 𝑈)con distribución


uniforme (0,1).
✓ Asignar 𝜉𝑘 al elemento k-´esimo de la población.
✓ Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio 𝜉𝑘
✓ A continuación, seleccionar los n primeros (o los n ´últimos) elementos. Esta
selección corresponde a la muestra realizada.

A continuación, se evidencias las primeras y últimas observaciones de la muestra


aleatoria simple seleccionada de tamaño 268, mediante el método de selección ya
mencionada.

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

3. Considerando la variable PURCHASE, mencionada inicialmente, se procede a


determine el valor de la media y la desviación estándar poblacionales y muéstrales.

• Media y desviación estándar de la población.

La media poblacional

∑ni=1 xi 20502 + 5851+ . . . + 9888 + 20207


μ= = = 9344,57
N 47734
La desviación estándar poblacional.

∑ni=1(xi − μ)2 [(20502 − 9345)2 + . . . +(20207 − 9345)2


σ=√ = √
N 37734
= 4986,59

En Excel se callan mediante las siguientes funciones

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

• Media y desviación estándar de la muestra.

Para calcular la media y desviación estándar de la muestra, inicialmente se


construye la tabla de distribución de frecuencias para datos agrupados, dado que
la muestra n ≥ 30

# de intervalos = 1 + 3,32 ∗ log (268) ≈ 9

Tamaño de Muestra 268


# de intervalos 9
Máximo 23453
Mínimo 386
Rango 23067
Amplitud 2563

Para el cálculo de lo anterior se realizas las siguientes funciones en Excel

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

Luego la tabla de distribución de frecuencias seria

Intervalo de clases 𝑴𝒄 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
386,00 2949,00 1667,50 20 0,07 20 0,07
2949,00 5512,00 4230,50 41 0,15 61 0,23
5512,00 8075,00 6793,50 75 0,28 136 0,51
8075,00 10638,00 9356,50 56 0,21 192 0,72
10638,00 13201,00 11919,50 24 0,09 216 0,81
13201,00 15764,00 14482,50 25 0,09 241 0,90
15764,00 18327,00 17045,50 11 0,04 252 0,94
18327,00 20890,00 19608,50 14 0,05 266 0,99
20890,00 23453,00 22171,50 2 0,01 268 1,0
Total 268
Tabla N1: Distribución de frecuencias Purches

Media muestral

∑ni=1 Mc ni [(1667,50)(20)+ . . . +(22171,50)(2)]


̅=
X = = 8935,71
n 268
Desviación estándar de la muestra

∑ni=1(Mc − ̅
X)2 ∗ ni
S=√
n−1

[(1667,50 − 8935,71)2 (20)+ . . . +(22171,50 − 8935,71)2 (2)


=√
268 − 1
= 4728,5

De acuerdo a lo anterior, se puede decir que la media muestral es un estimador de la


media poblacional, mientras que la desviación estándar de la muestra es un estimador de
la desviación estándar de la población.

En este caso nos piden calcular

𝑃 (𝑋̅ ≥ 𝜇0 ) = 1 − 𝑃(𝑋̅ ≤ 𝜇0 )

Aplicando el teorema de límite central

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

9344,57 − 8935,71
𝑃(𝑋̅ ≥ 𝜇0 ) = 1 − 𝑃 (𝑋̅ ≤ ) = 1 − 𝑃 (𝑍 ≤ 1,34) = 1 − ∅(1,34)
4986,59
( )
√268
= 0,0901
En Excel

En consecuencia, la probabilidad de que la que la variable media muestral sea mayor o


igual que el valor de la poblacional, es de 0,0901

4. Ahora para identificar la forma de la distribución de la variable PURCHASE, se


calcula el sesgo, la curtosis.

Inicialmente se realiza el histograma de frecuencias

Histograma de Frecuencias(Purchase)
80 75
Frecuencias absolutas

70
56
60
50 41
40
30 24 25
20
20 11 14
10 2
0

Intervalos de clases

Gráfico N1: Histograma de frecuencias (Purchase)

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

• Sesgo (Asimetría)

El coeficiente de asimetría muestral para datos agrupados viene dado por

∑ni=1(Mc − ̅X)3 ∗ ni
As = = 0,741
nS 3
Como As = 0,741 > 0, entonces se puede decir que la distribución para la variable
PURCHASE, será asimétrica positiva.

• Curtosis

La curtosis para datos agrupados viene dado por

∑ni=1(Mc − ̅X)4 ∗ ni
κ= = 0,1871
nS 4
Como el coeficiente de curtosis κ = 0,1871 > 0, los datos están muy concentrados en la
media, siendo una curva muy apuntada, en consecuencia la distribución es leptocúrtica

De acuerdo a la representación gráfica (Histograma de frecuencias) y medidas de formas


se puede concluir que la variable (PURCHASE), no parece distribuirse de forma normal.

2. Actividad 2 (Semana 4)

Use la muestra seleccionada en la actividad 1 para todos los desarrollos:

a) Construya un intervalo de confianza al noventa por ciento para el promedio


de la variable PURCHASE. Escriba la interpretación en el contexto del
caso. Compruebe si la media poblacional cae en dicho intervalo.

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

b) Construya un intervalo de confianza al noventa y cinco por ciento para la


proporción de ventas superiores a US$5.000. Escriba la interpretación en el
contexto del caso. Compruebe si la proporción poblacional está en este
intervalo.
c) Construya un intervalo de confianza al noventa por ciento para la diferencia
de medias de las compras hechas por hombres y por mujeres. Escriba la
interpretación en el contexto del caso.

Solución:

a) Un intervalo del (1 − α)10% de confianza para la media poblacional μ, viene


dado por.
σ σ
̅
X − Z(1−α) ( ) ≤μ≤̅
X + Z(1−α) ( )
2 √n 2 √n

Datos del problema

𝑋̅ Media Muestral 8935,71


𝜎 D.E de la muestra 4728,48
𝑛 Tamaño de la Muestra 268

Para 𝛼 = 0.1, el valor del cuantil de la distribución normal es

Z(1−α) = Z(1−0.1) = 1,645


2 2

En Excel se calcula como

En consecuencia, nuestro intervalo de confianza seria.

4728,48 4728,48
(8935,71) − (1,645) ( ) ≤ μ ≤ (8935,71) + (1,645) ( )
√268 √268

8460,572 ≤ μ ≤ 9410,848

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

Luego el intervalo de confianza al 90% para el promedio de la compra en


dólares, se encuentra entra [8460,572 ; 9410,848], además es claro ver que la
media poblacional de la variable en contexto (Purchase), cae en el intervalos
de confianza.

b) Un intervalo del (1 − α)10% de confianza para la proporción poblacional π,


viene dado por.

P(1 − P) P(1 − P)
P − Z(1−α) √ ≤ π ≤ P + Z(1−α) √
2 n 2 n

Sea la variable

X = ventas superiores a US$5.000

𝑛 268
𝑋 226
𝑋
𝑃= 0,843
𝑛

Para 𝛼 = 0.05, el valor del cuantil de la distribución normal es

Z(1−α) = Z 0.05 = 1,960


2 (1− )
2

En Excel se calcula como

En consecuencia, nuestro intervalo de confianza seria.

(0.843)(1 − 0.843)
(0.843) − (1,960)√ ≤π
268

(0.843)(1 − 0.843)
≤ (0.843) + (1,960)√
268

0,7994 ≤ π ≤ 0,8866

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

Un intervalo de confianza al noventa y cinco por ciento para la proporción de


ventas superiores a US$5.000, es [0.7994 ; 0.8866], además la proporción
poblacional ce en este intervalo.

c) Un intervalo del (1 − α)10% de confianza para la diferencia de media μ1 −


μ2 , está dado por.

S12 S22 S12 S22



X1 − ̅
X 2 ) − t(1−α;v) √ + ( ̅ ̅ )
≤ μ1 − μ2 ≤ X1 − X2 + t (1−α;v) √ +
2 n1 n2 2 n1 n2

Asumiendo varianzas desconocidas y diferentes

Para nuestro contexto

𝑛 𝑋̅ 𝑆
195 9247,69 4784,38
Hombres
73 8543,49 4472,40
Mujeres
Grados de libertad
2
S12 S22
( )
n1 + n2
v= 2 2 = 138
S2 S2
( 1) ( 2)
n1 n
+ 2
n1 − 1 n2 − 1

Valor critico Para α = 0,05, el valor crítico de la distribución t con 138 grados de
libertad es

t (1−α; v) = t 0.1 = 1,656


2 (1− ; 138)
2

En Excel se calcula como

En consecuencia

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

(4784,38)2 (4472,40)2
(9247,69 − 8543,49) − (1,656)√ + ≤ μH − μM
195 73

(4784,38)2 (4472,40)2
≤ (9247,69 − 8543,49) + (1,656)√ +
195 73

−331,8152 ≤ μH − μM ≤ 1740,214

Un intervalo de confianza al noventa por ciento para la diferencia de medias de las


compras hechas por hombres y por mujeres, es [−331,8152 ; 1740,214]

3. Actividad 3 (Semana 5) Usando la muestra seleccionada en la actividad 1,


conteste:

a) Construya una prueba de hipótesis con un nivel de significancia de 0,05


para las ventas promedio, usando como hipótesis alternativa: el valor real
encontrado en la población (Actividad 1 ítem c.)". Justifique cada parte del
proceso, al final dé su conclusión en el contexto del problema.

b) Construya una prueba de hipótesis con un nivel de significancia de 0,05


para concluir si hay diferencia entre las compras promedio de hombres y
mujeres. Justifique cada parte del proceso, al final dé su conclusión en el
contexto del problema.

Solución:

Considere la prueba de Hipótesis

𝐻0 : 𝜇 = 9344,57
{ 𝐶𝑜𝑛𝑡𝑟𝑎
𝐻1 : 𝜇 ≠ 9344,57

Del problema se tiene

Media Muestral 8935,71


Tamaño de muestra 268
Desviación E Muestra 4728,48
Media Poblacional 9344,57

Nivel de significancia 𝛼 = 0,05 , el valor de la distribución Z, seria

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

𝑍(1−𝛼) = 𝑍 0.05 = 1,960


2 (1− )
2

Estadístico de Prueba

√268(8935,71 − 9344,57)
𝑍𝑐 = = −1,4155
4728,48

Decisión:

Como ⃓𝑍𝑐 ⃓ = 1,415 < 1,960 = 𝑍(1−𝛼), no se rechaza la hipótesis nula Ho, y se
2
concluye que las ventas promedio es igual a US$ 9344,57, con un nivel de
significancia del 95%

c) Considere la siguiente prueba de Hipótesis

Del problema se tiene

𝑛 𝑋̅ 𝑆
195 9247,69 4784,38
Hombres
73 8543,49 4472,40
Mujeres

Grados de libertad

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

De acuerdo a los resultados

𝑣 = 138

El valor crítico de la distribución t con 138 grados de libertad es

𝑡 0.05 = 1,656
(1− ,138)
2

En Excel

Valor del estadístico de prueba

(9247,69 − 8543,49)
𝑡0 = = 1,0039
√(4784,38) + 4472,40
2 ( )2
195 73

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)


lOMoARcPSD|9111924

Decisión:

Como ⃓𝑡0 ⃓ = 1,0039 < 1,656 = 𝑍(1−𝛼), no se rechaza la hipótesis nula Ho, y se
2
concluye que no hay diferencia entre las compras promedio de hombres y mujeres
con un nivel de significancia del 95%.

Downloaded by Óscar Inseca (oscardavidmillonarios@gmail.com)

También podría gustarte