Está en la página 1de 8

Semana 3 Actividad 1

1) Determine si se puede considerar que las variables Millaje y Price se


distribuyen normalmente. Para hacer esto pueden calcular e interpretar
cada una de las siguientes medidas o procedimientos, y finalmente concluir.
a) El sesgo
b) La curtosis
c) Una gráfica de la curva normal (q-q plot)
d) La regla empírica.

2) Asuman que los datos corresponden a una población. Van a seleccionar


una muestra usando el muestreo aleatorio simple. Supongan conocido el
tamaño de la población ¿Qué tamaño de muestra escogen? Justifiquen su
respuesta. Seleccionen la muestra y muestren o expliquen cómo la
obtuvieron.
Solución:
1. Considerando las variables en estudio Millaje y Price, determinemos si se
distribuyen normalmente.
 Price

Price  
N 804
Media 21343
Desviación estándar 9885
Sesgo 1,58
Curtosis 3,29

 El sesgo

∑ ( x i−x́ )3∗n i
A s= i=1 =1.58
N S3
Como A s=1.58>0 la distribución tiene una asimetría positiva y se alarga a valores
mayores que la media.

 La curtosis

∑ ( x i−x́ )4∗ni
g2= i=1 =3.29
N S4
Como g2=3.29> 0 los datos están muy concentrados en la media, siendo una curva
muy apuntada. (Leptocúrtica)

 La gráfica de la curva normal (q-q plot)

Normal QQ-plot
80000
70000
60000
50000
40000
Price

30000
20000
10000
0
0 200 400 600 800 1000 1200
fi

Figura #1: Grafico QQ-Plot “Price”


Mediante el grafico QQ-Plot ilustrado en la figura #1, se puede observar que los datos
para la variable “Price”, no se ajustan muy bien a la recta normal, por lo que se tiene
un indicio que los datos no siguen una distribución Normal.

para verificar la normalidad se realiza la siguiente prueba


 La regla empírica.
Para este caso se realiza la prueba teórica de Shapiro-Wilk

H 0 :la variable millaje sigue una distribución normal

{ vs
H 1 :la variable millaje no sigue una distribución normal

De acuerdo a los resultados reflejados del software estadístico R estudio se tiene


que

Prueba de Normalidad (Shapiro-Wilk "Price")

W 0,8615 P-value 2,2E-16


A un nivel de significancia α =5 %, se concluye que no existe normalidad en para la
variable Price, dado que el p-valué es menor que el nivel de significancia.
 Millaje

Millaje  
N 804
Media 19832
Desviación estándar 8196
Sesgo -0,13
Curtosis 0,18

 El sesgo

∑ ( x i−x́ )3∗n i
A s= i=1 =−0.13
N S3
Como A s=−0.13< 0 la distribución tiene una asimetría negativa, puesto que la
distancia de la mediana al primer cuartil mayor que al tercero.

 La curtosis

∑ ( x i−x́ )4∗ni
g2= i=1 =0.18
N S4
Como g2=0.18>0 los datos están muy concentrados en la media, siendo una curva
muy apuntada. (Leptocúrtica)
 La gráfica de la curva normal (q-q plot)
Normal QQ-plot
60000

50000

40000
Milajje
30000

20000

10000

0
0 200 400 600 800 1000 1200
fi

Figura #1: Grafico QQ-Plot “Millaje”

Mediante el grafico QQ-Plot ilustrado en la figura #2, se puede observar que los datos
para la variable “Millaje”, no se ajustan muy bien a la recta normal, por lo que se tiene un
indicio que los datos no siguen una distribución Normal.

para verificar la normalidad se realiza la siguiente prueba

 La regla empírica.
Para este caso se realiza la prueba teórica de Shapiro-Wilk

H 0 :la variable millaje sigue una distribución normal

{ vs
H 1 :la variable millaje no sigue una distribución normal

De acuerdo a los resultados reflejados del software estadístico R estudio se tiene


que

Prueba de Normalidad (Shapiro-Wilk "Millaje")

W 0,98418 P-value 1,25E-07

A un nivel de significancia α =5 %, se concluye que no existe normalidad en para la


variable Millaje, dado que el p-valué es menor que el nivel de significancia.

2. La fórmula para calcular el tamaño de la muestra cuando se conoce el


tamaño de la población es la siguiente
N∗Z 2 ∗p∗q
(1− α2 )
n=
ε 2∗( N −1 )+ Z 2 ∗p∗q
(1− α2 )
De acuerdo a nuestro problema
N=804
Nivel de cofianza del 95%, esto es α =0.05
El valor del cuantil de la distribución normal es
Z α=Z 0.05 =1.96
(1− ) (1− )
2 2

Precisión ε =0.03
Proporción esperada:
p=0.05 ,entonces q=1−p=1−0.05=0.95
Mediante un muestreo aleatorio simple (MAS) y utilizando el método coordinado negativo
calculemos una muestra representativa para dicha población
Luego, se tiene

N∗Z 2 ∗p∗q
(1− α2 ) 2
(804 )∗( 1.96 ) (0.05)(0.95)
n= = ≈ 67
ε 2∗( N −1 )+ Z 2 ∗p∗q (0.05)2 ( 804−1 ) + ( 1.96 )2(0.05)( 0.95)
(1− α2 )

Ahora mediante el método de selección coordinado negativo, se tiene las siguientes


muestras seleccionadas de tamaño 67 para cada variable en estudio.

Semana 4 Actividad 2

Utilicen la muestra seleccionada en el punto 2.

3. Utilizando la muestra obtenida en la Actividad 1, construyan un intervalo de


confianza para el millaje promedio. Deben seleccionar un nivel de confianza;
tomen en cuenta que se debe privilegiar la exactitud sobre la confianza, aunque no
se olviden completamente de la confianza ¿qué nivel de confianza escogen y por
qué? Una vez obtenido el resultado, determinen si es correcto o no, y justifiquen
su elección. Supongan que la varianza poblacional es desconocida.
4. Construyan un intervalo de confianza para determinar si el millaje recorrido por
los autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. Ahora,
asuman que deben privilegiar la confianza sobre la exactitud. Justifiquen su
elección del nivel de confianza. Asuma que las medias y las varianzas
poblacionales son desconocidas

Solución

3. Para esta variable millaje se tienen las siguientes mediadas


correspondientes
Millaje
n 67
Media 18584,7
Desviación Estandar 7634,4
En este caso intervalo de confianza para la media μ: σ desconocida para n ≥ 30
Un intervalo de confianza para µ del (1 - α) 100% está dado por
S S
x́−Z α
≤ μ ≤ x́ + Z α
( 1−
2 ) √n (1− 2 ) √ n
El nivel de confianza seleccionado en este caso es del 95%, es decir α =0.05
Se tuvo en cuenta este nivel de confianza seleccionado, dado que Un aumento en
el nivel de confianza, implica un aumento en la longitud del intervalo, y este a su
vez, implica una disminución en la precisión de la estimación.
Z =Z =1,96
Con un nivel de confianza α =0.05 se tiene que (1− α2 ) (1− 0.052 )
Luego reemplazando los datos en la ecuación se encuentra el intervalo requerido:

( 18584,7 ) −( 1,96 ) ( 7634,4


√ 67 ) ≤ μ ≤ ( 18584,7 ) + ( 1,96 ) (
7634,4
√ 67 )
16756,63 ≤ μ ≤ 20412,77
En consecuencia, un intervalo de confianza para el millaje promedio esta entre
[16756,63; 20412,77]

4. Para este caso se requiere


Un intervalo de confianza del (1 - α) 100% para μ1−μ 2está dado por

1 1

≤ μ 1−μ2 ≤
(2 ) √
( x́ 1−x́ 2 )−t α , v S p +
n1 n2

1 1
(2 )
De donde se tiene

( x́ 1−x́ 2 ) +t α ,v S p +
n 1 n2

Fabricante n media varianza


Cadillac 11 16467,8 45882734,0
Chevrolet 24 18274,5 74738789,4

m=n1+ n2−2=11+24−2=33

Se tuvo en cuenta este nivel de confianza seleccionado, dado que Un aumento en


el nivel de confianza, implica un aumento en la longitud del intervalo, y este a su
vez, implica una disminución en la precisión de la estimación.
para α =0.05, el valor crítico de la distribución t con 33 grados de libertad es

t =t =2,0345
(1− 0.052 ,m ) (1− 0.052 ,33)
Ahora
2 2
( n1 −1 ) S 1+ ( n2−1 ) S 2
S p=
√ m

( 11−1 ) (45882734,0)+ ( 24−1 ) (74738789,4)


S p=
√ 33
≈ 8124

En consecuencia
1 1
( 16467,8−18274,5 )−(2,0345)(8124 )
≤ μ 1−μ2 ≤
√ +
11 24

1 1
( 16467,8−18274,5 )+(2,0345)(8124)
−7824,80 ≤ μ1 −μ 2 ≤ 4211,40
√ +
11 24

El intervalo de confianza para determinar si el millaje recorrido por los autos


fabricados por Cadillac y Chevrolet [ −7824,80 ; 4211,40 ]

También podría gustarte