Está en la página 1de 14

Actividad 1

1. Determine si se puede considerar que las variables Millaje y Price se distribuyen

normalmente. Para hacer esto pueden calcular e interpretar cada una de las

siguientes medidas o procedimientos, y finalmente concluir.

Como primera medida se define una distribución normal o distribución gaussiana como aquella

cuya función de densidad de datos tiene forma acampana y es simétrica con respecto a medidas

de dispersión tales como, media, moda y mediana.

Para encontrar o verificar si una distribución es normal o no, emergen dos caminos posibles el

análisis dato a dato con medidas de dispersión para datos no agrupados, ó la agrupación en una

tabla de frecuencia a través de intervalos, debido a que no se busca un valor estadístico puntual,

sino que es una distribución continua, cada uno de los métodos proveerá una conclusión acertada

y equitativa respecto al planteamiento presentado, analizado en cada una de las siguiente

medidas.

PRICE

Desarrollo de la tabla de frecuencias para la variable PRICE

Rango=Dato mayor−Dato

menor

Rango=70755−8639=62116

Determinación del numero de intervalos mediante la regla de sturges

¿ Intervalos=1+3.322∗log n

Siendo n el número de datos; 804


A. El SESGO: Es una característica de forma, relativa a la distribución, usando el método del

Coeficiente de Pearson, se presentan y analizan los siguientes casos:

• Coeficiente positivo: implica que la campana está desviada a la derecha, es decir

tiene mayor cantidad de datos después del punto medio.

• Coeficiente negativo: implica que la campana está desviada a la izquierda, es decir

tiene mayor cantidad de datos antes del punto medio

• Coeficiente igual a cero= implica que la distribución es normal debido a las

características de simetría que presenta.

3( Media−mediana)
Sesgo= desviación estandar

3(21426,1393−18915.3568)
Sesgo= 9915,055925 =0,75 96

Analizando el sesgo, podemos ver la desviación hacia la derecha de los datos comparándolos
con la campana estándar de una distribución normal
B.LA CURTOSIS: Es una característica de forma, relativa a la distribución, usando el método

del Fisher para datos agrupados, se presentan y analizan los siguientes casos:

• Medida de Fisher < 3, la distribución es platicútica. El pico es más agudo y no simétrico.

• Medida de Fisher = 3: la distribución es normal, El pico es estándar y simétrico.

• Medida de Fisher > 3, la distribución es leptocúrtica, El pico se encuentra achatado hacia el


eje
4

∑ )fi ( mix
−media
α=
=5,9241

n (desviación)4
Analizando la curtosis, podemos ver un pico mucho más agudo, es decir que la mayoría de los
datos están ubicados cerca al z=0, tomado como eje de referencia
C. Gráfica de la curva normal (q-q plot)

Para llevar nuestros datos a la media y referencia de un sistema normal se siguió el procedimiento

Ordenamiento y numeración de todos los datos

Cambio al sistema normal mediante la función de distribución normal estándar inversa aplicada
a argumentos de la forma (i-0.5/n) siendo i la posición numérica del dato

Como se puede observar en la gráfica la linealización no presenta una tendencia cercana a la

curva normal de dispersión generada, otro argumento más para concluir que no es una

distribución normal

D. La regla empírica: esta regla se basa en la conclusión experimental, que expone que en una

distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su media

puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la distribución

no es normal, sin embargo no es argumento suficiente para demostrar que lo es.


• ´x+ s ≥ 68 % ≥ ´x−s

• ´x+ 2 s≥ 95 % ≥ ´x−2 s

• ´x+ 3 s≥ 97 % ≥ ´x−3 s

Comprobación

21426,1393+9915,055925 ≥ 68% ≥ 21426,1393-9915,055925

39268,42024 ≥ 68% ≥ 19438,30839


Estos valores estarían ubicados en promedio desde parcialmente el intervalo dos hasta parcialmente el
intervalo 5, al hacer la frecuencia relativa acumulada fue de un 64% pero reconociendo que con las
aproximaciones puede dar mucho menor, se concluye que no tiene una tendencia de distribución
normal

E. ¿Es correcto proponer intervalos de confianza o pruebas de hipótesis con la variable price?

No sería correcto ni proveería datos acertados ya que la distribución no es normal, aunque se

acerque ligeramente y por lo tanto no es simétrica, una estimación en intervalos de confianza

de estos datos puede dejar un gran margen de error probabilístico en la variable a analizar en

este caso Price, precio.

Millaje

Desarrollo de la tabla de frecuencias para la variable millaje

Rango=Dato mayor−Dato

menor

Rango=50387−266=50121

Determinación del número de intervalos mediante la regla de sturges

¿ Intervalos=1+3.322∗log n
Siendo n el número de datos; 804

¿ Intervalos=1+3.322∗log 804 ≈ 10

rango
Amplitud =
¿ intervalos

50121
Amplitud = ≈5013
10

Tabla de frecuencia para la variable Millaje

Nota: El intervalo seleccionado será el intervalo de la mediana

Medidas de dispersión adicionales.

• Media: ∑
Xmi∗fi = 19837,89925

n
• Mediana: lim inf + Amplitud∗( −F(i −1))=¿ 20737.59031
2

• Desviación 2
−x´ ) ∗fi n
estándar
∑( x

mi
= 8295,477995
Las anteriores sirven como medidas de tendencia que nos ayudan a entender el comportamiento de la
distribución en este punto, es posible afirmar que la distribución presentada es una distribución normal
debido a la posición de la mediana y la media, las cuales se encuentras cerca la una de la otra y del punto
de referencia, sin embargo, un análisis a profundidad de las siguientes medidas es fundamental para el
entendimiento de esta.

B. El SESGO: Es una característica de forma, relativa a la distribución, usando el método del

Coeficiente de Pearson, se presentan y analizan los siguientes casos:

• Coeficiente positivo: implica que la campana está desviada a la derecha, es decir

tiene mayor cantidad de datos después del punto medio.

• Coeficiente negativo: implica que la campana está desviada a la izquierda, es decir

tiene mayor cantidad de datos antes del punto medio

• Coeficiente igual a cero: implica que la distribución es normal debido a las

características de simetría que presenta.

3( Media−mediana)
Sesgo= desviación estandar

3(19837,89925−20737.5)
Sesgo= 8295,477995 =−0,3253

Analizando el sesgo, podemos ver la desviación ligera hacia la izquierda de los datos
comparándolos con la campana estándar de una distribución normal, entraría en la tolerancia
estimada para considerar a esta distribución como normal
B.LA CURTOSIS: Es una característica de forma, relativa a la distribución, usando el método

del Fisher para datos agrupados, se presentan y analizan los siguientes casos:

• Medida de Fisher < 3, la distribución es platicútica. El pico es más agudo y no simétrico.


• Medida de Fisher = 3: la distribución es normal, El pico es estándar y simétrico.

• Medida de Fisher > 3, la distribución es leptocúrtica, El pico se encuentra achatado hacia el


eje
4

∑ )fi ( mix
−media
α=
=2,96

n (desviación)4
Analizando la curtosis, podemos ver un pico cercano a la distribución normal, es decir que la
mayoría de los datos están ubicados cerca al z=0, manteniendo su simetría al eje de referencia
distribución normal

C.Gráfica de la curva normal (q-q plot)


Para llevar nuestros datos a la media y referencia de un sistema normal se siguió el procedimiento

• Ordenamiento y numeración de todos los datos


• Cambio al sistema normal mediante la función de distribución normal estándar inversa aplicada
a argumentos de la forma (i-0.5/n) siendo i la posición numérica del dato
Como se puede observar en la gráfica la linealización presenta una tendencia cercana a la curva

normal de dispersión generada, otro argumento más para concluir que es una distribución

normal

C.La regla empírica: esta regla se basa en la conclusión experimental, que expone que en una

distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su media

puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la distribución no

es normal, sin embargo, no es argumento suficiente para demostrar que lo es.


´x+ s ≥ 68 % ≥ ´x−s

´x+ 2 s≥ 95 % ≥ ´x−2 s

´x+ 3 s≥ 97 % ≥ ´x−3 s

Comprobación

Estos valores estarían ubicados en promedio desde parcialmente el intervalo 4 hasta parcialmente el
intervalo 7, al hacer la frecuencia relativa acumulada fue de un 68.7% pero reconociendo que con las
aproximaciones puede dar mucho menor, se concluye que tiene una tendencia de distribución normal

F. ¿Es correcto proponer intervalos de confianza o pruebas de hipótesis con la variable price?

Sería correcto ya que daría datos acertados, debido a que esta distribución puede

considerarse como normal


2. Asuman que los datos corresponden a una población. Van a seleccionar una muestra

usando el muestreo aleatorio simple. Supongan conocido el tamaño de la población ¿Qué

tamaño de muestra escogen? Justifiquen su respuesta. Seleccionen la muestra y muestren o

expliquen cómo la obtuvieron.


Debido a que la segunda muestra sí tiene mayor nivel de confiabilidad el intervalo a elegir debe

hacerse usando los datos de la primera distribución para este se plantea un porcentaje de error del

10% y una confiabilidad del 95% seguido a esto seleccionar a la muestra de forma aleatoria

simple obteniendo el resultado mostrado

805× s 2 × 1,962
n=
2
850 × ( 0.1×19837.89 ) + × 2
(1.96)
(s 2

N=86,22
se usa una selección aleatoria de 87 datos los cuales se obtienen al multiplicar la cantidad de

datos totales por la varianza por el valor tabular de nuestro nivel de confiabilidad y dividirlo

entre los datos totales multiplicados por nuestro porcentaje error por la media obtenida,

sumándole la varianza multiplicada por nuestro valor tabular del porcentaje de error .
¿ Intervalos=1+3.322∗log 804 ≈ 10

rango
Amplitud =
¿ intervalos

62116
Amplitud = ≈ 6212
10

Tabla de frecuencia para la variable Price

Nota: El intervalo seleccionado será el intervalo de la mediana

Medidas de dispersión adicionales.

• Media: ∑
Xmi∗fi = 21426,1393

n
• Mediana: lim inf + Amplitud∗( −F(i −1))=¿ 18915.3568
2

• Desviación −x´
estándar
= 9915,055925
∑( 2


x ) ∗fi n

mi

Las anteriores sirven como medidas de tendencia que nos ayudan a entender el comportamiento de la
distribución en este punto, es posible afirmar que la distribución presentada NO es una distribución
normal debido a la posición de la mediana y la media, sin embargo, un análisis a profundidad de las
siguientes medidas es fundamental para el entendimiento de esta.

También podría gustarte