Está en la página 1de 18

1

ESTADISTICA INFERENCIAL

Grupo

Integrantes:

DI29

Tutor:

Politécnico Grancolombiano

2021
2

Actividad 1

1. Determine si se puede considerar que las variables Millaje y Price se

distribuyen normalmente. Para hacer esto pueden calcular e

interpretar cada una de las siguientes medidas o procedimientos, y

finalmente concluir.

Como fase inicial se establece una distribución normal o gaussiana cuya función

de densidad de datos tiene forma acampanada y es simétrica respecto a las

medidas centrales de tendencia: moda, media y mediana; las cuales deben estar

alrededor o cercanas al eje seleccionado.

Para hallar o corroborar si una distribución es normal o no lo es, surgen dos

posibles vías: la agrupación de los datos en tablas conocidas como de frecuencia

subdivididas en intervalos o mediante análisis individuales con medidas de

dispersión para datos no agrupados, es posible utilizar estas dos formas ya que no

buscamos un valor estadístico exacto, sino que se busca entender el tipo de

distribución, sus características, sus diferencias y sus posibles valores

probabilísticos; Debido a esto cada uno de los métodos presentados brindará

conclusiones oportunas y ecuánimes respecto a el planteamiento a estudiar,

analizándolo en cada una de las siguientes medidas.

PRICE

Desarrollo de la tabla de frecuencias para la variable PRICE


3

Determinación de los intervalos

Determinación de la

amplitud

 Rango=62116

 Intervalos=10

 Amplitud=6212

Tabla de frecuencia para la variable Price

 LI: límite inferior


 Ls: límite superior
 Xmi: marca de clase
 fi: frecuencia absoluta
 fr: frecuencia relativa
4

 FI: absoluta acumulada


 FR: Relativa acumulada
 : media
 Me: mediana
 σ: desviación estándar

Medidas de dispersión adicionales:

Estas medidas de dispersión adicionales contribuyen en gran parte a entender el


comportamiento respecto a la distribución en ese punto, podemos ratificar el
hecho de que la distribución mostrada no es normal, esto debido a la posición de
la media y la mediana, empero, hacer un análisis profundo de estas medidas es
fundamental para entender esta distribución.

A. El SESGO: Este indica la proporción de la desviación de la campana hacia el

lado que tenga más datos, se presentan en los siguientes casos:

 Coeficiente mayor que cero: significa que la campana está inclinada

hacia la derecha, por lo tanto, tiene más cantidad de datos después del

punto medio.

 Coeficiente menor que cero: Significa que la campana está inclinada

hacia a la izquierda, por lo tanto, tiene más cantidad de datos antes del

punto medio
5

 Coeficiente igual a cero= Significa que la distribución es normal debido

a las características de simetría que presenta.

Haciendo un análisis sobre el sesgo, evidenciamos que la desviación producida


hacia la derecha de los datos comparados con la campana de una distribución
normal
B. LA CURTOSIS: Es una medida de forma que muestra el nivel de altitud que

tiene la campana cuando llega al eje central.

Medida de Fisher:

Haciendo un análisis a la curtosis, evidenciamos un pico más agudo, en ese


sentido la mayoría de los datos están situados cerca al Z = 0.

C. Gráfica de la curva normal (q-q plot)

Usando el sistema de distribución normal y siendo las alturas el dato proveído por
la base se obtienen la siguiente gráfica:
6

No es una distribución normal puesto que la curva obtenida no sigue la tendencia

de la línea y sus pendientes difieren en muchos puntos

D. La regla empírica: Es una norma general impuesta atrás la observación de

resultado consecutivos con las mismas tendencias en una distribución normal,

es decir cuando un conjunto de datos presumía tener una distribución normal

tenían ciertas características:


7

Comprobación

El porcentaje visto en la frecuencia relativa acumulada de la tabla nos muestra que


la acumulación del 68% no se produce en la extensión supuesta por una regla
empírica por lo que por este método no se puede asegurar que sea una
distribución normal.

E. ¿Es correcto proponer intervalos de confianza o pruebas de hipótesis con la

variable Pirce?

Debido a que se muestra que no es una distribución normal hacer un intervalo

de confianza no sería la mejor opción ni daría resultados precisos.

Millaje

Desarrollo de la tabla de frecuencias para la variable millaje

Determinación del número de intervalos y la amplitud.

 Rango= 50121
8

 Intervalos= 10

 Amplitud= 5013

Tabla de frecuencia para la variable Millaje

Medidas de dispersión adicionales.

Estas medidas de dispersión adicionales contribuyen en gran parte a entender el

comportamiento respecto a la distribución en ese punto, podemos ratificar el

hecho de que la distribución mostrada es normal, esto debido a la posición de la

media y la mediana, empero, hacer un análisis profundo de estas medidas es

fundamental para entender esta distribución.


9

A. El SESGO: Este indica la proporción de la desviación de la campana hacia el

lado que tenga más datos, se presentan en los siguientes casos:

 Coeficiente mayor que cero: significa que la campana está inclinada

hacia la derecha, por lo tanto, tiene más cantidad de datos después del

punto medio.

 Coeficiente menor que cero: Significa que la campana está inclinada

hacia a la izquierda, por lo tanto, tiene más cantidad de datos antes del

punto medio

 Coeficiente igual a cero. Significa que la distribución es normal debido a

las características de simetría que presenta.

Haciendo un análisis sobre el sesgo, evidenciamos que la desviación producida


hacia la izquierda de los datos comparados con la campana de una distribución
normal
B. LA CURTOSIS: Es una medida de forma que muestra el nivel de altitud que

tiene la campana cuando llega al eje central

Medida de Fisher:
10

Haciendo un análisis a la curtosis, evidenciamos un pico más agudo, en ese


sentido la mayoría de los datos están situados cerca al Z = 0
F. Gráfica de la curva normal (q-q plot): Uusando el sistema de distribución
normal y siendo las alturas el dato proveído por la base se obtienen la
siguiente gráfica:

No es una distribución normal puesto que la curva obtenida no sigue la tendencia

de la línea y sus pendientes difieren en muchos puntos.

2. Asuman que los datos corresponden a una población. Van a

seleccionar una muestra usando el muestreo aleatorio simple.

Supongan conocido el tamaño de la población ¿Qué tamaño de

muestra escogen? Justifiquen su respuesta. Seleccionen la muestra y

muestren o expliquen cómo la obtuvieron.

Debido a que la segunda medida tiene una distribución normal el intervalo a

elegir debe hacerse con aquella cuyas dispersiones sean mayores con el fin de

abarcar un conjunto de datos que represente al grupo, para esto se asume un


11

porcentaje de error del 5% y se mantiene estándar el porcentaje de

confiabilidad el 95% el cual en la tabulación nos arroja un coeficiente de 1,955

el cual se aproxima en 1,96, usando la fórmula de poblaciones finitas

sobreponemos

un resultado que

se aproxima a 90

como tamaño muestral.

Mediante selección aleatoria los 90 datos se eligen y se muestrean como en el presente

documento

MUESTRA SELECCIONADA
12

Segunda entrega

3.Utilizando la muestra obtenida en la Actividad 1, construyan un intervalo de

confianza para el millaje promedio. Deben seleccionar un nivel de confianza;

tomen en cuenta que se debe privilegiar la exactitud sobre la confianza, aunque no

se olviden completamente de la confianza ¿qué nivel de confianza escogen y por

qué?
13

El nivel de confiabilidad se estima de 25% ya que se debe priorizar la exactitud sobre la

confianza, pero aun así mantener un margen al reconocer que es una muestra

seleccionada aleatoriamente

nivel de confiaza=25 %

Media muestral

Xi 1879793
Promedio=∑ = =20886.6
n 90

Desviación muestral

∑ ( x i−x́ )2 =7477.35
Desviación muestral=
√ n−1

Determinación del rango para el intervalo de confianza

 Z= ±0,39

 μ= 20886.6

 S=7477.35

X =Z ( s ) + μ

Xa=0,39 (7477.35 )+ 20886.6=23802.7


14

Xb=−0,39 ( 7477.35 ) +20886.6=17970.44

Para determinar si la media real se encuentra en el intervalo seleccionado, es decir, el

intervalo es correcto, se comprueba si la media poblacional hallada anteriormente se

encuentra en el rango dado, en este caso 23802.7> 19837,8>17970.44 , en este caso resulta

correcto

4.Construyan un intervalo de confianza para determinar si el millaje recorrido

por los autos fabricados por Cadillac y Chevrolet es el mismo o es diferente.

Ahora, asuman que deben privilegiar la confianza sobre la exactitud. Justifiquen

su elección del nivel de confianza.

El nivel de confiabilidad se estima de 75% ya que se debe priorizar la confianza

sobre la exactitud, pero aun así mantener un margen al reconocer que es una

muestra seleccionada aleatoriamente

Determinación del rango para el intervalo de confianza

 Z= ±1.15

 μ= 20886.6
15

 S=7477.35

X =Z ( s ) + μ

Xa=1,15 ( 7477.35 )+20886.6=29485.55

Xb=−1.15 ( 7477.35 )+ 20886.6=122287.64

Comparación para el intervalo de confianza

MILLAJE CHEVROLET PARA EL INTERVALO DE CONFIANZA

 TOTAL: 685494
 PROMEDIO: 19041,5

MILLAJE CADILLAC PARA EL INTERVALO DE CONFIANZA

 TOTAL: 123391
 PROMEDIO: 24678,2
el intervalo de confianza de una idea acertada ya que el millaje en estos caso no es igual, ni
el la muestra ni en el intervalo de confianza

Tercera entrega semana 5

5. Ahora, hagan una prueba de hipótesis sobre la proporción de autos que tienen

cuatro puertas (el valor poblacional es conocido, usen este valor para la hipótesis

nula). ¿La conclusión obtenida es correcta o se cometió un error tipo I o tipo II?
16

Usen el valor p en el desarrollo. En el desarrollo, supongan que el valor

poblacional de p es desconocido

PRUEBA DE HIPÓTESIS

HIPOTESIS NULA:

“La proporción de autos que tiene 4 puertas es 77%”

Para esta hipótesis la media del número de puertas es: 3.534

Desviación poblacional=0,849

HIPOTESIS ALTERNATIVA:

“La proporción de autos que tiene 4 puertas diferente 77%”

la media muestral del número de puertas es: 3.62

Suponiendo la hipótesis Nula como verdadera,

 Media hipotetica=3.54

 Desviación para la hipótesis a partir de la poblacional=0.08

z=¿ 3.534−3.62∨ ¿ =1.075 ¿


0.08
17

Con esto se rechaza la hipótesis nula ya que el valor de P obtenido es 31%, en este caso

se comete un error tipo 1 al rechazar una hipótesis verdadera, esto sucede debido a la

aleatoriedad de la muestra. Que, para el caso del número de puertas, acepta un error

mínimo

6. Ahora hagan una prueba de hipótesis, nuevamente para determinar si el millaje

recorrido por los autos fabricados por Cadillac y Chevrolet es el mismo o es

diferente. ¿cuál es la hipótesis nula?, ¿escoge una prueba de dos colas o de una

cola (de cola derecha o izquierda) ?, ¿explique o justifique su elección. Use “nivel

de significancia” en el desarrollo.

HIPOTESIS NULA:

la prueba de esta hipótesis para el parámetro Millaje de Cadillac

 Media de millaje para Cadillac=20041,5

Se escoge la prueba de dos colas puesto que se supone que uno de los valores debe ser

el terorico y se mantiene la relación de diferencia de proporciones entre ellos lo que

indica que una prueba de este modo será más acertada


18

el nivel de significancia que se elige es 5% el estándar para 95% confiabilidad para

lograr que el error tipo 1 sea mínimo pues así no se rechazaría una hipótesis nula

verdadera, pero se aumentaría la posibilidad de aceptar una hipótesis falsa

Hipótesis alternativa las medias no son iguales

Nivel de significancia: 5% valor de z=1.96

2.16=¿ 20041,5−15650.2∨ ¿ ¿
2958

Entra en el rango de rechazo por lo tanto esta hipótesis se rechaza obteniendo así un

resultado acorde a lo esperado y error de ningún tipo

También podría gustarte