Está en la página 1de 14

ESTADISTICA INFERENCIAL

Grupo B01 Subgrupo 23


Consolidado Final

Trabajo colaborativo Presentado por:


Dagoberto José Ramírez Fonseca
Yeison Vargas Arango
Jaime Alonso Quinceno Hincapié
Yuliana Andrea Fresneda Bautista
Gentil Diaz Lozada

Presentado a:
Johana Olarte Pataquiva
Institución Universitaria Politécnico Gran colombiano.

2023
INTRODUCCION

Muchas pruebas estadísticas suponen que un conjunto de datos sigue una


distribución normal. Ciertas medidas como simetría, curtosis, la regla empírica
y graficas QQ. La asimetría y la curtosis son dos medidas estadísticas que
sirven para describir la forma de una distribución sin tener que hacer su
representación gráfica. En concreto, la asimetría indica el grado de simetría (o
asimetría) de una distribución, mientras que la curtosis indica el grado de
concentración de una distribución alrededor de su media. Aunque un gráfico
QQ no es una prueba estadística formal, proporciona una manera fácil de
verificar visualmente si un conjunto de datos sigue una distribución normal y, de
no ser así, cómo se viola esta suposición y qué puntos de datos pueden causar
esta violación.

Podemos crear una gráfica QQ trazando dos conjuntos de cuantiles entre sí. Si
ambos conjuntos de cuantiles provienen de la misma distribución, los puntos
del gráfico deben formar aproximadamente una línea diagonal recta.

Por su parte la regla empírica es una regla que define el porcentaje de valores
de una distribución normal que se encuentran a tres desviaciones estándar de
la media.
DESARROLLO

1. Determine si se puede considerar que las variables Millaje y Price se


distribuyen normalmente. Para hacer esto pueden calcular e interpretar cada
una de las siguientes medidas o procedimientos, y finalmente concluir.

a) El sesgo
b) La curtosis
c) Una gráfica de la curva normal (q-q plot)
d) La regla empírica.

El sesgo

Para realizar el cálculo del sesgo se procede a tomar los datos


correspondientes a las columnas Price y Millaje del archivo Excel "Kuiper"
suministrado, y estableciendo la formula estadística de coeficiente de asimetría
obtenemos estos valores.

El sesgo corresponde una medida del error que se detecta en los resultados
del estudio y que además se debe a factores en la recolección, el análisis y la
interpretación de los datos tomados. A través de esta medida de forma se
puede reflejar el grado simétrico.

Se pueden obtener entonces tres medidas simétricas posibles:

=0: es insesgada

>0:la distribución tiene un sesgo positivo o a la derecha el resultado es positivo.

<0:la distribución tiene un sesgo negativo o a la izquierda el resultado es


negativo.
Resultados del cálculo del sesgo

Por lo que se deduce que se deduce que;

Para Price el Sesgo tiene un valor positivo (1,58), lo cual se puede evidenciar a
través de la imagen del histograma que el sesgo es positivo (>0) y por lo tanto
su simetría se orienta hacia la derecha, es decir que la moda se presenta del
lado izquierdo y la media aritmética al lado derecho (asimetría es positiva). 

En el caso de Millaje el Sesgo es menor que cero con un valor de -0,13. Por lo
tanto la asimetría es Negativa, es decir, la moda se ubica al lado derecho y la
media aritmética al lado izquierdo.

Después de realizar el análisis de datos y de verificar las gráficas de la


distribución podemos afirmar que los datos correspondientes a las columnas
Price y Millaje NO están distribuidas normalmente.
b) Curtosis
Se refiere al grado de agudeza o aplanamiento de la distribución de los valores
en relación con la distribución normal.
Es decir, la curtosis muestra si una distribución es escarpada o achatada. En
concreto, cuanto mayor sea la curtosis de una distribución más escarpada (o
apuntada) es.

En este sentido, el coeficiente de curtosis es un cálculo que se hace para


cuantificar la curtosis de una distribución. 

Donde:

G2:es el coeficiente de curtosis.

n es el número total de datos.

Xi es el dato i-ésimo de la serie.

 es la media aritmética de la distribución.

σ es la desviación estándar (o desviación típica) de la distribución.

 Una vez obtenido el coeficiente de curtosis, se debe interpretar de la siguiente


manera:

 Si el coeficiente de curtosis es positivo, significa que la distribución


es leptocúrtica.
 Si el coeficiente de curtosis es igual a cero, significa que la
distribución es mesocúrtica.
 Si el coeficiente de curtosis es negativo, significa que la distribución
es platicúrtica
A partir de la gráfica obtenida se tiene:

Un valor de curtosis para Price de 3,29 y para Millaje 0,18. Para ambos casos
el valor es positivo lo cual muestra que es lepocurtica, sin embargo, Price
muestra una curtosis más puntiaguda en comparación con Millaje.

c) Cálculo de los gráficos QQ (variables Price y Millaje)


Para el caso de la variable Price se puede considerar que los datos no
pertenecen a una distribución normal ya que lo podemos ver en el grafico Q –
Q PLOT que todos los datos no se encuentran alineados o cercanos a la línea
de referencia.

e) Regla empírica

La regla empírica hace referencia a la forma de agrupación de las


observaciones alrededor de un valor central, la media o promedio, en unidades
de desviación estándar. La regla empírica es una generalización del Teorema
de Tchebyshev y de la Distribución Normal. La regla empírica permite abreviar
cálculos cuando se trabaja con una distribución normal.
2. Asuman que los datos corresponden a una población. Van a
seleccionar una muestra usando el muestreo aleatorio simple. Supongan
conocido el tamaño de la población ¿Qué tamaño de muestra escogen?
Justifiquen su respuesta.

-Seleccionen la muestra y muestren o expliquen cómo la obtuvieron.


Como sabemos el muestreo aleatorio simple se utiliza para sacar determinadas
muestras donde la población tiene un tamaño específico, donde la muestra
tiene la probabilidad de ser seleccionada de otra igual o del mismo tamaño o
cuando no conocemos el tamaño de población se desea saber la proporción de
vehículos defectuoso en una población de 804. Para un estudio con un nivel de
confianza de 90% y un margen de error del 5% suponiendo que en un estudio
anterior salieron 4 vehículos defectuosos de cada 20.

Reemplazamos valores en la siguiente formula.


Donde:

n= Tamaño de la muestra buscado


N= Tamaño de la población
Z= Parámetro estadístico que depende del Nivel de Confianza (NC)
e= Error de estimación aceptado
P= Probabilidad de que ocurra el evento estudiado (éxito)
q= (1-p) Probabilidad de que no ocurra el evento estudiado.

Entonces;
n= 143

Luego de seleccionar el tamaño de la muestra a trabajar, se enumeramos los


datos del 1 al 143 haciendo uso de la fórmula "ALEATORIO.ENTRE " donde
nos arroja datos aleatorios en el rango de 1 a 143.
65 9173 23145
66 9216 24696
67 11582 23095
68 10498 23221
69 12525 24084
70 9065 23655
71 11503 21906
72 11379 22626
73 10055 24891
74 9216 22621
75 9950 22064
76 10857 22997
77 12694 23659
78 9811 25115
79 9055 22194
80 11039 22812
81 12542 23374
82 11534 22632
83 12734 24422
84 10591 24842
85 10780 23291
86 11600 21930
87 10473 24427
88 10889 23496
89 11065 22148
90 10547 24893
91 10475 22482
92 9431 24745
93 12997 23739
94 10483 22074
95 8816 23981
96 9793 24322
97 12636 21903
98 8826 22913
99 10568 23157
100 11949 24898
101 9301 22540
102 11837 22191
103 9875 21849
104 10294 22591
105 8974 22484
106 9207 23469
107 11114 23132
108 9771 22540
109 9045 24153
110 11458 25073
111 10001 22111
112 12865 23818
113 12863 22897
114 11361 21897
115 12972 22209
116 9623 24293
117 11609 22756
118 9789 22956
119 12490 22755
120 12057 24875
121 11013 22635
122 9102 22322
123 12941 22033
124 9578 21908
125 9546 21995
126 10985 21951
127 12501 21845
128 10975 23346
129 10085 21956
130 11485 24124
131 12303 24572
132 11573 22544
133 8893 21959
134 8995 23643
135 12329 23407
136 12563 23167
137 9410 21936
138 12290 22078
139 9335 23417
140 9129 23277
141 8746 23776
142 13014 24971
143 12080 22863
3. Utilizando la muestra obtenida en la Actividad 1, construyan un
intervalo de confianza para el millaje promedio. Deben seleccionar un
nivel de confianza; tomen en cuenta que se debe privilegiar la exactitud
sobre la confianza, aunque no se olviden completamente de la confianza
¿qué nivel de confianza escogen y por qué? Una vez obtenido el
resultado, determinen si contiene o no a μ.
Supongan que la varianza poblacional es desconocida.

Primeramente, tomando como referencia la información aportada en la guía del escenario 3,


se propone construir un intervalo para la media de una población normal cuando la varianza
de la población es desconocida.

Los datos que tenemos son los siguientes:

n= 143 (muestra resultante)

promedio= 22085,55

desviación estándar= 1759,80

gl= n-1

gl= 143-1

gl= 142

Z = 2,26

Como el nivel de confianza mide la probabilidad de que el parámetro


poblacional caiga dentro del rango de valores escogemos 95% y Z=2,26

Entonces; 

σ
μ= x ± z
√n
1759,80
μ=22085,55+ 2,26 =22381,33
√ 143
1759,80
μ=22085,55−2,26 =21752,96
√143

Con un nivel de confianza del 95% se puede decir que el intervalo de confianza
se encuentra entre 22381,33 y 21752,96.
Para hallar la distribución t student requerida para el cálculo, se realizó el
cálculo en Excel mediante la fórmula INV.T (0,025; 143) el cual nos da como
resultado 2,26.

Evidentemente la gráfica que demuestra que el límite poblacional que está en


el rango de intervalo de confianza, lo cual nos indica de un 95% de los casos
está comprendido en ese límite.

4. Construyan un intervalo de confianza para determinar si el millaje


recorrido por los autos fabricados por Cadillac y Chevrolet es el mismo o
es diferente. Ahora, asuman que deben privilegiar la confianza sobre la
exactitud. Justifiquen su elección del nivel de confianza. Asuma que las
medias y las varianzas poblacionales son desconocidas

Se continuo con el 91 % de nivel de confianza. para saber la diferencia del


intervalo ya que uno me dio negativo y otro positivo se realizó una suma y la
diferencia entre los 2 es de 1494,05 el valor de Alpha es de 0,09 ya que es el
restante para llegar al 100%.

 
5. Ahora, hagan una prueba de hipótesis sobre la proporción de autos que
tienen cuatro puertas (el valor poblacional es conocido, usen este valor para la
hipótesis nula). ¿La conclusión obtenida es correcta o se cometió un error tipo I
o tipo II? Usen el valor p en el desarrollo.

En el desarrollo, supongan que el valor poblacional de p es desconocido.

Primeramente, se determinar la hipótesis nula "Ho" y alternativa "Ha".

Ho: Autos que tiene 4 puertas


Ha: Autos que no tienen 4 puertas

Ho: μ=0

Ha: μ ≠ 0

Se determinar el nivel de significancia.

Alfa= 0,1

Se calculan los intervalos que implican ese nivel de significancia. NIVEL DE CONFIANZA: 90%

CONCLUSIÓN

En general la distribución normal es la más importante de las distribuciones en


estadística dado que gracias a ella podemos explicar muchos fenómenos. Los
datos se distribuyen de manera simétrica alrededor de la media en forma de
campana, la famosa “campana de Gauss”, y los valores más cercanos a la
media son más probables de encontrarse. Gracias a esta distribución, podemos
tener una idea de cómo se “distribuyen” los datos específicos.

Cabe resaltar que existen ciertas medidas que ayudan a determinar el


comportamiento de datos estadísticos y que se pueden analizar con la
distribución normal, como sesgo o simetría, curtosis y además de gráficos y
reglas como la empírica que nos permiten analizar y visualizar los datos.

También podría gustarte