Está en la página 1de 18

Página 1 de 18

DESARROLLO TRABAJO COLABORATIVO ESTADISTICA DIFERENCIAL

ENTREGA SEMANA 3,4 Y 5

PRESENTADO AL TUTOR(A):
SERGIO CASTANEDA RAMIREZ

PRESENTADO POR SUBGRUPO 28


NATALIA ANDREA HINCAPIE ID
LAURA SOFIA ARDILA FONSECA ID 1921980531
CRISTIAN RODRIGUEZ RODRIGUEZ ID
JULIAN DARIO CABEZAS SANCHEZ ID
CRISTIAN CASTANEDA VELASCO ID

POLITÉCNICO GRANCOLOMBIANO
FACULTAD DE INGENIERÍA, DISEÑO E INNOVACIÓN
2020
Página 2 de 18

TABLA DE CONTENIDO

1. Modelo propuesto 3

1.1. Modelo y restricciones propuestos 4

1.1.1. Representación como red 5

1.2. Supuestos 5

2. Análisis estadístico 7
Página 3 de 18

1. Determine si se puede considerar que las variables Millaje y Prince se distribuyen

normalmente. Para hacer esto pueden calcular e interpretar cada una de las

siguientes medidas o procedimientos, y finalmente concluir.

Como fase inicial se establece una distribución normal o gaussiana cuya función de densidad de

datos tiene forma acampanada y es simétrica respecto a las medidas centrales de tendencia: moda,

media y mediana; las cuales deben estar alrededor o cercanas al eje seleccionado.

Para hallar o corroborar si una distribución es normal o no lo es, surgen dos posibles vías: la

agrupación de los datos en tablas conocidas como de frecuencia subdivididas en intervalos o

mediante análisis individuales con medidas de dispersión para datos no agrupados, es posible

utilizar estas dos formas ya que no buscamos un valor estadístico exacto, sino que se busca

entender el tipo de distribución, sus características, sus diferencias y sus posibles valores

probabilísticos; Debido a esto cada uno de los métodos presentados brindará conclusiones

oportunas y ecuánimes respecto a el planteamiento a estudiar, analizándolo en cada una de las

siguientes medidas.

PRINCE:

 Desarrollo de la tabla de frecuencias para la variable PRINCE

Rango=Dato mayor−Dato menor

Rango=70755−8639=6211 6

 Determinación de los intervalos

¿ Intervalos=1+3.322∗log ⁡n
Página 4 de 18

¿ Intervalos=1+3.322∗log 804 ≈ 1 0

 Determinación de la amplitud

Rango
Amplitud=
¿ Intervalos

62116
Amplitud= ≈ 621 2
10

 R ango=62116

 I ntervalos =10

 A mplitud=621 2

TABLA DE FRECUENCIA PARA LA VARIABLE PRICE

LI LS (Xmi) (fi) (fr) (FI) (FR) Xmi *fi Xmi ^2*fi X Me σ


3,12E+1
8639 14851 11745 226 0,28109 226 0,28109453 2,65E+06
0
8,67E+1
14851 21063 17957 269 0,61567 495 0,61567164 4,83E+06
0
6,95E+1
21063 27275 24169 119 0,76368 614 0,76368159 2,88E+06
0
8,77E+0
27275 33487 30381 95 0,11816 709 0,88184077 2,89E+06
6
6,96E+1
33487 39699 36593 52 0,06468 761 0,94651741 1,90E+06
0
4,76E+1
39699 45911 42805 26 0,03234 787 0,97885572 1,11E+06 21426,1 29353,4 9915,1
0
1,92E+1
45911 52123 49017 8 0,00995 795 0,98880597 3,92E+05
0
6,10E+0
52123 58335 55229 2 0,00249 797 0,99129353 1,10E+05
9
7,55E+0
58335 64547 61441 2 0,00249 799 0,9937811 1,23E+05
9
2,29E+1
64547 70759 67653 5 0,00622 804 1 3,38E+05
0
4,48E+1
Equivalencias 804 1 - - 1,72E+07
1
Página 5 de 18

 LI: límite inferior

 LS: límite superior

 Xmi: marca de clase

 fi: frecuencia absoluta

 fr: frecuencia relativa

 FI: absoluta acumulada

 FR: Relativa acumulada

 X: media

 Me: mediana

 σ: desviación estándar

Medidas de dispersión adicionales:

Xmi∗fi
Media : ∑ ❑ =21426,1393
❑ n

Mediana: lim inf + Amplitud∗ ( n2 −F ( i−1 ) )=18915.356 8


Desviación estándar √∑❑¿¿ ¿

Estas medidas de dispersión adicionales contribuyen en gran parte a entender el comportamiento

respecto a la distribución en ese punto, podemos ratificar el hecho de que la distribución

mostrada no es normal, esto debido a la posición de la media y la mediana, empero, hacer un

análisis profundo de estas medidas es fundamental para entender esta distribución.


Página 6 de 18

A. El SESGO: Este indica la proporción de la desviación de la campana hacia el lado que tenga

más datos, se presentan en los siguientes casos:

 Coeficiente mayor que cero: significa que la campana está inclinada hacia la derecha,

por lo tanto, tiene más cantidad de datos después del punto medio.

 Coeficiente menor que cero: Significa que la campana está inclinada hacia a la

izquierda, por lo tanto, tiene más cantidad de datos antes del punto medio

 Coeficiente igual a cero= Significa que la distribución es normal debido a las

características de simetría que presenta.

3 ( Media−Mediana )
Sesgo=
Desviación es tan dar

3( 21426,1393−29353,36431)
Sesgo= =−2,398
9915,055925

B. LA CURTOSIS: Es una medida de forma que muestra el nivel de altitud que tiene la

campana cuando llega al eje central.

Medida de Fisher:

α =∑ ❑ fi ¿¿

Haciendo un análisis a la curtosis, evidenciamos un pico más agudo, en ese sentido la mayoría de

los datos están situados cerca al Z = 0.

C. GRÁFICA DE LA CURVA NORMAL (Q-Q PLOT)

Usando el sistema de distribución normal y siendo las alturas el dato proveído por la base se

obtienen la siguiente gráfica:


Página 7 de 18

No

es

una distribución normal puesto que la curva obtenida no sigue la tendencia de la línea y sus

pendientes difieren en muchos puntos

D. LA REGLA EMPÍRICA: Es una norma general impuesta atrás la observación de resultado

consecutivos con las mismas tendencias en una distribución normal, es decir cuando un

conjunto de datos presumía tener una distribución normal tenían ciertas características:

X + S ≥ 68 % ≥ X −S

X +2 S ≥ 95 % ≥ X−2 S

X + S ≥ 97 % ≥ X −3 S

Comprobación
Página 8 de 18

El porcentaje visto en la frecuencia relativa acumulada de la tabla nos muestra que la

acumulación del 68% no se produce en la extensión supuesta por una regla empírica por lo que

por este método no se puede asegurar que sea una distribución normal.

¿Es correcto proponer intervalos de confianza o pruebas de hipótesis con la variable Pirce?

Debido a que se muestra que no es una distribución normal hacer un intervalo de confianza no

sería la mejor opción ni daría resultados precisos.

MILLAJE

 Desarrollo de la tabla de frecuencias para la variable millaje

Rango=Dato mayor−Dato menor

Rango=50387−266=50121

 Determinación del número de intervalos y la amplitud.

¿ Intervalos=1+3.322∗log ⁡n

¿ Intervalos=1+3.322∗log 804 ≈ 10

Rango
Amplitud=
¿ Intervalos

50121
Amplitud= ≈ 5013
10

 R ango=20121

 I ntervalos =10

 A mplitud=5013
Página 9 de 18

TABLA DE FRECUENCIA PARA LA VARIABLE MILLAJE

Frecuencia Absoluta
marca de absoluta f relativa Acumulada Relativa
lim inf lim sup clase (Xmi) (fi) (fr) (FI) acumulada (FR) Xmi *fi Xmi ^2*fi
266 5279 2772,5 46 0,057214 46 0,05721393 127535 353590787,5
5279 100292 7785,5 71 0,088308 117 0,145522388 552770,5 4303594728
10292 15305 12798,5 101 0,125622 218 0,271144279 1292648,5 16543961827
15305 20318 17811,5 165 0,205224 383 0,476368159 2938897,5 52346172821
20318 25331 22824,5 227 0,282338 610 0,758706468 5181161,5 1,18E+11
25331 30344 27837,5 131 0,162935 741 0,921641179 3646712,5 1,02E+11
30344 35357 32850,5 43 0,053483 784 0,975124378 1412571,5 46403680061
35357 40370 37863,5 14 0,017413 798 0,992537313 530089 20071024852
40370 45383 42876,5 4 0,004975 802 0,997512438 171506 7353577009
45383 50396 47889,5 2 0,002488 804 1 95779 4586808421
Sumas - - 804 1 - - 15949671 3,71734E+11
                 

X mi∗fi
Media : ∑ ❑ =19837,8992 5
❑ n

Mediana: lim inf +¿ Amplitud∗ ( n2 −F ( i−1 ) )=20737.5903 1 ¿


2

Desviación estándar
√ ∑

❑ ( X mi−x ) ∗fi
n
=8295,47799 5

Estas medidas de dispersión adicionales contribuyen en gran parte a entender el comportamiento

respecto a la distribución en ese punto, podemos ratificar el hecho de que la distribución

mostrada es normal, esto debido a la posición de la media y la mediana, empero, hacer un análisis

profundo de estas medidas es fundamental para entender esta distribución.

A. El SESGO: Este indica la proporción de la desviación de la campana hacia el lado que tenga

más datos, se presentan en los siguientes casos:


Página 10 de 18

 Coeficiente mayor que cero: significa que la campana está inclinada hacia la derecha,

por lo tanto, tiene más cantidad de datos después del punto medio.

 Coeficiente menor que cero: Significa que la campana está inclinada hacia a la

izquierda, por lo tanto, tiene más cantidad de datos antes del punto medio

 Coeficiente igual a cero. Significa que la distribución es normal debido a las

características de simetría que presenta.

3 ( Media−Mediana )
Sesgo=
Desviación es tan dar

3(19837,89925−20737.5)
Sesgo= =0.3253
8295,477995

Haciendo un análisis sobre el sesgo, evidenciamos que la desviación producida hacia la izquierda

de los datos comparados con la campana de una distribución normal

B. LA CURTOSIS: Es una medida de forma que muestra el nivel de altitud que tiene la

campana cuando llega al eje central

Medida de Fisher:

α =∑ ❑ fi ¿¿

Haciendo un análisis a la curtosis, evidenciamos un pico más agudo, en ese sentido la mayoría de

los datos están situados cerca al Z = 0

C. GRÁFICA DE LA CURVA NORMAL (Q-Q PLOT): Uusando el sistema de distribución

normal y siendo las alturas el dato proveído por la base se obtienen la siguiente gráfica:
Página 11 de 18

No es una distribución normal puesto que la curva obtenida no sigue la tendencia de la línea y sus

pendientes difieren en muchos puntos.

2. Asuman que los datos corresponden a una población. Van a seleccionar una muestra

usando el muestreo aleatorio simple. Supongan conocido el tamaño de la población

¿Qué tamaño de muestra escogen? Justifiquen su respuesta. Seleccionen la muestra

y muestren o expliquen cómo la obtuvieron.

Debido a que la segunda medida tiene una distribución normal el intervalo a elegir debe

hacerse con aquella cuyas dispersiones sean mayores con el fin de abarcar un conjunto de

datos que represente al grupo, para esto se asume un porcentaje de error del 5% y se mantiene

estándar el porcentaje de confiabilidad el 95% el cual en la tabulación nos arroja un

coeficiente de 1,955 el cual se aproxima en 1,96, usando la fórmula de poblaciones finitas

sobreponemos un resultado que se aproxima a 90 como tamaño muestra.


Página 12 de 18

805 X S2 X 1 , 962
n=
804 X ¿ ¿

n≈90

Mediante selección aleatoria los 90 datos se eligen y se muestrean como en el presente

documento

MUESTRA SELECCIONADA

3. Utilizando la muestra obtenida en la Actividad 1, construyan un intervalo de

confianza para el millaje promedio. Deben seleccionar un nivel de confianza; tomen


Página 13 de 18

en cuenta que se debe privilegiar la exactitud sobre la confianza, aunque no se

olviden completamente de la confianza ¿qué nivel de confianza escogen y por qué?

El nivel de confiabilidad se estima de 25% ya que se debe priorizar la exactitud sobre la

confianza, pero aun así mantener un margen al reconocer que es una muestra seleccionada

aleatoriamente

nivel de confiaza=25 %

Xi 1879793
 Media maestral Promedio=∑ = =20886.6
n 90

 Desviación maestral

∑ ( x i−x́ )2 =7477.35
Desviación muestral=
√ n−1

Determinación del rango para el intervalo de confianza

 Z= ±0,39

 μ= 20886.6

 S=7477.35

X =Z ( s ) + μ
Página 14 de 18

Xa=0,39 (7477.35 )+ 20886.6=23802. 7

Xb=−0,39 ( 7477.35 ) +20886.6=17970.4 4

Para determinar si la media real se encuentra en el intervalo seleccionado, es decir, el

intervalo es correcto, se comprueba si la media poblacional hallada anteriormente se

encuentra en el rango dado, en este caso 23802.7>19837,8>17970.44 , en este caso resulta

correcto

4. Construyan un intervalo de confianza para determinar si el millaje recorrido por los

autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. Ahora, asuman

que deben privilegiar la confianza sobre la exactitud. Justifiquen su elección del

nivel de confianza.

El nivel de confiabilidad se estima de 75% ya que se debe priorizar la confianza sobre la

exactitud, pero aun así mantener un margen al reconocer que es una muestra seleccionada

aleatoriamente

Determinación del rango para el intervalo de confianza

 Z= ±1.15

 μ= 20886.6
Página 15 de 18

 S=7477.35

X =Z ( s ) + μ

Xa=1,15 ( 7477.35 )+20886.6=29485.5 5

Xb=−1.15 ( 7477.35 )+ 20886.6=122287.6 4

Comparación para el intervalo de confianza

MILLAJE CHEVROLET PARA EL INTERVALO DE CONFIANZA

 TOTAL: 685494

 PROMEDIO: 19041,5

MILLAJE CADILLAC PARA EL INTERVALO DE CONFIANZA

 TOTAL: 123391

 PROMEDIO: 24678,2

El intervalo de confianza de una idea acertada ya que el millaje en este caso no es igual, ni en la

muestra ni en el intervalo de confianza

5. Ahora, hagan una prueba de hipótesis sobre la proporción de autos que tienen

cuatro puertas (el valor poblacional es conocido, usen este valor para la hipótesis

nula). ¿La conclusión obtenida es correcta o se cometió un error tipo I o tipo II?
Página 16 de 18

Usen el valor p en el desarrollo. En el desarrollo, supongan que el valor poblacional

de p es desconocido

PRUEBA DE HIPÓTESIS

HIPOTESIS NULA:

“La proporción de autos que tiene 4 puertas es 77%”

Para esta hipótesis la media del número de puertas es: 3.534

Desviación poblacional=0,849

HIPOTESIS ALTERNATIVA:

“La proporción de autos que tiene 4 puertas diferente 77%”

la media muestral del número de puertas es: 3.62

Suponiendo la hipótesis Nula como verdadera,

 Media hipotética=3.54

 Desviación para la hipótesis a partir de la poblacional=0.08

z=¿ 3.534−3.62∨ ¿ =1.07 5 ¿


0.08
Página 17 de 18

Con esto se rechaza la hipótesis nula ya que el valor de P obtenido es 31%, en este caso se

comete un error tipo 1 al rechazar una hipótesis verdadera, esto sucede debido a la

aleatoriedad de la muestra. Que, para el caso del número de puertas, acepta un error mínimo

6. Ahora hagan una prueba de hipótesis, nuevamente para determinar si el millaje

recorrido por los autos fabricados por Cadillac y Chevrolet es el mismo o es

diferente. ¿cuál es la hipótesis nula?, ¿escoge una prueba de dos colas o de una cola

(de cola derecha o izquierda) ?, ¿explique o justifique su elección. Use “nivel de

significancia” en el desarrollo.

HIPOTESIS NULA:

la prueba de esta hipótesis para el parámetro Millaje de Cadillac

 Media de millaje para Cadillac=20041,5

Se escoge la prueba de dos colas puesto que se supone que uno de los valores debe ser el

teórico y se mantiene la relación de diferencia de proporciones entre ellos lo que indica que

una prueba de este modo será más acertada

el nivel de significancia que se elige es 5% el estándar para 95% confiabilidad para lograr que

el error tipo 1 sea mínimo pues así no se rechazaría una hipótesis nula verdadera, pero se

aumentaría la posibilidad de aceptar una hipótesis falsa

Hipótesis alternativa las medias no son iguales

Nivel de significancia: 5% valor de z=1.96

2.16=¿ 20041,5−15650.2∨ ¿ ¿
2958
Página 18 de 18

Entra en el rango de rechazo por lo tanto esta hipótesis se rechaza obteniendo así un resultado

acorde a lo esperado y error de ningún tipo.

También podría gustarte