2.tarea 1 - Guevara Paola

UNIVERSIDAD DE LOS ANDES
NOMBRE: Paola Guevara

FECHA DE ENTREGA: 09/05/2022
TEMA: Estadística y diseño de experimentos
1. DISTRIBUCIÓN DE DATOS
Para cada conjunto de datos de números aleatorios, se realiza un análisis individual:
A. Análisis de los datos del archivo datos1.csv
a. Histograma de datos.
Para la elaboración del histograma se procede a calcular los parámetros estadísticos
principales, que se describen en la tabla a continuación calculados para un nivel de
confianza del 95% y nivel de significancia de 5%:
Columna1
Media 8.85462E+15
Error típico 1.17755E+15
Mediana 4.32929E+15
Moda #N/D
Desviación estándar 1.66531E+16
Varianza de la muestra 2.77326E+32
Curtosis 4.798640408
Coeficiente de asimetría 1.632902022
Rango 1.22376E+17
Mínimo -4.26211E+16
Máximo 7.97553E+16
Suma 1.77092E+18
Cuenta (n) 200
Para un histograma adecuado se debe tener un correcto número de intervalos, para
ello se emplea la fórmula √𝑛 que para 200 datos es, redondeando 14 intervalos y con
ello se realiza el histograma para un intervalo de confianza que se muestra a
continuación junto con la tabla de clase y frecuencia para su armado:
No. Clase Frecuencia % acumulado
1 -4.2621E+16 1 0.50%
2 -3.388E+16 0 0.50%
3 -2.5139E+16 1 1.00%
4 -1.6398E+16 2 2.00%
5 -7.6564E+15 8 6.00%
6 1.0848E+15 51 31.50%
7 9.826E+15 85 74.00%
8 1.8567E+16 15 81.50%
9 2.7308E+16 10 86.50%
10 3.6049E+16 16 94.50%
11 4.4791E+16 3 96.00%
12 5.3532E+16 2 97.00%
13 6.2273E+16 1 97.50%
14 7.1014E+16 2 98.50%
y mayor... 3 100.00%
Histograma
90
80
70
60
50
40
30 Frecuencia
20
10
0
b. Familias candidatas
Por la forma del histograma, y los datos, que se presentan tanto positivos como
negativos, además de que se puede determinar dos familias de distribución:
- Distribución normal
- Distribución 𝜒 2
c. Estimación de parámetros
• Para la distribución log normal se estiman los parámetros siguientes:
- Media
Para este parámetro se obtiene utilizando la siguiente fórmula:
𝑛
1
𝜇 = ∑ 𝑋𝑖
𝑛
𝑖=1
𝑎𝑝𝑙𝑖𝑐𝑎𝑛𝑑𝑜 𝑙𝑎 𝑓ó𝑟𝑚𝑢𝑙𝑎 𝜇 = 8,854,616,317,908,810

- Varianza
Si la varianza es desconocida, se puede estimar por medio de la varianza
muestra:
𝑛
1
𝑆 2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛
𝑖=1
𝑎𝑝𝑙𝑖𝑐𝑎𝑛𝑑𝑜 𝑙𝑎 𝑓ó𝑟𝑚𝑢𝑙𝑎 𝑆 2 = 1.66531𝐸 + 16
d. Superposición de funciones de densidad de probabilidad al histograma

Para ello se aumentó los intervalos a 50 y tener mejor visualización y mediante
la función normal se presenta la siguiente gráfica:
HISTOGRAMA VS DISTRIBUCIÓN NORMAL

60 3E-17
50 2.5E-17
40 2E-17
30 1.5E-17
20 1E-17
10 5E-18
0 0
-3.7726E+16
5.0385E+16
5.528E+16
-2.79359E+16
3.56998E+16
6.01751E+16
-4.26211E+16
-3.28309E+16
-2.30408E+16
-1.81458E+16
-1.32507E+16
-8.35567E+15
-3.46062E+15
1.43443E+15
6.32949E+15
1.12245E+16
1.61196E+16
2.10147E+16
2.59097E+16
3.08048E+16
4.05949E+16
4.54899E+16
6.50701E+16
6.99652E+16
7.48603E+16
NORMAL Frecuencia
e. Gráficos cuantil vs. Cuantil

Para este gráfico se realiza una tabla con los datos ordenados, su percentil y
se calcula el valor z con la definición de la normal, para observar si
efectivamente se trata de una distribución normal se procede a colocar una
línea de tendencia donde se junten los datos.
CUANTIL VS CUANTIL DISTRIBUCIÓN NORMAL

100,000,000,000,000,000
80,000,000,000,000,000
60,000,000,000,000,000
40,000,000,000,000,000
20,000,000,000,000,000
0
-4 -3 -2 -1 0 1 2 3
-20,000,000,000,000,000
-40,000,000,000,000,000
-60,000,000,000,000,000
f. Test de bondad de ajuste

La función 𝜒 2 está definida por la siguiente fórmula:
𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 =∑
𝐸𝑖
𝑖=1
𝑑𝑜𝑛𝑑𝑒 𝑂𝑖 : 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎𝑠 𝑦 𝐸𝑖 : 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎𝑠 𝑜 𝑡𝑒ó𝑟𝑖𝑐𝑎𝑠

Se define la hipótesis nula Ho:
Ho: los datos corresponden a una distribución normal con media
8,854,616,317,908,810 y desviación estándar 1.66531𝐸 + 16
Entonces, previamente para la construcción del histograma se halló la
frecuencia observada con la que se construyó el mismo, ahora para la
frecuencia esperada se toma la probabilidad calculada con la distribución
normal y se halla la frecuencia esperada definida como el número de datos por
la probabilidad normal.
Desarrollando la fórmula, se obtiene que 𝜒 2 = 3.10213𝐸 + 18
Para un nivel de significancia 𝛼 = 0.05 y 𝑚+𝑘−1=
8,854,616,317,908,850
2
Se tiene 𝜒𝑡𝑎𝑏𝑙𝑎𝑠 = 8.85697E + 15, donde este representa el límite de rechazo
de la hipótesis nula.
Por lo tanto, se rechaza la hipótesis nula al estar fuera del rango de aceptación.
g. Comentario
Se ha rechazado la hipótesis nula para una distribución normal debido a que
mediante el test de 𝜒 2 se demuestra que no está acorde a la distribución,
también se muestra en el gráfico de histograma vs distribución, que esta no
está acorde a la distribución normal y de igual forma en el gráfico cuantil vs
cuantil existe dispersión con la función de probabilidad normal para la recta
y=x, mismo que indica falta de correspondencia entre los datos y la
distribución.
B. Análisis de los datos del archivo datos2.csv
h. Histograma de datos.
confianza del 95%:
DATOS ALEATORIOS
Media 1.22125592
Error típico 0.07301267
Mediana 0.97812205
Moda #N/D
Desviación estándar 1.03255514
Varianza de la muestra 1.06617011
Curtosis 21.6124026
Coeficiente de asimetría 3.63482606
Rango 9.18404953
Mínimo 0.13262713
Máximo 9.31667666
Suma 244.251184
Cuenta 200
Como en el caso anterior, se emplea la fórmula √𝑛 que para 200 datos es,
redondeando 14 intervalos, sin embargo, al realizar el histograma no se obtiene una
buena visualización para la interpretación, por lo tanto, se tomaron 50 intervalos para
el histograma siguiente:
Histograma
35
30
25
Frecuencia
20
15
10 Frecuencia
5
CLASE
i. Familias candidatas
Por la forma del histograma, y los datos que se presentan son solamente positivos,
se puede determinar tres familias de distribución:
- Distribución log normal
- Distribución gamma
j. Estimación de parámetros
• Para la distribución log normal se estiman los parámetros siguientes:
Se tiene los parámetros de media y varianza de la muestra y se quiere
determinar los parámetros 𝜃 𝑦 𝜔2 para la distribución, entonces:
𝜔2
𝜃+
𝜇= 𝑒 2 → 𝜔2 = 2 ln(𝜇 ) − 2𝜃
2 2
𝜎 2 = 𝑒 2𝜃+𝜔 (𝑒 𝜔 − 1)
𝑟𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜:
1 𝜎 2 + 𝜇2
𝜃 = − ln ( )
2 𝜇2
De esta forma y con los datos expuestos anteriormente se hallan los
parámetros:
𝜃 = −0.06978
𝜔2 = 0.5393
• Para la distribución gamma se estiman los parámetros siguientes:

𝜇=𝛼∗𝛽 𝑦 𝜎 2 = 𝛼 ∗ 𝛽2
𝑑𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒;
𝜎2 𝜇
𝛽= 𝑦 𝛼=
𝜇 𝛽
Reemplazando, se obtiene:
𝛼 = 1.398 𝑦 𝛽 = 0.873
k. Superposición de funciones de densidad de probabilidad al histograma
Se visualiza el histograma y la función log normal:
HISTOGRAMA VS DISTRIBUCIÓN LOG

NORMAL
35 1
0.9
30
0.8
25 0.7
20 0.6
0.5
15 0.4
10 0.3
0.2
5
0.1
0 0
0.499989112
1.602075056
4.540970905
8.581952699
0.132627131
0.867351093
1.234713074
1.969437037
2.336799018
2.704160999
3.438884962
3.806246943
4.173608924
4.908332886
5.275694868
5.643056849
6.377780811
6.745142793
7.112504774
7.479866755
7.847228736
8.214590717
3.07152298
6.01041883
8.94931468
HISTOGRAMA VS DISTRIBUCIÓN GAMMA
35 0.7
30 0.6
25 0.5
20 0.4
15 0.3
10 0.2
5 0.1
0 0
0.499989112
1.602075056
4.540970905
8.581952699
0.132627131
0.867351093
1.234713074
1.969437037
2.336799018
2.704160999
3.438884962
3.806246943
4.173608924
4.908332886
5.275694868
5.643056849
6.377780811
6.745142793
7.112504774
7.479866755
7.847228736
8.214590717
3.07152298
6.01041883
8.94931468
l. Gráficos cuantil vs. Cuantil
Para ello, mediante la ecuación de distribución log normal se halla el percentil
y el valor de z para realizar el grafico cuantil vs cuantil que se muestra a
continuación:
GR[AFICA CUANTIL VS CUANTIL DISTRIBUCIÓN

LOG NORMAL
6
0
0 0.5 1 1.5 2 2.5 3 3.5 4
DATOS Lineal (DATOS)

GR[AFICA CUANTIL VS CUANTIL DISTRIBUCIÓN
GAMMA
9
8
7
6
5
4
3
2
1
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Series1 Lineal (Series1)
m. Test de bondad de ajuste

Similar al anterior literal se procede a calcular 𝜒 2
Ho: los datos corresponden a una distribución log normal con media −0.069
y desviación estándar 0.5393
la probabilidad normal.
Desarrollando la fórmula, se obtiene que 𝜒 2 = 183.949
Para un nivel de significancia 𝛼 = 0.05 y 𝑚 + 𝑘 − 1 = 50
2
Se tiene 𝜒𝑡𝑎𝑏𝑙𝑎𝑠 = 67.5048, donde este representa el límite de rechazo de la
hipótesis nula.
n. Comentario
Se ha rechazado la hipótesis nula para una distribución log normal debido a
que mediante el test de 𝜒 2 se demuestra que no está acorde a la distribución,
aunque se muestra en el gráfico de histograma vs distribución, que si se
correlacionan gráficamente los datos con la distribución y de igual forma en
el gráfico cuantil vs cuantil.
C. Análisis de los datos del archivo 200ciudadesUSA.csv
o. Histograma de datos.
confianza del 95%:
DATOS
Media 417658.915
Error típico 49632.8583
Mediana 231987
Moda #N/D
Desviación estándar 701914.613
Varianza de la muestra 4.9268E+11
Curtosis 78.7978163
Coeficiente de
asimetría 7.9032163
Rango 8034890
Mínimo 142135
Máximo 8177025
Suma 83531783
Cuenta 200
Como en el caso anterior, se emplea la fórmula √𝑛 que para 200 datos es,
redondeando 14 intervalos, sin embargo, al realizar el histograma no se obtiene una
buena visualización para la interpretación, por lo tanto, se tomaron 50 intervalos para
el histograma siguiente:
Histograma
100
80
Frecuencia
60
40
20
Frecuencia
0
y mayor...
543879.5
945624
142135
4561324.5
1347368.5
1749113
2150857.5
2552602
2954346.5
3356091
3757835.5
4159580
4963069
5364813.5
5766558
6168302.5
6570047
6971791.5
7373536
7775280.5
CLASE
p. Familias candidatas
Por la forma del histograma, y los datos que se presentan son solamente positivos,
se puede determinar tres familias de distribución:
- Distribución gamma
- Distribución exponencial
q. Estimación de parámetros
• Para la distribución gamma se estiman los parámetros siguientes:
𝜇=𝛼∗𝛽 𝑦 𝜎 2 = 𝛼 ∗ 𝛽2
𝑑𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒;
𝜎2 𝜇
𝛽= 𝑦 𝛼=
𝜇 𝛽
Reemplazando, se obtiene:
𝛼 = 0.354 𝑦 𝛽 = 1179632.72
• Para la distribución exponencial se estiman los parámetros siguientes:

1
𝜆=
𝜇
Donde u es la media muestral. Entonces:
𝜆 = 2.3943𝐸 − 06
r. Superposición de funciones de densidad de probabilidad al histograma
HISTOGRAMA VS DISTRIBUCIÓN GAMMA

100 0.0000014
90 0.0000012
80
70 0.000001
60 0.0000008
50
40 0.0000006
30 0.0000004
20
0.0000002
10
0 0
1749113
3356091
4963069
6570047
1106321.8
1427717.4
6891442.6
142135
463530.6
784926.2
2070508.6
2391904.2
2713299.8
3034695.4
3677486.6
3998882.2
4320277.8
4641673.4
5284464.6
5605860.2
5927255.8
6248651.4
7212838.2
7534233.8
7855629.4
Series1 Series2
HISTOGRAMA VS DISTRIBUCIÓN EXPONENCIAL
100 0.0000018
90 0.0000016
80 0.0000014
70 0.0000012
60
0.000001
50
0.0000008
40
30 0.0000006
20 0.0000004
10 0.0000002
0 0
1106321.8
1427717.4
6570047
6891442.6
1749113
3356091
4963069
142135
2070508.6
2391904.2
2713299.8
3034695.4
3677486.6
3998882.2
4320277.8
4641673.4
5284464.6
5605860.2
5927255.8
6248651.4
7212838.2
7534233.8
7855629.4
463530.6
784926.2
Series1 Series2
s. Gráficos cuantil vs. Cuantil
CUANTIL VS CUANTIL
4000000
3500000
3000000
Título del eje
2500000
2000000
1500000
1000000
500000
0
0 200000 400000 600000 800000 1000000
Título del eje
t. Test de bondad de ajuste

Similar al anterior literal se procede a calcular 𝜒 2
Ho: los datos corresponden a una distribución GAMMA con
𝛼 = 0.354 𝑦 𝛽 = 1179632.72
la probabilidad gamma.
Desarrollando la fórmula, se obtiene que 𝜒 2 = 295178215.6
Para un nivel de significancia 𝛼 = 0.05 y 𝑚 + 𝑘 − 1 = 417,708
2
Se tiene 𝜒𝑡𝑎𝑏𝑙𝑎𝑠 = 419211.5486, donde este representa el límite de rechazo
de la hipótesis nula.
u. Comentario
Se ha rechazado la hipótesis nula para una distribución gamma debido a que
mediante el test de 𝜒 2 se demuestra que no está acorde a la distribución,
aunque se muestra en el gráfico de histograma vs distribución, que, si se
correlacionan gráficamente los datos con la distribución, pero en el gráfico
cuantil vs cuantil indica que no es correcta que puede ser una primera
inferencia.
2. ESTADÍSTICA DESCRIPTIVA
a) Genere 100 datos pseudoaleatorios según las siguientes distribuciones usando
distintas semillas:
1)𝑋𝑖 ∼ 𝑁(10, 5)
5
2) 𝑌𝑖 ∼ 𝛤 (4, 2)
3) 𝑍𝑖 ∼ 𝐸𝑥𝑝(1,10)
Se presenta una tabla con los números pseudoaleatorios desarrollados de cada
distribución.
No. VARIABLES VARIABLES No. VARIABLES VARIABLES
ALEATORIAS ALEATORIAS ALEATORIAS ALEATORIAS
NORMAL NORMAL NORMAL NORMAL
1 13.7418431 12.1836759 5 51 12.1975097 14.0895144 15
2 14.89741296 5.58780936 10 52 5.35938286 16.298809 10
3 4.935478753 8.62870159 11 53 4.2133627 9.18460605 12
4 18.31032594 14.0441633 11 54 14.8000857 6.62830678 14
5 18.40150278 3.63446393 9 55 12.7666715 6.90395241 7
6 7.683909214 21.6409664 15 56 11.5805767 12.0442507 8
7 18.96986876 9.52052912 8 57 2.41761088 2.6478304 11
8 12.60801016 12.2440318 13 58 5.78130883 7.00454288 12
9 7.505699412 8.4466182 7 59 16.6729172 3.94902639 6
10 4.355971467 4.7542335 10 60 9.84602255 16.2631115 8
11 17.00831606 13.569244 9 61 20.7460437 6.98881169 7
12 12.43125555 14.5562139 12 62 6.33314474 10.9684133 12
13 14.16866897 4.29634928 10 63 9.6671761 9.3824028 10
14 6.713609107 2.52858194 15 64 12.7796091 6.62059273 14
15 17.09727601 4.75090505 7 65 15.4855718 12.7212093 10
16 2.320772435 10.9667561 12 66 1.77373411 11.5855365 6
17 17.93816071 7.43606179 6 67 7.90441052 9.68818549 8
18 13.01166665 5.84702583 3 68 3.39449914 13.7986359 10
19 11.21774519 19.7375937 15 69 24.1553755 13.0701735 8
20 7.870537527 11.986646 5 70 5.60053539 7.79515439 12
21 10.88568299 8.62156959 16 71 4.60841309 8.86231601 8
22 10.28147156 33.7856601 10 72 9.79167455 23.3035524 11
23 4.882807641 8.56596653 7 73 1.37355644 0.59431376 14
24 16.97680207 2.27397093 17 74 10.9689529 8.60322792 14
25 14.10725534 11.2292496 14 75 16.9255293 28.1956718 13
26 12.88965794 6.08068666 6 76 14.807373 8.07248365 10
27 11.1214297 12.527363 15 77 9.75108835 7.35069441 11
28 12.0743073 3.92684141 4 78 6.79013172 22.5279872 11
29 2.308312358 9.02970554 10 79 10.4068454 4.91579509 8
30 10.04417871 7.2326049 10 80 -1.25754352 14.7669876 17
31 6.652599066 18.5538097 11 81 13.912055 9.09510432 6
32 6.895178356 6.57232962 11 82 1.70636329 9.86352722 11
33 10.07707399 8.31297784 7 83 8.63434823 9.68432049 9
34 6.372071109 10.7066892 9 84 14.4966214 8.46502297 10
35 7.526037987 7.7564811 9 85 1.87134563 10.10754 7
36 -0.119993021 14.8036988 8 86 12.8001637 14.3302174 8
37 8.826734782 9.84210858 13 87 9.49482685 12.8358545 5
38 5.318034962 18.33084 10 88 0.3096068 7.9625036 6
39 4.8899017 4.96300823 10 89 8.97251541 14.2259123 7
40 12.79434857 10.3318571 11 90 16.6636176 3.30363335 12
41 1.198933458 11.0988464 12 91 3.84344846 4.58113149 6
42 3.157371136 5.1129046 12 92 20.4294486 13.479707 8
43 6.64781285 2.80951604 4 93 20.9514076 15.5479848 6
44 5.213840975 3.7090837 8 94 9.76946583 9.91891147 7
45 12.35833113 6.91132837 9 95 15.1966254 17.6425881 14
46 7.567454102 12.8774297 8 96 10.3301352 9.37045819 10
47 10.168518 14.0770742 8 97 11.1618681 4.90606433 10
48 7.693697651 13.0817799 10 98 7.30658828 4.5851257 10
49 2.891184775 8.47398723 18 99 9.42480144 11.7205845 10
50 10.46520654 9.82108524 16 100 13.6249389 8.34245648 14
b) Para los pares (X, Y), (Y, Z) y (Z, X), grafique y calcule la correlación.
x,y
25
20
15
10
0
-5 0 5 10 15 20 25 30
x,z
20
18
16
14
12
10
8
6
4
2
0
-5 0 5 10 15 20 25 30

2.tarea 1 - Guevara Paola

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2.tarea 1 - Guevara Paola

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE LOS ANDES

NOMBRE: Paola Guevara

𝑎𝑝𝑙𝑖𝑐𝑎𝑛𝑑𝑜 𝑙𝑎 𝑓ó𝑟𝑚𝑢𝑙𝑎 𝜇 = 8,854,616,317,908,810

𝑎𝑝𝑙𝑖𝑐𝑎𝑛𝑑𝑜 𝑙𝑎 𝑓ó𝑟𝑚𝑢𝑙𝑎 𝑆 2 = 1.66531𝐸 + 16

d. Superposición de funciones de densidad de probabilidad al histograma

HISTOGRAMA VS DISTRIBUCIÓN NORMAL

e. Gráficos cuantil vs. Cuantil

CUANTIL VS CUANTIL DISTRIBUCIÓN NORMAL

f. Test de bondad de ajuste

𝑑𝑜𝑛𝑑𝑒 𝑂𝑖 : 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎𝑠 𝑦 𝐸𝑖 : 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎𝑠 𝑜 𝑡𝑒ó𝑟𝑖𝑐𝑎𝑠

• Para la distribución gamma se estiman los parámetros siguientes:

HISTOGRAMA VS DISTRIBUCIÓN LOG

GR[AFICA CUANTIL VS CUANTIL DISTRIBUCIÓN

DATOS Lineal (DATOS)

Series1 Lineal (Series1)

m. Test de bondad de ajuste

• Para la distribución exponencial se estiman los parámetros siguientes:

r. Superposición de funciones de densidad de probabilidad al histograma

HISTOGRAMA VS DISTRIBUCIÓN GAMMA

s. Gráficos cuantil vs. Cuantil

t. Test de bondad de ajuste

También podría gustarte