Está en la página 1de 10

Probabilidad y estadística

Tarea N°3
Sección 1
Integrantes: Margarita Osorio, Alejandro Díaz.
Profesor: Demian Schkolnik.
Ayudante: Nicolás Araya.
Introducción
En este informe fue solicitado modelar un set de datos correspondientes a velocidades de
internet a través de distribución normal, continua y exponencial.
El set de datos está presentando en formato .csv en el cual, el primer valor representa el intervalo
en segundos de la medición, luego el segundo valor representa el valor de la transferencia
realizada, y por último, el tercer valor representa al bandwith en Mbits/segundo.
Es solicitado verificar que distribución se adapta mejor a los datos a través de verificación gráfica,
distancia cuadrática y test de hipótesis.

Desarrollo
1.1 Estadígrafos y análisis
En esta sección se importaron los datos desde el archivo csv utilizando el software Jupyter
utilizando las librerías matplotlib.pyplot, pandas, numpy y stats.
Se utiliza el graficador para obtener el siguiente gráfico:

A su vez, se obtuvieron los estadígrafos de posición y dispersión correspondiente a los datos:


Estadígrafos de posición:
Media: 166.2236
Mediana: 167
Moda: 167
Estadígrafos de dispersión:
Desviación Estándar: 11.413
Varianza: 130.2557
Analizando estos datos, se concluye que el valor más esperado de BandWidth que puede
obtener de la muestra es de 166.2 con variación de 11, como es un valor pequeño para la
Desviación Estándar se dice que es una muestra que tiende al centro de los datos.

1.2 Distribución
En esta sección se observa la distribución de los datos y se realiza una comparación para
observar cuál de las 3 distribuciones solicitadas; distribución normal, exponencial y
continua, es mejor para realizar una estimación de los datos, a continuación, se observan
los gráficos obtenido:

Distribución Normal:
Se programó el código en Jupyter, obteniendo el siguiente histograma de los datos
comparando con el gráfico teórico de la distribución normal:

A continuación, se generan datos con distribución normal para poder realizar una
comparación de distancias cuadráticas con respecto a los valores entregados (Código 1.2):
Por consiguiente, se realizó la obtención de la diferencia cuadrática obteniendo un valor
promedio de 11.709.
Finalmente se realizó la comparación de los histogramas de los datos generados vs los datos
reales:
Distribución Exponencial:
Se programó el código en Jupyter , obteniendo el siguiente histograma de los datos
comparando con el gráfico teórico de la distribución exponencial:

A continuación, se generan datos con distribución exponencial para poder realizar una
comparación de distancias cuadráticas con respecto a los valores entregados (Código 2.2):
Por consiguiente, se realizó la obtención de la diferencia cuadrática (Código 2.3) obteniendo
un valor promedio de 11.982.
Finalmente se realizó la comparación de los histogramas de los datos generados vs los datos
reales:
Distribución Uniforme Continua:
Se programó el código en Jupyter (Código 3.1), obteniendo el siguiente histograma de los
datos comparando con el gráfico teórico de la distribución exponencial:

A continuación, se generan datos con distribución exponencial para poder realizar una
comparación de distancias cuadráticas con respecto a los valores entregados (Código 3.2):
Por consiguiente, se realizó la obtención de la diferencia cuadrática (Código 3.3) obteniendo
un valor promedio de 83.766.
Finalmente se realizó la comparación de los histogramas de los datos generados vs los datos
reales:
2.4 Análisis
El 99% del tiempo, el bandwidth que se podría asegurar son 166.22 Mbits/s debido a que es
el valor que más se frecuenta en los datos distribuidos.

2.5 Test de hipótesis


Se utilizó el test k-s para verificar cual era la menor diferencia de distancia entre la
frecuencia acumulada de los datos en comparación a la frecuencia acumulada de las
distintas distribuciones.
Para la distribución normal en contraste con los datos, se obtuvo un resultado de 0.1307.
Para la distribución exponencial en contraste con los datos, se obtuvo un resultado de
0.4524.
Para la distribución uniforme continua en contraste con los datos, se obtuvo un resultado de
0.4517.
Por lo tanto, a través, de este test de hipótesis se concluye que la distribución normal es la
más acertada para modelar este dataset. Además, se puede verificar esta información a
través del gráfico de la frecuencia acumulada de los datos en contraste la frecuencia
acumulada de la distribución normal:

2.8 Conclusiones
En este informe se concluye que el mejor modelo de distribución para el dataset entregado, es
el modelo de distribución normal de los datos, esto fue comprobado a través de la distancia
cuadrática de datos generados aleatoriamente mediante generación de datos con distribución
normal, como también a través del ks-test en el cuál obtuvo el menor valor de distancia de
frecuencia acumulativa con respecto a la función acumulativa de la distribución normal.
Las dificultades presentadas fue principalmente la utilización de Python, debido a que esta
herramienta no ha sido introducida en los cursos anteriores, a su vez, el archivo csv no venía
correctamente separado con comas, por lo que se tuvo que programar la generación de un
nuevo archivo csv en base a el dataset entregado.
Finalmente, se concluye que, en base a la investigación realizada, se esperaba que la
distribución normal fuese la correcta, debido a que esta es la más frecuente de las
distribuciones de datos obtenidos en distintos sucesos.

También podría gustarte