Está en la página 1de 6

UNIVERSIDAD POLITÉCNICA

SALESIANA

TEMA
Trabajo Colaborativo 1

MATERIA
Probabilidad y Estadística

INTEGRANTES
López Valencia Víctor Hugo
Jonathan Henry Chuquimarca Lugmaña

DOCENTE
Yadira Paola Jerez Narváez

Octubre, 2019
INTRODUCCIÓN

El presente trabajo muestra la construcción de un programa en Python para el análisis de grandes


cantidades de información almacenadas sobre un archivo con extensión .CSV, debido a que el
análisis se hizo sobre un indicador en específico, fue necesario un proceso de filtrado de datos
mediante la utilización de la librería pandas además de la librería matplotlib para la graficación
respectiva de los valores con respecto al año de los países USA y ECU.

ANÁLISIS

Indicador: Exports of goods and services (current US$)

1. Para trabajar con el archivo Indicators.csv es necesario definir el directorio de ubicación de


este.

2. Se importa las librerías respectivas (pandas y matplotlib).

3. Se define el nombre del indicador con el cual se hará el filtrado de datos para el análisis
respectivo.

4. Se define una lista chunk_list en donde se irán guardando los datos filtrados, además, se
define una variable size la cual junto con chunksize nos ayudará a trabajar el archivo CSV de
20 mil en 20 mil registros, con lo cual evitamos que la PC se quede sin memoria al correr el
programa.

5. Se procede a leer el archivo CSV con la función de pandas read_csv, la cual recibe como
parámetros el path (punto 1), el nombre del archivo en este caso Indicators.csv y 20000
(punto 4).

6. Se realiza el filtrado de datos de todas las filas del archivo CSV que contienen el indicador
Exports of goods and services (current US$) mediante un lazo for y la función isin que
compara cada registro con el ya mencionado indicador, al final se añaden a chunk_list los
resultados con la función append.
7. Se da formato a los registros de chunk_list con la función concat, al final se imprimen los
resultados en una tabla con la función head.

SALIDA

8. Para el cálculo de la media, mediana y desviación estándar primero se verifica el último año
registrado con la función max ().

SALIDA

2014

9. Se obtiene una nueva tabla con todos los datos del último año registrado (punto 8) y se
procede a calcular la media, mediana y desviación estándar.

SALIDA
SALIDA

10. Se obtienen todos los valores de USA - ECU y se procede a graficar con la función scatter
SALIDA

CONCLUSIONES

• Python is a programming language that facilitates the statistical analysis of data, since
through its libraries it provides the researcher with several tools that help organize,
analyze, interpret and present the results of the study of scientific, industrial or social
problems.

• The information is essential for the performance of a statistical analysis on a certain


problem, the qualification must be organized in such a way that it can end up in a
perceptible result for those involved in the study or people locked in it, for this the
automation of these processes through the application of programming languages and a
set of data.

• Working with a large amount of data poses a risk to the equipment, especially if you do
not have enough memory to perform specific analyzes, for this reason it is advisable to
analyze the data in parts.

BIBLIOGRAFÍA
 Análisis y Decisión: Tranformando datos en decisiones. (4 de Octubre de 2019). Análisis y
Decisión: Tranformando datos en decisiones. Obtenido de https://bit.ly/3362B0g.

 Representación gráfica de funciones y datos. (4 de Octubre de 2019). Representación gráfica


de funciones y datos. Obtenido de https://bit.ly/2nnXtWd.

También podría gustarte