Está en la página 1de 3

TALLER 2

Indicaciones generales

1. Creen una carpeta de trabajo que tenga el primer apellido de cada integrante, por ejemplo,
ROJAS_LOPEZ_MIRANDA (el grupo es el mismo que el del Taller 1, a menos que hayan realizado la
solicitud de cambio indicada por correo).
2. Coloquen en esta carpeta todos los archivos de datos que corresponden al taller.
3. Creen un proyecto en esta carpeta.
4. Creen un script que contenga el código que permite realizar la lectura de cada conjunto de datos. Sean
ordenad@s.

1. Archivo de datos 1 (202007-PDE-REP-00247)

• Descripción: Número de pasajeros que pagaron por el uso de la infraestructura, contabilizados por la
entidad prestadora.
• Número de registros: 24
• Número de columnas: 6
• Nombre de las columnas: ANIO, MES, CONCESION, ENTIDAD PRESTADORA, TIPO TRAFICO,
TOTAL PASAJEROS
• Fuente: https://www.datosabiertos.gob.pe/dataset/indicadores-de-operaci%C3%B3n-trafico-de-
pasajeros-tl1

Para la lectura de algunos caracteres puede que necesite utilizar el siguiente argumento locale =
readr::locale(encoding = "latin1")

a. Lean el archivo 202007-PDE-REP-00247 - A.csv y almacénenlo como datos1a.


b. Extraigan los datos de la quinta fila de datos1a.
c. Lean el archivo 202007-PDE-REP-00247 - B.csv y almacénenlo como datos1b. Utilice un comando
de lectura distinto al de la pregunta a.
d. Extraigan los datos de la segunda y tercera columna de datos1b.
e. Lean el archivo 202007-PDE-REP-00247 - C.csv y almacénenlo como datos1c. Es necesario que
agreguen los nombres de columnas. Utilice un comando de lectura distinto al de las preguntas a y c.
f. Extraigan el dato de la 6ta fila y 3ra columna de datos1c y almacénenlo como x.
g. ¿Cuál es el tipo de dato de x? Utilicen una función de R para determinarlo.
h. Coercione x con as.character. ¿Esta coerción es explícita o implícita? ¿Hubo algún cambio?

2. Archivo de datos 2 (202007-PDE-REP-00274)

• Descripción: Kilómetros recorridos totales, por tipo de material rodante, contabilizados por la entidad
prestadora en la infraestructura.
• Número de registros: 105
• Número de columnas: 7
• Nombre de las columnas: ANIO, MES, CONCESION, ENTIDAD PRESTADORA, FERROCARRIL,
TIPO DE MATERIAL RODANTE, KM RECORRIDOS
• Fuente: https://www.datosabiertos.gob.pe/dataset/tr%C3%A1fico-por-kilometro-recorrido-y-material-
rodante-mensual-fce-fso

a. Lean el archivo 202007-PDE-REP-00274-A.csv y almacénenlo como datos2a.


b. Extraigan los datos de la última y penúltima fila de datos2a. Como parte de su respuesta debe usar la
función nrow
c. Lean el archivo 202007-PDE-REP-00274-B.csv y almacénenlo como datos2b. Deben incluir los
nombres de variables: AÑO, MES, CONCESION, ENTIDAD, FERROCARRIL, MATERIAL, KM. Utilice
un comando de lectura distinto al de la pregunta a.
d. Indique el tipo de datos de la columna KM. ¿Es posible coercionar a numeric?
e. Lean el archivo 202007-PDE-REP-00274-C.csv y almacénenlo como datos2c.Note la presencia de
? como valor no disponible. Utilice un comando de lectura distinto al de las preguntas a y c.
f. Filtre los registros que corresponden a la CONCESIÓN del FERROCARRIL DEL CENTRO y almacene
el data frame resultante en un objeto de nombre FDC.
3. Archivo de datos 3 (202007-PDE-REP-00075)

• Descripción: Número de pasajeros, contabilizado por la entidad prestadora en la infraestructura.


Incluye operaciones embarque y desembarque.
• Número de registros: 169 registros
• Número de columnas: 8
• Nombre de columnas: ANIO, MES, CONCESION, ENTIDAD PRESTADORA, AEROPUERTO, TIPO
TRAFICO, PASAJEROS DESEMBARQUE, PASAJEROS EMBARQUE
• Fuente: https://www.datosabiertos.gob.pe/dataset/informacion-de-trafico-de-pasajeros-corpac

a. Lean el archivo 202007-PDE-REP-00075-1.csv y almacénenlo como datos3a.


b. Extraigan los datos de la columna AEROPUERTO de datos3a y almacénenlos en un objeto de
nombre aero.
c. Verifique si aero es un vector, data frame y/o matriz. Use código en R para verificarlo.
d. Lean el archivo 202007-PDE-REP-00075-2.csv y almacénenlo como datos3b. No deben ser leídas
las filas que inician con el símbolo %. Utilice un comando de lectura distinto al de la pregunta a.
e. Extraigan el dato de la última fila de la columna MES de datos3b. Como parte de su respuesta debe
usar la función nrow
f. Lean el archivo 202007-PDE-REP-00075-3.csv y almacénenlo como datos3c. Es necesario que
agreguen los nombres de las columnas: AÑO, MES, CONCESION, ENTIDAD, AEROPUERTO,
TRAFICO, DESEMBARQUE, EMBARQUE. Utilice un comando de lectura distinto al de las preguntas
a y d.
g. ¿Cuál es el tipo de dato del elemento que está en la última columna de la primera fila? Como parte de
su respuesta debe usar la función ncol

4. Archivo de datos 4 (Adquisiciones)

• Descripción: El conjunto de datos publicado corresponde a las adquisiciones COVID-19 Nacional.


• Número de registros: 323
• Número de columnas: 5
• Nombre de columnas: FECHA, RUC, PROVEEDOR, PRODUCTO, CANTIDAD
• Fuente: https://www.datosabiertos.gob.pe/dataset/distribuci%C3%B3n-de-equipos-de-
protecci%C3%B3n-personal-por-covid-19-ministerio-de-salud-minsa

a. Lean el archivo Adquisiciones - Version 1.xls y almacénenlo como datos4a.


b. Extraigan el RUC de las empresas con CANTIDAD menor a 10 000 y almacenen el resultado en un
objeto de nombre RUC.
c. Lean el archivo Adquisiciones - Version 2.xls y almacénenlo como datos4b. Solo lean el rango de
datos que corresponde a los 10 primeros datos de las 3 últimas columnas. Debe añadir el nombre de
las columnas. Utilice un comando de lectura distinto al de la pregunta a.
d. Extraigan los datos de la séptima fila de datos4b y almacénenlos en un objeto de nombre siete y
verifiquen si siete es un vector atómico, un data frame y/o un tibble (cargue el paquete tibble y utilice
is_tibble)
e. Lean el archivo Adquisiciones - Version 3.xlsx y almacénenlo como datos4b. Utilice un comando de
lectura distinto al de las preguntas a y c.
f. Filtre los registros que corresponden al PRODUCTO BOTA DESCARTABLE

5. Archivo de datos 5 (4.3. TRÁFICO ORIGINADO DESDE LÍNEAS FIJAS DE ABONADO)

• Descripción: Tráfico originado en líneas fijas de abonado, expresado en minutos, desagregado por
empresa operadora, tipo de tráfico y medio de pago.

HOJA: Dataset
• Número de registros: 12717
• Número de columnas: 5
• Nombre de columnas: Empresa, Tipo de Tráfico, Tráfico Según Medio de Pago, Mes, Tráfico
HOJA: Diccionario
• Número de registros: 5
• Número de columnas: 3
• Nombre de columnas: ATRIBUTO, DESCRIPCIÓN, TIPO DE DATO

• Fuente: https://www.datosabiertos.gob.pe/dataset/tr%C3%A1fico-originado-desde-l%C3%ADneas-
fijas-de-abonado-0

a. Lean la hoja Dataset del archivo 4.3. TRÁFICO ORIGINADO DESDE LÍNEAS FIJAS DE
ABONADO.xlsx y almacénenlo como datos5a.
b. Extraigan la columna Tráfico de datos5a y verifiquen si es de tipo double.
c. Filtren los registros correspondientes a la Empresa Americatel Perú S.A. y con el Trafico menor a 100.
¿Cuántas filas se obtienen?
d. Filtren los registros correspondientes a la Empresa Americatel Perú S.A. o con el Trafico menor a 100.
¿Cuántas filas se obtienen?
e. Lean la hoja Diccionario del archivo 4.3. TRÁFICO ORIGINADO DESDE LÍNEAS FIJAS DE
ABONADO.xlsx y almacénenlo como datos5b.
f. Extraigan el contenido que ocupa el cruce de la segunda fila y segunda columna de datos5b.
g. Filtren los atributos cuyo TIPO DE DATO es Cadena

Al finalizar:

• Guarden su código como el primer apellido de cada integrante, por ejemplo


ROJAS_LOPEZ_MIRANDA.R
• Verifiquen que su carpeta de trabajo contenga:
o El proyecto creado con sus apellidos (archivo .Rproj)
o El script que contiene el código (archivo .R)
o Los 13 archivos de datos (archivos .csv, .xls, .xlsx)
o Este documento (archivo .pdf)

(Vea el ejemplo de la página siguiente)

• Compriman la carpeta
• Un integrante del grupo debe subir la carpeta comprimida al Aula Virtual.

Ejemplo de los archivos que debe contener su carpeta:

También podría gustarte