Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ENMEC357
T?picos en Econom?a y Negocios Utilizando R
Tarea 1
Profesor: Victor Mac?as E.
Ayudante: Gabriel Cabrera
Alumnos: Agust?n Goycolea
Flavio Navarrete
Catalina Vergara
01 septiembre 2018
En la parte final del informe, en el Anexo 1 se adjunta el c?digo completo utilizado para la resoluci?n
de la tarea. Adem?s, para lograr la realizaci?n total de la tarea utilizamos las siguientes librer?as:
a) library(tidyverse)
b) library(readr)
c) library(dplyr)
d) library(lubridate)
Pregunta 1
1. Identificar las 10 palabras claves (keywords) que m?s se repiten.
Para lograr el resultado requerido inicialmente utilizamos el dataset llamado Keywords, para luego
poder contar la cantidad de veces que se repite cada palabra, ordenarlo de forma descendente y
finalmente dejar solamente las 10 que mas se repiten. De esta forma se tiene como resultado la tabla
1.
Pel?cula Repeticiones
Woman Director 324
Independent film 318
duringcreditsstinger 307
based on novel 197
murder 189
aftercreditsstinger 170
violence 150
dystopia 139
sport 126
revenge 118
1
Universidad de Chile
Pregunta 2
2
Universidad de Chile
Pregunta 3
Inicialmente procederemos a generar una tabla base que utilizaremos para responder las preguntas
solicitadas, la cual obtendremos al cargar el dataset de pa?s de producci?n (llamada mix), uniendolo
a trav?s del id con el dataset de las pel?culas, y contaremos la cantidad de veces que ha sido lugar de
filmaci?n.
Luego, para el c?lculo de la utilidad por pa?s, a la tabla base mix, le quitaremos los valores NA,
y seleccionaremos las columnas, t?tulo, ingreso, presupuesto y pa?s de producci?n. a continuaci?n
generaremos una nueva columna que llamaremos utilidad y que sera el resultado de la diferencia entre
el ingreso y el presupuesto, luego las agruparemos por pa?s de producci?n y calcularemos la utilidad
promedio por pa?s. Finalmente, procederemos a ordenar de forma descendente y extraeremos los 5
pa?ses con mayor utilidad.
3
Universidad de Chile
Pregunta 4
Ahora se proceder? a cargar una nueva base de datos, llamada g?neros, la cual uniremos con la
tabla keywords, a trav?s del ID, para luego filtrar lo seg?n la palabra clave, que en este caso ser?
IMAX. Finalmente, se une la tabla que acabamos de generar con el dataset de pel?culas a trav?s de
el Id, luego solamente mantendremos las columnas genero, ingreso y keyword, omitiremos los NA y
agruparemos seg?n el genero, para obtener luego el ingreso promedio por cada uno de los generos de
las pel?culas, obteniendo la siguiente tabla.
Pregunta 5
En el desarrollo de la siguiente pregunta, se utiliza la libreria lubridate para ayudar la manipulaci?n
de fechas En primer lugar, se utilizar? el dataset de movie_data, donde se seleccionar? el id de cada
pel?cula y se quitar?n los duplicados para obtener el total de pel?culas final.
Por otra parte, en un nuevo vector creado llamada “Decada”, se seleccionar? desde el data set
movie_data las columnas de id y de release_date, creando una nueva columna llamada “a?o”
extrayendo solo en a?o de esta ?ltima columna mencionada.
Luego, se crear? un nuevo vector creado llamada “Decada 2” en donde se almacenar? adem?s de las
columnas anteriormente mencionadas, se agrega una columna llamada “decada” la cual muestra la
d?cada a la cual pertenece cada pel?cula a trav?s de una f?rmula que resta la unidad del a?o al a?o
de estreno.
A continuaci?n se seleccionan del nuevo vector creado “Decada 3” la col?mna decada para agrupar y
contar las pel?culas por su decada correspondiente, excluyendo posibles missings values.
Por ?ltimo, se crea un nuevo vector creado llamado “Decada_final” se seleccionan las columnas
Decada 2 y decada, aludiendo a la cantidad de pel?culas por por d?cada y la cantidad de pel?culas
total.Y finalmente, se agrega una columna donde se divide esta cantidad obtenida por decada sobre
el total de pel?culas para obtener una tasa la que se multiplica por 100 para obtener el porcentaje de
pel?culas por d?cada.
4
Universidad de Chile
decada Porcentaje
1910 0.02082032 %
1920 0.08328128 %
1930 0.31230481 %
1940 0.52050802 %
1950 0.56214866 %
1960 1.47824276 %
1970 2.26941495 %
1980 5.78804914 %
1990 16.19820945 %
2000 42.64001666 %
2010 30.10618364 %
n Lista de Estados
1 delaware
2 district of columbia
3 north dakota
4 south dakota
5 vermont
6 washington
5
Universidad de Chile
n Keywords suma
1 illinois 0
ANEXO 1
6
Universidad de Chile
7
Universidad de Chile