Está en la página 1de 2

Te han contratado para ser parte del equipo de Movies INC, una empresa que se encarga de

dar información de valor a las compañías del cine, generando métricas del comportamiento
y las películas en el mercado.

Movies INC te ha compartido un dataset (puedes descargarlo aquí abajo), con el listado de
películas y programas de televisión en HBO Max (mayo de 2022). Este conjunto de datos
se creó para enumerar todos los programas disponibles en la transmisión de HBO Max y
analizar los datos para encontrar datos interesantes. Estos datos se adquirieron en mayo de
2022 y contienen datos disponibles en los Estados Unidos. Han sido construidos en base a
los aportes de IMDB (Internet Movie Data Base - Base de datos de películas) y TMDB
(The Movie Data Base).

¿Cómo está constituido el dataset?

Este conjunto de datos tiene un archivo que contiene los títulos de películas y programas de
televisión de HBO Max.

Este conjunto de datos contiene más de 3.000 títulos únicos en HBO Max con 15 columnas
que contienen su información. A continuación, presentamos el diccionario de datos:

Nombre columna Tipo de dato Descripción del tipo de dato


El identificador del título de película o programa
Id Varchar
de televisión
Título Varchar El nombre del título
Tipo de programa Text Programa de televisión o película
Una breve descripción de la película o programa
Descripción Varchar
de tv
Año de lanzamiento Numeric El año de lanzamiento
Certificación de edad Varchar La certificación de edad
La duración del episodio programa de tv o
Duración del episodio Numeric
película
Géneros Varchar Una lista de géneros
Países productores Varchar Una lista de países que produjeron el título
Número de temporadas si es un SHOW (programa
Temporadas Numeric
de tv)
El ID del título en IMDB (Internet Movie Data
IMDB_ID Varchar
Base - Base de datos de películas)
Puntaje en IMDB (Internet Movie Data Base -
IMDB_puntuación Numeric
Base de datos de películas)
Cantidad de votos en IMDB (Internet Movie Data
imdb_cantidad_votos Numeric
Base - Base de datos de películas)
TMDB_Popularidad Numeric Cantidad de votos TMDB (The Movie Data Base)
TMDB_Puntuación Numeric Puntaje en TMDB (The Movie Data Base)
Actividades para desarrollar

1. Considerando el dataset que te han proporcionado, identifica ¿Cuál sería la mejor


herramienta de lenguaje de programación que puedes utilizar para el análisis del
dataset y por qué?
2. Del dataset proporcionado, cuáles serían las principales columnas o variables que
elegirías, para identificar el top five (top 5/películas favoritas) de títulos de películas
para niños/as.
3. De acuerdo con la aplicación de las buenas prácticas en la calidad de datos, cómo
podrías mejorar la columna de “géneros” de este dataset.

Solución

1. Utilizaría la librería Pandas. Pandas, es una librería de código abierto que tiene una
forma de operar bastante ágil y peculiar, tomando muchos datos en diferentes
formatos los cuales pueden ser desde un archivo.
2. Certificación de edad, IMDB_puntuación, imdb_cantidad_votos,
TMDB_Popularidad, TMDB_Puntuación.
3. De repente sería bueno que géneros tuviera información detallada de los géneros
que se manejan por ejemplo terror, acción, infantil, comedia etc.

También podría gustarte