Está en la página 1de 8

Herramientas para el Análisis de Big Data

EDx - Tecnológico de Monterrey

Proyecto individual evaluado por pares:


"Librería Iztaccihuatl"

Autor: Carlos Daniel Rodríguez


Fecha: 21 de junio de 2021
Lugar: Colonia del Sacramento, Uruguay
Contenido
Título: ............................................................................................................................................ 3
Objetivo: ........................................................................................................................................ 3
Letra del caso: ............................................................................................................................... 3
Introducción .................................................................................................................................. 5
Identificar el tipo de lenguaje de programación ........................................................................... 5
Identificar al menos, 3 predicciones ............................................................................................. 6
Adecuaciones para poder realizar un análisis predictivo .............................................................. 6
Identificar el tipo de base de datos seleccionado ......................................................................... 7
Conclusiones ................................................................................................................................. 7

Carlos Rodríguez 2
Título:
Aplicando la Ciencia de Datos en una organización

Objetivo:
Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la
nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de
decisiones para una organización.

Letra del caso:


La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha
decidido desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores
de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.

En la carpeta denominada “datasets_books” se encuentran los siguientes archivos: books;


top_books; raitings; to_read. Te recomendamos utilizar la herramienta Python para analizar
los datos que se te proporcionan.

Una vez analizada la información de la carpeta “datasets_books” deberás presentar en un


documento Word la respuesta a las siguientes preguntas:

• ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el


análisis de datos de la Librería Iztaccihuatl?

• ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?

• ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para


poder realizar un análisis predictivo?

• ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de
la Librería Iztaccihuatl?

• ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para


alojar la información y el proyecto de ciencia de datos?

El archivo “books” contiene los siguientes datos:

• Id - Identificador del registro

• Book Id - Identificador del libro

• Number Editions - Número de ediciones

• ISBN - Clave estándar internacional del libro

• ISBN13 - Clave estándar extendida internacional del libro

• Authors - Autor del libro

Carlos Rodríguez 3
• Original Publication - Fecha de publicación

• Original Title - Título original del libro

• Title - Título del libro

• Language Code - Clave de idioma del libro

• Average Rating - Promedio de la clasificación del libro

• Image - Enlace a la imagen de la portada del libro

• Small Image - Enlace a la imagen en versión optimizada de la portada del libro.

El archivo “top_books” contiene los siguientes datos:

• Position - Posición del libro en la clasificación del libro

• ISBN - Clave estándar extendida internacional del libro

• Title - Título del libro

• Author - Autor del libro

• Imprint - Editorial

• Publisher Group - Grupo Editorial

• Volume - Volumen de ventas hasta el 2010

• Value - Ventas determinadas por el volumen

• RRP - Precio recomendado para minoristas

• ASP - Precio promedio para venta

• Binding - Tipo de encuadernación

• Publ Date - Fecha de publicación

• Product Class - Clasificación del libro

• Classification - Clasificación General del libro

El archivo “ratings” contiene los siguientes datos:

• Book Id - Identificador del libro

• User Id - Identificador del cliente/usuario que clasifico un libro

• Rating - Nivel de clasificación del libro.

El archivo “to_read” contiene los siguientes datos:

Carlos Rodríguez 4
• User Id - Identificador del cliente/usuario que clasifico un libro

• Book Id - Identificador del libro

El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y
compras del cliente.

El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.

El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.

El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.

Introducción
Los datos que nos han sido brindados están en un formato estructurado en cuatro archivos
donde hay diferentes registros.

El archivo "books" contiene los datos generales de cada libro existente en la librería y además
menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del
cliente.
El archivo "top_books" contiene el top 20 de los libros más vendidos de acuerdo a una clasificación
general.
El archivo "ratings" contiene los datos de los libros más votados por los clientes dentro del sitio web
de la librería.
El archivo "to_read" contiene las recomendaciones que cada cliente o usuario realiza en el sitio web
sobre libros para leer.
Al momento de tener estos datos, sabemos que no tenemos un objetivo estrictamente
definido en la letra del problema. Sin embargo sabemos que la empresa quiere mejorar sus
indicadores de desempeño (aunque de momento no sepamos cuáles) y tener una estrategia
certera para la toma de decisiones (tampoco de momento hay una definida).

Con los datos recabados y un análisis primario, pasaremos a la Estrategia de implementación.

Identificar el tipo de lenguaje de programación


Por ser un estudiante de grado que estoy comenzando a hacer mis primeras investigaciones
con Data Science he decidió volvaarme por hacerlo con Python ya que es un lenguajes muy
sencillo de entender, nos permite utilizar muchas estructuras de datos e integrar los mismos
con aplicaciones externas, entre otras cosas.

Carlos Rodríguez 5
Es un lenguaje muy amigable y que nos permitirá obtener los resultados que esperamos para
esta propuesta de trabajo.

Python es conocido por hacer que los programas funcionen en la menor cantidad de líneas de
código. Este lenguaje tiene un poderoso conjunto de paquetes para una amplia gama de
necesidades de análisis y ciencia de datos.

Además es perfecto para las siguientes tareas:

• Desarrollo Web

• Codificación

• Webscrapping

• Análisis de los datos

• Visualización de datos

• Automatización

Identificar al menos, 3 predicciones


Considero que las siguientes 3 predicciones serían importantes para el negocio:

Determinar que tipos de libros dejarán de ser atractivos y por lo tanto conocer los tipos de
libros que no deberemos reponer.

Determinar que posibles libros podría adquirir un cliente que ya ha comprado en base a sus
propias recomendaciones, por lo tanto sabremos sus gustos.

Cantidad de ventas teniendo en cuenta los libros mejores evaluados y la cantidad de


ejemplares que tenemos de los mismos. Así podremos saber el crecimiento en ventas del
negocio.

Adecuaciones para poder realizar un análisis predictivo


Añadir "Temática del libro", por ejemplo (policial, terror, suspenso, documental, biográfico,
etc) y también subtemas, por ejemplo para la temática "Terror" podría ser: hombres lobo,
vampiros, demonios, etc.

De esta manera se tendría una predicción más exacta acerca de los tipos de libros para
cualquiera de los KPI hallados respecto a este tema, y así saber con más precisión los gustos de
los clientes y poder predecir que tipos de libros comprará o podría comprar a futuro.

Por ejemplo a un cliente podrían gustarle los libros de terror de hombres lobo pero no sobre
vampiros.

"Soporte" podría ser otro dato muy interesante a incorporar, ya que hay personas que
prefieren comprar libros en formato digital y otras en formato papel. Teniendo este dato
podríamos predecir hacia donde se canalizan nuestras ventas y que tipo de soporte es el
favorito de los clientes.

Carlos Rodríguez 6
Identificar el tipo de base de datos seleccionado
Analizando las tablas podemos ver que muchos de los datos actuales son estructurados, y
podríamos pensar que se podrían alojar perfectamente en tablas de bases de datos
relacionales, y de hecho así es.

Sin embargo el uso de recomendaciones, donde los usuarios pueden agregar grandes
cantidades de texto, junto con el crecimiento exponencial que podría tener la base de datos,
hacen que se vea con mejores ojos ir hacia una base de datos NoSQL, como por ejemplo
MongoDB.

Este manejador de base de datos es ideal para gestionar datos de gran volumen como las
recomendaciones. Además es un sistema de fácil escalado que se adapta tanto a trabajar en
una nube privada como en una pública.

Mongodb es la elegida por lo antes expuesto.

Determinar el tipo de servicio de la nube


Los tipos de servicio en la nube son:

• Infraestructura como servicio (IaaS).


• Plataforma como servicio (PaaS).
• Software como servicio (SaaS).

Haría uso de un servicio IaaS.

Con un modelo de IaaS, las empresas tienen acceso bajo demanda a recursos de computación
escalables como servicios a través de Internet. De este modo, se elimina la necesidad de
aprovisionar, configurar o gestionar las infraestructuras y solo se paga por el uso que se hace
de estos recursos.

Los recursos de IaaS se ofrecen como servicios individuales, por lo que las empresas pueden
elegir qué necesitan. Como el proveedor de nube es quien gestiona la infraestructura, las
empresas pueden concentrarse en mantener sus datos seguros y en instalar, configurar y
gestionar el software. Además es totalmente escalable.

Conclusiones

Toda la información es fundamental para orientar a la empresa en sus ventas y en sus decisiones
de cara al futuro del negocio.

Cuales son los libros más vendidos? Cuáles son los porcentajes de libros no leídos? Cuántos son
los que tienen mala calificación respecto al total?

Los clientes están valorando y recomendando nuestros libros? Están leyendo la mayoría de
nuestros libros o debemos cambiar la temática de algunos de los libros?

Creo que los diferentes tipos de análisis son de gran ayuda para saber el histórico del negocio
así como la situación actual, determinar lo que pasará en un futuro basado en datos que
tenemos y finalmente saber de que forma podemos actuar respecto a eso que sabemos que va
a suceder y que ha sido determinado tras un análisis detallado y exhaustivo.

Carlos Rodríguez 7
Las herramientas vistas en el curso me han ayudado a ver dónde y cuándo deben aplicarse para
poder entender como la Ciencia de Datos nos ayuda en la toma de decisiones.

Carlos Rodríguez 8

También podría gustarte