Está en la página 1de 8

TECNOLOGICO DE MONTERREY

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN

PRÁCTICA ENTRE PARES

CASO DE ESTUDIO

LIBRERIA IZTACCIHUATL

REALIZADO POR:

KENDALL SOLANO MENA

NOVIEMBRE, 2022
Tabla de contenido
Objetivo principal:......................................................................................................................................... 3
Introducción: ................................................................................................................................................. 3
Desarrollo ...................................................................................................................................................... 6
Conclusiones ................................................................................................................................................. 8
Objetivo principal:
Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de
la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones
para una organización.

Introducción:
La ciencia de datos en una organización es indispensable en la actualidad, permite a las
empresas a aumentar la eficiencia operativa, identificar nuevas oportunidades y mejorar sus ventas.
Para este trabajo lo que se pretende es analizar un caso de estudio en el cual podamos aplicar
conocimientos adquiridos en el curso de ‘Herramientas para el análisis de Big Data’, para este caso
se sugiere aplicar la ciencia de datos en la librería Iztaccíhuatl la cual está ubicada en Monterrey
México. El propósito de esta empresa es mejorar sus indicadores de desempeño (KPI’s) y a la vez
desarrollar una mejor estrategia en la toma de decisiones.

librería Iztaccíhuatl proporciona 4 archivos en una carpeta con información importante a analizar:
• El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y
compras del cliente.
• El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
• El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.
• El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.

Pasos a tomar para dirigir este proyecto de ciencia de datos:


1. Comprender la estrategia comercial
2. Desarrollar la visión analítica
3. Desarrollar idea de negocio
4. Desarrollar un mapa estratégico
5. Desarrollar un modelo de arquitectura
6. Decidir sobre el desarrollo de la organización

Contenidos específicos de cada archivo:


El archivo “books” contiene los siguientes datos:
Id - Identificador del registro
Book Id - Identificador del libro
Number Editions - Número de ediciones
ISBN - Clave estándar internacional del libro
ISBN13 - Clave estándar extendida internacional del libro
Authors - Autor del libro
Original Publication - Fecha de publicación
Original Title - Título original del libro
Title - Título del libro
Language Code - Clave de idioma del libro
Average Rating - Promedio de la clasificación del libro
Image - Enlace a la imagen de la portada del libro
Small Image - Enlace a la imagen en versión optimizada de la portada del libro.

El archivo “top_books” contiene los siguientes datos:


Position - Posición del libro en la clasificación del libro
ISBN - Clave estándar extendida internacional del libro
Title - Título del libro
Author - Autor del libro
Imprint - Editorial
Publisher Group - Grupo Editorial
Volume - Volumen de ventas hasta el 2010
Value - Ventas determinadas por el volumen
RRP - Precio recomendado para minoristas
ASP - Precio promedio para venta
Binding - Tipo de encuadernación
Publ Date - Fecha de publicación
Product Class - Clasificación del libro
Classification - Clasificación General del libro

El archivo “ratings” contiene los siguientes datos:


Book Id - Identificador del libro
User Id - Identificador del cliente/usuario que clasifico un libro
Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
User Id - Identificador del cliente/usuario que clasifico un libro
Book Id - Identificador del libro
Desarrollo

¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de
datos de la Librería Iztaccíhuatl?

Lenguaje de programación Python, el cual cuenta con múltiples paquetes útiles para la
ciencia de datos. Python se ha convertido en un medio de intersección con la inteligencia artificial,
este lenguaje es muy utilizado para el aprendizaje automático.

Además, este lenguaje cuenta con múltiples librerías como numpy que proporciona
capacidad para estructura de datos como matrices, pandas con los data frames los cuales son
estructura de datos con dos dimensiones en la cual se puede guardar datos de distintos tipos y la
visualización con una librería como matplotlib.

¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?


• Libros más vendidos de cada categoría, esto con el objetivo de mantener un inventario que
permita tener siempre abastecida la librería.
• Autores y Editoriales con mejores calificaciones. (descriptivo)
• El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer. Esta información permite identificar el tipo de población a
la que le interesa más cierto género de libros. Con esto se puede recomendar una categoría
según el tipo de población a la que pertenece el cliente.
• Conocer las tendencias a fututo sobre la rentabilidad que puedan tener los diferentes libros,
géneros, editoriales …

¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para poder realizar
un análisis predictivo?
Se debería primeramente abordar según los pasos del ciclo de ciencia de datos. Los tres
archivos presentan información que la empresa reunió con el objetivo de contestar preguntas
importantes para ellos , sin embargo a los datos hay que darles una limpieza adecuada ,
posteriormente desarrollar un análisis y formulación de hipótesis sobre lo que queremos saber ,
para luego , a partir de todo este trabajo realizado seleccionar las características más importantes
y entrar a modelos predictivos (regresión lineal por ejemplo) en donde se crean predicciones y se
evalúan resultados.

¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccíhuatl?
Base de datos relacional, principalmente por su sencilles al poder analizar y trabajar. Este
tipo de base de datos permite manejar grandes cantidades de datos con puntos de relación entre sí,
gestionándolos de forma segura y uniforme.

¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para alojar la
información y el proyecto de ciencia de datos?

Google Cloud SQL: base de datos relacional en la nube


Google Cloud SQL es un servicio de base de datos totalmente gestionado que hace que
configurar, mantener, gestionar y administrar dichas bases sea realmente sencillo. Un sistema con
alto rendimiento y disponibilidad, en el que Google se encarga de la replicación, administración
de parches y gestión de bases de datos.
Conclusiones
• La ciencia de datos en una organización es indispensable en la actualidad, permite a las
empresas a aumentar la eficiencia operativa, identificar nuevas oportunidades y mejorar
sus ventas.
• La librería posee cierta información que permite realizar un análisis descriptivo de la
situación actual que presenta la empresa. Sin embargo, considero que es necesario recaudar
información en diferentes lapsos de tiempo que permitan realizar pronósticos para que así
la librería tenga una mayor claridad de que puede potencialmente suceder en un fututo.

• La base de datos relacional es la mejor estructura de datos para un correcto análisis en la


Librería Iztaccíhuatl

También podría gustarte