Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Carlos Rodríguez 2
Título:
Aplicando la Ciencia de Datos en una organización
Objetivo:
Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la
nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de
decisiones para una organización.
• ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de
la Librería Iztaccihuatl?
Carlos Rodríguez 3
• Original Publication - Fecha de publicación
• Imprint - Editorial
Carlos Rodríguez 4
• User Id - Identificador del cliente/usuario que clasifico un libro
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y
compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.
Introducción
Los datos que nos han sido brindados están en un formato estructurado en cuatro archivos
donde hay diferentes registros.
El archivo "books" contiene los datos generales de cada libro existente en la librería y además
menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del
cliente.
El archivo "top_books" contiene el top 20 de los libros más vendidos de acuerdo a una clasificación
general.
El archivo "ratings" contiene los datos de los libros más votados por los clientes dentro del sitio web
de la librería.
El archivo "to_read" contiene las recomendaciones que cada cliente o usuario realiza en el sitio web
sobre libros para leer.
Al momento de tener estos datos, sabemos que no tenemos un objetivo estrictamente
definido en la letra del problema. Sin embargo sabemos que la empresa quiere mejorar sus
indicadores de desempeño (aunque de momento no sepamos cuáles) y tener una estrategia
certera para la toma de decisiones (tampoco de momento hay una definida).
Carlos Rodríguez 5
Es un lenguaje muy amigable y que nos permitirá obtener los resultados que esperamos para
esta propuesta de trabajo.
Python es conocido por hacer que los programas funcionen en la menor cantidad de líneas de
código. Este lenguaje tiene un poderoso conjunto de paquetes para una amplia gama de
necesidades de análisis y ciencia de datos.
• Desarrollo Web
• Codificación
• Webscrapping
• Visualización de datos
• Automatización
Determinar que tipos de libros dejarán de ser atractivos y por lo tanto conocer los tipos de
libros que no deberemos reponer.
Determinar que posibles libros podría adquirir un cliente que ya ha comprado en base a sus
propias recomendaciones, por lo tanto sabremos sus gustos.
De esta manera se tendría una predicción más exacta acerca de los tipos de libros para
cualquiera de los KPI hallados respecto a este tema, y así saber con más precisión los gustos de
los clientes y poder predecir que tipos de libros comprará o podría comprar a futuro.
Por ejemplo a un cliente podrían gustarle los libros de terror de hombres lobo pero no sobre
vampiros.
"Soporte" podría ser otro dato muy interesante a incorporar, ya que hay personas que
prefieren comprar libros en formato digital y otras en formato papel. Teniendo este dato
podríamos predecir hacia donde se canalizan nuestras ventas y que tipo de soporte es el
favorito de los clientes.
Carlos Rodríguez 6
Identificar el tipo de base de datos seleccionado
Analizando las tablas podemos ver que muchos de los datos actuales son estructurados, y
podríamos pensar que se podrían alojar perfectamente en tablas de bases de datos
relacionales, y de hecho así es.
Sin embargo el uso de recomendaciones, donde los usuarios pueden agregar grandes
cantidades de texto, junto con el crecimiento exponencial que podría tener la base de datos,
hacen que se vea con mejores ojos ir hacia una base de datos NoSQL, como por ejemplo
MongoDB.
Este manejador de base de datos es ideal para gestionar datos de gran volumen como las
recomendaciones. Además es un sistema de fácil escalado que se adapta tanto a trabajar en
una nube privada como en una pública.
Con un modelo de IaaS, las empresas tienen acceso bajo demanda a recursos de computación
escalables como servicios a través de Internet. De este modo, se elimina la necesidad de
aprovisionar, configurar o gestionar las infraestructuras y solo se paga por el uso que se hace
de estos recursos.
Los recursos de IaaS se ofrecen como servicios individuales, por lo que las empresas pueden
elegir qué necesitan. Como el proveedor de nube es quien gestiona la infraestructura, las
empresas pueden concentrarse en mantener sus datos seguros y en instalar, configurar y
gestionar el software. Además es totalmente escalable.
Conclusiones
Toda la información es fundamental para orientar a la empresa en sus ventas y en sus decisiones
de cara al futuro del negocio.
Cuales son los libros más vendidos? Cuáles son los porcentajes de libros no leídos? Cuántos son
los que tienen mala calificación respecto al total?
Los clientes están valorando y recomendando nuestros libros? Están leyendo la mayoría de
nuestros libros o debemos cambiar la temática de algunos de los libros?
Creo que los diferentes tipos de análisis son de gran ayuda para saber el histórico del negocio
así como la situación actual, determinar lo que pasará en un futuro basado en datos que
tenemos y finalmente saber de que forma podemos actuar respecto a eso que sabemos que va
a suceder y que ha sido determinado tras un análisis detallado y exhaustivo.
Carlos Rodríguez 7
Las herramientas vistas en el curso me han ayudado a ver dónde y cuándo deben aplicarse para
poder entender como la Ciencia de Datos nos ayuda en la toma de decisiones.
Carlos Rodríguez 8