Está en la página 1de 19

LIBRERÍA IZTACCIHUATL

Monterrey Nuevo León, México

Proyecto basado en Ciencia de Datos

Autor: Verónica González L.

Querétaro, México
Agosto 2022
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

INDICE

1. INTRODUCCION…………………………………………………………. 3
2. COMPRENSIÓN DEL NEGOCIO……………………………………. 4
3. COMPRENSIÓN DE LOS DATOS…………………………………… 5
4. PREPARACIÓN DE LOS DATOS……………………………………. 8
5. MODELADO……………………………………………………………….. 9
6. DESPLIEGUE DE RESULTADOS…………………………………….. 9
7. CONCLUSIÓN……………………………………………………………… 18
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

1. INTRODUCCION.

El presente documento referente a la práctica del tema 2. Ciclo de Vida de Proyectos de


Ciencia de Datos del curso Introducción a la Ciencia de Datos y el Big Data, tiene como
objetivo principal analizar fuentes de información de una organización a través de
herramientas computacionales para generar un modelo como apoyo a la toma de
decisiones. A continuación se transcribe la información proporcionada y los objetivos
específicos:

“La librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha


decidido desarrollar un proyecto de Ciencia de datos para mejorar sus indicadores de
desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.

En la carpeta denominada “datasets_books” se encuentran los siguientes archivos:


books; top_books; raitings; to_read.

Una vez analizada la información de la carpeta “datasets_books” deberás presentar en


un documento Word la respuesta a las siguientes preguntas:

 ¿Qué indicadores serían los más importantes a determinar de acuerdo a la


información presentada?
 ¿Qué tipo de análisis sería el más adecuado y por qué?
 ¿Qué decisiones se podrían tomar basadas en los descubrimientos o inferencias
de la información analizada?”

Para el desarrollo de la practica se consideran conceptos de la metodología CRISP-DM


siguiendo los pasos de comprensión del negocio y de los datos, la preparación de estos
y por último el modelado y despliegue de resultados.

La limitaciones en la información proporcionada sobre el negocio, los objetivos y los


datos, lleva en un análisis descriptivo para tener un mejor conocimiento de los datos
transaccionales almacenados y encontrar patrones de compras útiles para la toma de
decisiones.
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

2. COMPRENSION DEL NEGOCIO.

a. Objetivos comerciales de la librería.

i. Mejorar los indicadores de desempeño (KPI´s)


ii. Desarrollar una mejor estrategia en la toma de decisiones.

b. Evaluación de la situación.

Hardware. Se cuenta con el equipo de computo necesario para realizar el


análisis de los datos.
Datos. Los datos objeto del análisis fueron proporcionados por la librería en
archivos planos.
Supuestos. Los criterios de rendimiento comercial así como la visualización de
los resultados queda a criterio del responsable del proyecto. No existen
restricciones legales sobre el uso de los datos.
Riesgos. No cubrir las expectativas del cliente toda vez que la información de
objetivos y criterios de rendimiento es limitada, así como la imposibilidad de
indagar sobre información en general de la librería y los datos. El riesgo se
acepta.

c. Objetivos de la minería de datos y criterios de rendimiento.

En base a la evaluación de la situación, el tipo de análisis a aplicar es descriptivo


tipo clúster, este proporcionará la información necesaria para coadyuvar en la
toma de decisiones. Por lo anterior se definen los siguientes KPI´s:

 Libros más vendidos en base a su género, autor y editorial.


 Clasificación de libros en base a la votación por parte de los clientes.
 Identificación de clientes de mayor valor en función de su participación
clasificando y recomendando libros.
 Clasificación de libros en función de recomendaciones de lectura por parte
de clientes.
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

3. COMPRENSION DE LOS DATOS.

a. Recopilación de datos.
Los datos fueron proporcionados por la librería en archivos planos, delimitados
por comas.

b. Descripción, exploración y verificación de datos.

Nombre del archivo: Books


Descripción: Datos generales de cada libro existente en la librería y promedio de
clasificación de cada libro de acuerdo a votaciones y compras del cliente
Tamaño: 10,000 filas x 13 columnas
COLUMN ANOMALIAS CARACTERISTICAS y/o
DESCRIPCION TIPO
A ENCONTRADAS UTILIDAD
identificador del Valores consecutivos del 1 al
id NUMERICO
registro 10,000
No es consecutivo pero sí
Identificador del
book_id NUMERICO único, los valores van del 1 al
libro
33288638
Number Número de Valores entre 1 a 3455
NUMERICO
Editions ediciones
* Aproximadamente 700 Este campo debería ser de 13
registros vacíos, sin ISBN dígitos, compuestos por 3 del
* Aprox. 800 registros con ´X´al prefijo internacional, 3 del
final en el código de grupo de registro, 4 del
verificación. prefijo de editor o agente , 2
Clave estandar * 1884 registros de 10 dígitos, del id. de titulo o publicación
ALFANUMERICO(13
ISBN internacional del * 6602 registros de 9 o hasta 7 y 1 como dígito de control o
)
libro dígitos. comprobación.
Si la información del campo
fuera correcta sería de gran
utilidad para buscar datos
externos relacionados con los
libros.
* Aprox. 583 registros vacíos, La mayoría de los registros
* Aprox. 8 registros que no tienen el prefijo internacional
Clave estandar cumplen con el formato (tienen de tres posiciones y el resto
extendedida menos de 13 dígitos) de dígitos en ceros.
ISBN13 ALFANUMERICO * 5 registros tienen diferentes
internacional del
libro. dígitos en todas su posiciones Este campo podría servir para
buscar información externa
relacionada con los libros.

Todos los registros tienen un


Authors Autor del libro TEXTO
nombre de autor
* 20 registros vacíos. El campo únicamente tiene el
Original Fecha de
FECHA * 31 registros con dato negativo año.
Publication publicación
(se considera A.C.)
Titulo original del
Original Title TEXTO
libro
Title Titulo del libro TEXTO Todos los registros tienen
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

titulo
Language Clave de idioma del Aprox. 1083 registros vacíos El campo podría servir para
TEXTO
Code libro recomendar a clientes
Promedio de la Todos con valores que van Para saber que tan bueno es
Average
clasificación del NUMERICO desde 2.47 a 4.82 el libro.
rating
libro
Enlace a la imagen Todos los registros con valor
image de la portada del TEXTO
libro
Enlace a la imagen Todos los registros con valor
en versión
Small image TEXTO
optimizada de la
portada del libro

Nombre del archivo: top_books


Descripción: Top 20 de los libros más vendidos de acuerdo a una clasificación general
Tamaño: 120 filas x 14 columnas
COLUMN DESCRIPCION TIPO ANOMALIAS CARACTERISTICAS y/o
A ENCONTRADAS UTILIDAD
Position Posición del libro NUMERICO Consecutivo del 1 al 20 por
en la clasificación cada clasificación general del
libro
ISBN Clave estandar ALFANUMERICO La clave es la misma en todos los Esto podría obstaculizar la
extendedida registros 9780000000, en búsqueda en información
internacional del realidad solo es el prefijo externa.
libro. internacional de 3 dígitos y el
resto son ceros

Title Titulo del libro. TEXTO Todos los registros con


información
Author Autor del libro TEXTO 3 registros vacíos
Imprint Editorial TEXTO Todos los registros con datos
Publisher Grupo editorial TEXTO Todos los registros con datos
Group
Volume Volumen de ventas NUMERICO Todos los registros con datos
hasta el 2010

Value Ventas NUMERICO 15 registros no coinciden con


determinadas por Volume * Precio promedio de
el volumen venta
* 7 registros de los anteriores la
diferencia es mayor a 10,000 y
2 registros mayor a 100,000

RRP Precio NUMERICO Todos los registros con datos


recomendado para
minoristas
ASP Precio promedio NUMERICO Todos los registros con datos
para venta
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

Binding Tipo de TEXTO Todos los registros con datos,


encuadernación solo dos paperback o
hardback
Publ Date Fecha de FECHA Todos los registros con datos,
publicación la mayoría fechas completas
del 2011
Product Clasificacación del TEXTO
Class libro
Classification Clasificación TEXTO Children, HB Fiction, HB Non
general del libro Fiction, Original Fiction, PB
Fiction, PB Non Fiction

Nombre del archivo: ratings


Descripción: datos de los libros mas votados por los clientes dentro del sitio web de la
librería.
Tamaño: 981765 filas x 3 columnas
COLUMN DESCRIPCION TIPO ANOMALIAS CARACTERISTICAS y/o
A ENCONTRADAS UTILIDAD
Es un consecutivo de 1 a
Identificador del
Book_Id NUMERICO 10,000 repetido en cada 100
libro
registros.
Todos los registros con datos
Id cliente/usuario
User Id NUMERICO del 1 al 53424
que clasificó
El promedio que se obtiene de Todos los registros con datos
Nivel de clasificación estos datos no coincide con el con números consecutivos
Rating NUMERICO registrado en books del 1 al 5
del libro

Nombre del archivo: to_read


Descripción: Recomendaciones que cada cliente o usuario realiza en el sitio web sobre
libros para leer.
Tamaño: 912705 filas x 2 columnas
COLUMN DESCRIPCION TIPO ANOMALIAS CARACTERISTICAS y/o
A ENCONTRADAS UTILIDAD
semiconsecutivo del 1 al
Id de cliente/usuario
user Id NUMERICO 53424
que clasificó un libro
Identificador del NUMERICO consecutivo del 1 al 10000
Book Id
libro

4. PREPARACION DE LOS DATOS.


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

a. Selección de datos.

El número de registros y elementos en los archivos es controlable y NO


contiene información confidencial, se incluye la totalidad de los mismos para el
análisis de la información, en particular con los siguientes atributos:

Nombre del archivo: top_books


COLUMN DESCRIPCION TIPO
A
Author Autor del libro TEXTO
Imprint Editorial TEXTO
Volume Volumen de ventas hasta el 2010 NUMERICO
Value Ventas determinadas por el volumen NUMERICO
Classification Clasificación general del libro TEXTO

Nombre del archivo: ratings


COLUMN DESCRIPCION TIPO
A
Book_Id Identificador del libro NUMERICO
User Id Id cliente/usuario que clasificó NUMERICO
Rating Nivel de clasificación del libro NUMERICO

Nombre del archivo: to_read


COLUMN DESCRIPCION TIPO
A
Id de cliente/usuario que clasificó un
user Id NUMERICO
libro
Book Id Identificador del libro NUMERICO

b. Limpieza de datos.

Las anomalías encontradas en los datos fueron reportadas en la sección 2.b


Descripción, exploración y Verificación de datos, sin embargo en los
seleccionados para el análisis no se identifica la necesidad de incluir, excluir o
corregir datos, así como construir o integrar nuevos.
Nota. Al relacionar el campo Book_id de los archivos “ratings” y “to_read” con el
campo Book_id del archivo “books” para obtener el titulo del libro, la
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

información era sumamente limitada, por lo cual se optó por relacionarlo con el
campo id de “books”
5. MODELADO.

Considerado los objetivos de nuestra minería de datos, mediante los cuales se


pretende tener un mejor conocimiento de los datos transaccionales almacenados y
encontrar patrones de compras útiles; se realizan agrupaciones de libros y
clientes/usuarios para determinar los libros mas vendidos y los clientes más
importantes.
En este caso no es necesario dividir los datos en entrenamiento y prueba dado el
número de registros y atributos proporcionados, en este sentido son suficientes
para producir resultados fiables.
La bondad del modelo se pondrá de manifiesto en la facilidad de interpretación de
los resultados una vez desplegados.

6. DESPLIEGUE DE RESULTADOS.

A continuación se muestran los resultados obtenidos del análisis a los datos


proporcionados en función de los objetivos definidos:

 Libros más vendidos en base a su género, autor y editorial.


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

 Clasificación de libros en base a la votación por parte de los clientes.


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

Listado de libros con menor rating (menor a 3)


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

Listado de libros con mayor rating (mayor a 4.6)


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

 Identificación de clientes de mayor valor en función de su participación


clasificando y recomendando libros.

Listado de usuarios que calificaron de 193 a 200 libros


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

 Clasificación de libros en función de recomendaciones de lectura por parte


de clientes.

Listado de libros más recomendados por los usuarios.


LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

7. CONCLUSIÓN.
LIBRERÍA IZTACCIHUATL
Monterrey Nuevo León, México

En base al análisis realizado se recomienda las siguientes acciones:

1. Para los géneros, autores y editoriales que representan el mayor volumen de


ventas; así como los libros mejor calificados y más recomendados:

a. Integrar al inventario nuevos productos.


b. Realizar campañas de promoción de productos actuales y nuevos.
c. Asegurar el inventario permanente.

2. Para los géneros, autores y editoriales de menor volumen de ventas:

a. Indagar sobre la causa y en función de la misma:


i. Promocionarlos a través de campañas.
ii. Reducir o eliminar del inventario.

3. Para los usuarios o clientes que mayormente participan calificando o


recomendando libros, así como para los que NO participan:

a. Generar un esquema de recompensas para afianzar y generar


respectivamente su lealtad.
b. Recomendarles nuevos productos de los autores y editoriales de su
preferencia o los más vendidos.

4. También es importante atender las anomalías reportadas en los datos,


principalmente información como el ISBN que permitiría buscar datos externos
para comparar con el mercado proporcionando una visión más clara de la
situación de la librería que mejoraría la toma de decisiones.

Nota. Los listados presentados en la sección 5. DESPLEGUE DE RESULTADOS se


encuentran completos y a disposición para la toma de decisiones.

También podría gustarte