Está en la página 1de 5

Curso virtual Introducción a la Ciencia de Datos y el Big Data

Práctica individual con evaluación entre compañeros


Elaborado por:
Efrén Méndez Morales
Costa Rica

Tabla de contenido
1 Introducción .................................................................................................................................. 1
2 Identificación de indicadores de relevancia .................................................................................. 2
3 Selección del tipo de análisis y su uso ........................................................................................... 3
4 Propuesta de decisiones para la empresa ..................................................................................... 3
5 Buenas prácticas que se deben utilizar para lograr la estrategia descrita..................................... 3
6 Conclusiones ................................................................................................................................. 4
7 Lista de cotejo ............................................................................................................................... 5

1 Introducción
El presente proyecto individual pretende analizar las fuentes de información externas e internas
de una organización por medio de herramientas computacionales con el propósito de elaborar un
modelo basado en Ciencia de Datos como apoyo a la toma de decisiones.
Los datos de identificación de la empresa que será analizada son los siguientes:
1. Nombre de la empresa: Librería Iztaccihuatl.
2. Ubicación: Monterrey, Nuevo León, México.
3. Dirección exacta: Av. Eugenio Garza Sada Sur 2622, Tecnológico, 64700.
4. Sitio web: https://www.edimsa.com.mx/
5. Misión: Hoy, con de más de 57 años en el mercado literario, reafirmamos nuestro
compromiso con la comunidad de crear experiencias únicas, impulsando la lectura, la
cultura y la educación a nivel nacional.
6. Visión: Ser líderes en la distribución y comercialización de material bibliográfico a nivel
nacional y ser una referencia cultural y de lectura mediante la difusión y apoyos a
editoriales, autores, asociaciones y eventos; siempre pensando en nuestra
responsabilidad social hacia la comunidad.
7. Valores: Integridad, Ética, Respecto, Innovación, Servicio al cliente, Trabajo en equipo.
8. Cantidad de sucursales: 15 distribuidas en todo México
En las siguientes secciones se desarrollará un análisis práctico a partir de insumos de información
facilitados por la organización del curso y según las instrucciones descritas en el material de
aprendizaje.
Los Archivos que fueron descargados del sitio web del curso virtual Introducción a la Ciencia de
Datos y el Big Data (www.edx.org) son los siguientes:

Cantidad de Cantidad de Cantidad de


Nombre del archivo
variables filas registros
Books 13 10000 129979
Top books 14 120 1680
Ratings 3 981756 2945268
To read 2 912705 1825410

Se parte del concepto de que la ciencia de datos es una forma de metodología que se usa para
extraer y organizar distintos datos de enormes fuentes de datos, los cuales pueden ser
estructurados o no estructurados, como es el caso de la información extraída de los archivos..
Se quiere aprender a trabajar estos datos por medio de algoritmos y matemáticas aplicadas que
permitan extraer todo aquel conocimiento que permita entender la naturaleza de la organización
y sus transacciones, para organizarla de manera que tenga sentido y sea de valor agregado.

2 Identificación de indicadores de relevancia


Los indicadores más importantes de acuerdo a la información presentada son, a mi parecer, los
siguientes:

Base de datos Indicador de Importancia


Books 1. Cantidad de libros con clasificación de top-books.
2. Cantidad de libros según idioma de publicación.
3. Cantidad de libros según año de publicación
4. Cantidad de autores disponibles según año de
publicación y clasificación.
5. Promedio de clasificación de libros según las compras
de clientes.
Top books 6. Cantidad de libros por clase de producto y año de
publicación
7. Cantidad de libros por clasificación y año de
publicación.
8. Cantidad de libros según clasificación y tipo de
empaste.
Ratings 9. Cantidad por libros según promedio de rating.
10. Cantidad de libros según rating.

To read 11. Cantidad de libros según identificador.

Books 12. Cantidad de libros adquiridos por usuario.


3 Selección del tipo de análisis y su uso
La estrategia de implementación responde al tipo de análisis que sería más adecuado para la
exploración de los datos. Al respecto, se recomienda la metodología para gestionar proyectos de
ciencia de datos que consta de las siguientes etapas:
1. Revisión de literatura: creación de ideas, hipótesis y tareas. Búsqueda de documentos o
publicaciones de investigaciones preliminares.
2. Exploración de datos: explorar la modelación de los datos y seleccionar un tipo de
integración de datos (word2vec, frase2vec, sent2vec, Elmo, Bert, etc).
3. Desarrollo de algoritmos: CNN, LSTM, BI-GRU, redes de múltiples entradas.
4. Análisis de resultados: explorar las métricas de precisión y corrección del modelo.
5. Revisión: un miembro del equipo revisa el algoritmo para determinar que se está
cumpliendo el objetivo o incluso para detectar fallas en el mismo
6. Implementación: transformación en un programa computacional o incluso en una API

4 Propuesta de decisiones para la empresa


La descripción detallada de la estrategia de implementación se resume de la siguiente forma:
1. Intercambiar la metodología del ciclo con plazos razonables para realizar el proyecto,
ajustadas a las expectativas de los involucrados, los objetivos de la empresa y los
indicadores de desempeño.
2. Reconocer y distinguir las etapas involucradas en el ciclo de vida de los datos.
3. Reconocer que el proyecto puede regresar iterativamente a una etapa anterior para probar
ideas adicionales.
4. Dividir el proyecto en entregables basados en etapas.
5. Asignar un plazo razonado cada etapa.
6. Reconocer que la lista de entregables está definida para entregarse en un plazo y costo
definidos y convenidos con el patrocinador del estudio, no obstante y en caso de solicitarse
un entregable adicional, se deberá entender que esto afectará la duración y costo del
proyecto.
7. En cada etapa, elegir los mejores resultados y cuando se esté satisfecho, continuar a la
siguiente etapa en la investigación.
8. Corregir datos fuente y repetir las pruebas que sean requeridas.

5 Buenas prácticas que se deben utilizar para lograr la estrategia descrita.


El 15 de marzo de 2016 fue publicado en la revista Scientific Data de Nature el artículo: “Principios
FAIR para el manejo y administración de datos científicos”. Los Principios FAIR ofrecen un conjunto
de cualidades precisas y medibles que una publicación de datos debería seguir para que los datos
sean Encontrables, Accesibles, Interoperables y Reutilizables (del inglés FAIR – Findable,
Accessible, Interoperable, and Reusable), como detallamos a continuación:
1. Encontrables: Los datos y metadatos pueden ser encontrados por la comunidad después de
su publicación, mediante una herramientas de búsqueda.
a) Asignar un identificador único y persistente a los datos y los metadatos
b) Describir los datos con metadatos de manera prolija
c) Registrar/Indexar los datos y los metadatos en un recurso de búsqueda
d) En los metadatos se debe especificar el identificador de los datos que se describen.
2. Accesibles: Los datos y metadatos están accesibles y por ello pueden ser descargados por
otros investigadores utilizando sus identificadores.
a) Los datos y los metadatos pueden ser recuperados por sus identificadores mediante
protocolos estandarizados de comunicación
b) Los protocolos tienen que ser abiertos, gratuitos e implementados universalmente
c) El protocolo debe de permitir procedimientos para la autentificación y la autorización
(por si fuera necesario).
d) Los metadatos deben de estar accesibles, incluso cuando los datos ya no estuvieran
disponibles.
3. Interoperables: Tanto los datos como los metadatos deben de estar descritos siguiendo las
reglas de la comunidad, utilizando estándares abiertos, para permitir su intercambio y su
reutilización.
a) Los datos y los metadatos deben de usar un lenguaje formal, accesible, compartible y
ampliamente aplicable para representar el conocimiento
b) Los datos y los metadatos usan vocabularios que sigan los principios FAIR
c) Los datos y los metadatos incluyen referencias cualificadas a otros datos o metadatos.

4. Reutilizables: Los datos y los metadatos pueden ser reutilizados por otros investigadores, al
quedar clara su procedencia y las condiciones de reutilización.
a) Los datos y los metadatos contienen una multitud de atributos precisos y relevantes.
b) Los datos y los metadatos se publican con una licencia clara y accesible sobre su uso y
reutilización.
c) Los datos y los metadatos se asocian con información sobre su procedencia.
d) Los datos y los metadatos siguen los estándares relevantes que usa la comunidad del
dominio concreto.

6 Conclusiones
Mucho he meditado como estudiante del curso Introducción a la Ciencia de Datos sobre la forma
de concluir este documento y no encuentro las palabras que relacionen todo lo antes indicado.
Como estudiante de este primer módulo me siento perdido, confundido e insatisfecho con esta
Práctica individual con evaluación entre compañeros, porque no fue capaz de relacionar la teoría
que venía explorando con lo que se solicita y se quiere con esta aplicación práctica.
Las instrucciones no son claras, los archivos de descarga son incomprensibles, no se hay claridad
del análisis que se quiere hacer y no encontré relación entre la teoría y la práctica. Pocas veces,
en mi vida me he sentido tan disperso y confundido con lo que se quiere que aprenda y haga en
este curso. Esta práctica me provocó mucho estrés personal, porque no tenía idea de como iniciar
ni como terminar. No sabía que hacer con los datos que me suministraron o de lo que se supone
que debía aprender y aplicar en la práctica. No encontré ninguna demostración al respecto, solo
teoría general.
Ruego me disculpen.
7 Lista de cotejo

Lista de cotejo Sí lo cumple No lo cumple


1. Contiene los datos de identificación de la empresa.
2. Se incluye la descripción detallada de la estrategia de
implementación.
3. La estrategia de implementación contempla un proceso
de evaluación.
4. Se mencionan las buenas prácticas que se deben utilizar
para lograr la estrategia descrita.
5. Se justifica la estrategia de implementación.

También podría gustarte