Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El archivo fuente siempre trae la totalidad de los datos utilizados para la Dimensión “Clientes” dado que no
es posible detectar novedades en el sistema fuente (no se registra por fecha los cambios realizados).
Teniendo en cuenta esta situación, se solicita definir la(s) tabla(s) de destino y la mejor estrategia del
proceso de ETL teniendo en cuenta lo siguiente:
El archivo tiene 20 millones de registros y creciendo dia a dia en unos 20 mil registros.
El archivo posee 10 campos, entre ellos los siguientes:
o ID_CLIENTE.
o Nombre.
o Apellido.
o Teléfono.
o Dirección.
o Cantidad de Hijos.
o Fecha de Nacimiento.
o Edad.
o Sexo.
o Cantidad de Puntos Acumulados.
Se requiere almacenar todos los cambios que se produzcan en un cliente (de cualquiera de sus
campos).
Pueden existir clientes que dejen de informarse en el archivo fuente, esto implica la baja del cliente
en el sistema fuente.
Nota: No es necesario escribir código, sino dibujar el modelo y explicar el paso a paso de la estrategia de ETL
seleccionada.
Nota: No existen restricciones a la hora de definir la(s) tablas(s) de destino. De acuerdo con su experiencia
seleccionar la mejor solución de modelado de datos.
Análisis de Requerimiento Funcional 2:
Suponiendo que el Director Comercial de la compañía requiere saber el Revenue (ganancia) de la empresa
para todos los países del mes de Enero 2024, explicar los pasos que realizaría para relevar y obtener la
información teniendo en cuenta las siguientes reglas de negocio:
Adicionalmente sugerir un prototipo de un reporte para presentar la información de la mejor manera posible
a los usuarios finales.
Estrategias de ETL:
1. Suponiendo que tenemos un proceso de carga de Transacciones que deben cumplir con las
siguientes reglas:
a. Cliente existente en el maestro de clientes.
b. Producto existente en el maestro de productos.
c. Fecha válida asociada a la transacción.
d. Monto superior a 0.
Se detecta que existen casos que no cumplen con las reglas funcionales definidas (puede ser 1 o n de
ellas).
¿Cuál sería su solución para tratar estos casos? Explicar con el mayor detalle posible.
LÓGICA DE PROGRAMACIÓN
Genera el pseudocodigo para realizar un pastel de vainilla con decoración de cubierta de chocolate y fresas
encima.
Nota: Tomar en cuenta que se puede utilizar otra librería o incluso plantear otra forma de analizar estos datos.
Es importante mencionar que el reporte es sencillo, solo obtiene los siguientes campos agrupando por los
mismos:
Se requiere explicar de acuerdo a su experiencia previa el paso a paso que realizaría para comenzar el
análisis de este caso y las posibles sugerencias a realizar para mejorar la performance del reporte.
Se requiere explicar de acuerdo con su experiencia previa el paso a paso que realizaría para comenzar el
análisis de este caso y las posibles sugerencias a realizar para mejorar la performance de la API.
Preguntas Extra Deseables:
1. Explique de manera detallada que es el descenso de gradiente y para se utiliza el escalado de
características y la normalización media; y finalmente cual es la diferencia con el descenso de
gradiente estocástico.
2. ¿Por qué k-means es definido como un problema de complejidad computacional alta y de qué
manera atacaría esta problemática para una correcta implementación de un modelo de
agrupamiento? (entiéndase que el estudio es sobre una población de datos arriba de los millones de
registros y más de 10 variables).
5. Explicar las diferencias encontradas en base a su experiencia entre Machine Learning, Deep
Learning e Inteligencia Artificial.
6. Explicar qué es una ANN. ¿Cuál es su definición? ¿Cómo se conocen sus diferentes capas?