Está en la página 1de 5

TIMELINE

Entendimiento de datos
Prepárate para compreder más esta etapa
de ASUM-DM de entender los datos.

Objetivos
1. Los datos son
apropiados o no ...

Bene cios
Identi camos los
siguientes ...
2.

Actividades
Relacionadas
3. típicamente con el
per lamiento de datos...

Recomendaciones
En esta actividad se
recomienda ...
4.

Conclusión
Aplica lo visto ...
5.
Elaborado por:
María del Pilar Villamil y Daniel Galindo Ruiz
Actividades
TIMELINE
El entendimiento de datos consiste en una
exploración de datos denominada per lamiento de
datos, en la cual se utiliza estadística descriptiva y
herramientas de visualización para faciltar el
entendimiento. Una segunda parte está relacionada
con el análisis de la calidad de los datos. En ese
contexto te mostramos una serie de preguntas que
puedes contestar al realizar las actividades que te
mostramos para cada pregunta.
1. ¿Qué signi ca un registro de la fuente de datos?

Conocer el contexto del negocio.


Consultar el diccionario de datos dado por el
negocio (o pedirlo de ser necesario).
Revisar las columnas de la fuente para tratar de
agruparlas en categorías relacionadas con los
conceptos que manejan.
2. ¿Los datos son su cientes para el objetivo de
analítica?

Para datos numéricos:


Describir distribuciones y patrones de los
atributos con con el uso de estadística
descriptiva, (i.e., medidas de tendencia central y
dispersión).
Identi car valores atípicos, utilizando estadísticos
como el mínimo, el máximo, y la media y
diagramas de caja para su visualización.

Para datos categóricos:


Identi car categorías de las variables y frecuencia
de las mismas.

3. ¿Qué reglas de negocio evidencian?

Conocer las fuentes de datos.


Tener claro el funcionamiento del negocio.
Buscar dependencia entre los atributos. Para
identi car relaciones entre los atributos y
posibles inconsistencias.
Actividades
TIMELINE
Aquí tenemos más preguntas para entender mejor
los datos y actividades que puedes realizar para dar
respuesta a dichas preguntas.

4. ¿Cuales son las características generales de los


datos?

Consultar el número de registros y de atributos.


Determinar el atributo que identi ca de forma
única cada registro de la fuente de datos.
Visualizar una muestra de los datos.
Determinar el tipo de datos de los atributos, el
formato y el dominio de los mismos.
Describir la la "promedio" de los datos
compartidos.

5. ¿Los datos son apropiados para el objetivo de


analítica?

Veri ca en los datos las siguientes características:


Completitud.
Unicidad.
Consistencia: formato y semántica
Validez

6. ¿Qué nuevas oportunidades de analítica se


identi can?

Busca patrones o relaciones entre los atributos


de los datos.
Visualiza correlaciones entre atributos.
Conclusión
TIMELINE
Te mostraremos un texto en el que tienes un
ejemplo de lo que sería parte de la conclusión de
esta fase. Identi ca en fragmentos del texto, la
respuesta a las preguntas vistas en la sección de
"Actividades". Puedes ver la respuesta en una
ventana si pasas el cursor sobre el texto.

Nos compartieron datos de 700.000 clientes de los


cuales tenemos 10 columnas categóricas y 5
numéricas.

De esas columnas, 2 identi can de forma única a los


clientes (tipo de identi cación, número de
identi cación), 3 representan datos demográ cos
(edad, sexo), 4 representan información nanciera
(nivel económico, ingresos), datos familiares (estado
civil, hijos, cabeza de familia) y por último
información del producto más antiguo que tiene
con la empresa (año de adquisición, tipo de
producto, valor del producto, soporte del producto).
La mayoría de los clientes son prepago, con nivel
económico 3, casados y con hijos.

Los datos compartidos evidencian la posibilidad de


tener soporte sobre productos, al igual que
diferencias a nivel del valor del producto en el
mismo año.

Se identi caron 100 clientes repetidos (toda la


información es idéntica), adicionalmente se tienen
20 con la misma identi cación. El 15% de los
valores tienen valores faltantes. Sin embargo, los
críticos están relacionados con 5% en la
identi cación del cliente, 6% con el año de
adquisición del producto y el 4% restante con la
edad del cliente.
Conclusión
TIMELINE
Recuerda que puedes identi car en fragmentos del
texto, la respuesta a las preguntas vistas en la
sección de "Actividades", si pasas el cursor sobre el
texto.

A nivel de inconsistencias, se identi can clientes


con edad superior a 90 años, siendo el valor más
crítico de 150 años el cual está presente en 10
registros. De igual manera, a nivel de estado civil se
detectó como estado civil el valor de 6, del cual no
se tiene información. Finalmente, se tienen 10
valores de producto que superan los informados por
ustedes como valores posibles.

Invitamos a revisar los problemas de calidad


identi cados para determinar la forma en la que
debemos proceder para los ajustes con el n de no
afectar los resultados del proyecto.

A pesar de esos temas a tener en cuenta, los datos


suministrados son su cientes y parecieran brindar
información apropiada para el proyecto. Vemos que
con los datos compartidos se pueden realizar tareas
de segmentación de clientes, que podrían utilizarse
para campañas de mercadeo.

También podría gustarte