Está en la página 1de 44

INTRODUCCIÓN A LA

CIENCIA DE DATOS
Docente : José Luis Antonio Fuentes Morales
Estadístico
Diplomado en Bigdata
Máster en Gestión educacional

SEMANA 4
CONDICIONES FAVORABLES PARA LA CLASE

Mantén todos tus


sentidos activos

Práctica la puntualidad

Mantén tus dispositivos


electrónicos en silencio

Respeta el turno de
participación
PRESENTACIÓN DE LA CLASE
Presentación del Módulo

Nombre : INTRODUCCIÓN A LA CIENCIA DE DATOS


Docente : JOSÉ LUIS ANTONIO FUENTES MORALES
Correo : jose.fuentes@correoaiep.cl

Unidad de Competencia:

Relacionar la ciencia de datos con la toma de decisiones en el contexto empresarial


Aprendizaje Esperado Semana 4:

Caracterizan el ciclo de vida de los datos, considerando sus fases y los desafíos
para las empresas en su utilización.

Contenidos Semana 4

Fuente de los datos


 Ciclo de vida de los datos
 Fases del ciclo de vida de los datos
 Planificar
 Capturar
 Gestionar
 Analizar
 Archivar
 Destruir
 Gestión de ciclo de vida de los datos
 Virtualización de los datos
 Smart Data
 Desafío empresariales en el uso de los datos
 Almacenamiento
 integridad
 Seguridad
 Privacidad
MOMENTO PARA RECORDAR
En un sistema de facturación,
 ¿Qué entidades cree usted que son necesarias?
 ¿Cuáles son los atributos de las entidades descritas?
 ¿Qué tipo de relaciones cree usted se darían entre
las entidades descritas?
MOMENTO PARA CONOCER
¿Cuáles son las fuentes de los datos? (¿de dónde vienen?)

La información disponible a nivel mundial han


crecido de manera exponencial en los últimos
tiempos. Pero…

¿de dónde vienen esos datos?

Hay múltiples fuentes. Destacaremos las


siguientes:

Biométricos
Máquina a máquina
Datos de transacciones
Generados por humanos
Web y medios sociales
 Biométricos

Son los referidos a la identificación automática


de una persona basada en sus
características anatómicas o trazos
personales, como la firma biométrica.
Hablamos tanto de reconocimiento facial
pero también genético (ADN).

 Máquina a máquina

Se refiere a Internet de las Cosas, son aquellas


tecnologías que permiten la conexión de
diferentes dispositivos entre sí. Un ejemplo
son los GPS, pero también los denominados
chips NFC (aquella tecnología que se
sustenta en la comunicación inalámbrica y
que permite la transmisión de datos de
forma segura: integrada fundamentalmente
en smarphone y tablets) . Todo un mundo
de posibilidades que puede hallarse también
en parquímetros, cajeros, máquinas
 Datos de transacciones

Los datos que se registran en los


departamentos de facturación forman parte
de las operaciones normales que se
producen en las transacciones habituales.
También están los centros de llamada,
mensajería, reclamaciones, presentación y
registro de documentos y los que se
generan con los pagos por tarjeta, pago
online.

 Generados por humanos

Todas aquellas grabaciones a operadores de


atención al cliente: Call Center, también los
e-mail o los registros médicos electrónicos.
 Web y medios sociales

Son los que se originan en la red y configuran,


según los expertos, el trozo más grande del
pastel llamado Big Data y es una de las
fuentes de datos más utilizadas en la
actualidad. Hablamos de la información que
se genera sobre clicks en vínculos y
elementos. Pero también de toda aquella
contenida en las búsquedas que realizamos
por ejemplo en Google, las publicaciones en
las Redes sociales (Twitter, Facebook,
Linkedin…) y el contenido web como
páginas, enlaces o imágenes.
MOMENTO PARA CONOCER
¿Cuál es el ciclo de vida de los datos?

El ciclo de vida de los datos abarca todo el


periodo de tiempo que los datos existen en una
organización, desde la planificación y captura
de los datos, hasta su eliminación o
reutilización a través de diferentes tipos de
repositorios de investigación.

Para una mayor comprensión se detallará las


fases en el ciclo de vida de los datos
Fases en el ciclo de vida de los datos

1. Planificar
2. Capturar
3. Gestionar
4. Analizar
5. Archivar
6. Destruir
1. Planificar

Si bien la planificación no es considerada por


muchos como el inicio del ciclo, sí es necesaria
cuando la organización no cuenta con datos o
historial que les permita dar respuesta a los
problemas planteados.

Dentro de las características de esta fase


están:
-Definir qué se desea hacer con los datos
-Los alcances y utilidad de estos
-Ver oportunidades
La captura de datos es en la actualidad un
2. Capturar proceso vital para cualquier empresa. Se trata
de la obtención, a partir de diversas fuentes, de
datos estratégicos para la organización. Estos
datos se transforman para que puedan ser
analizados en beneficio de los objetivos
corporativos (Jameson, 2021).

La captura puede ser de manera manual o


automatizada.

La captura de datos o la captura de


información se refiere, por tanto, al proceso de
transformar la información crítica contenida en
cualquier soporte (ya sea electrónico o papel)
en datos que puedan ser analizados con el
objetivo, en muchas ocasiones, de mejorar el
conocimiento de los procesos llevados a cabo
dentro de una empresa.
3. Gestionar

La gestión de datos es la práctica de recopilar,


organizar y acceder a los datos para dar
soporte a la productividad, eficiencia y toma de
decisiones. Dado el rol fundamental que hoy
juegan los datos en el negocio, una sólida
estrategia de gestión de datos y un sistema de
gestión de datos moderno son esenciales para
todas las empresas –independientemente del
tamaño y la industria–.
El proceso de gestión de datos incluye una
amplia gama de tareas y procedimientos, tales
como:

Recopilar, procesar, validar y almacenar


datos
Integrar diferentes tipos de datos de fuentes
dispares, incluyendo datos estructurados y no
estructurados
Garantizar una alta disponibilidad de datos y
su recuperación ante desastres
Controlar el modo en que las personas y las
apps usan y acceden a los datos
Proteger y asegurar los datos y garantizar su
privacidad
4. Analizar

El proceso de Análisis de Datos conlleva la


recolección, transformación, limpieza y
modelado de datos para descubrir la
información útil y de interés para una
organización. Todos los datos obtenidos se
transforman en conclusiones y se usan para la
toma de decisiones.

Los resultados así obtenidos se comunican, se


sugieren conclusiones y se usan para apoyar la
toma de decisiones.
5. Archivar

El archivo no es más que la copia de datos a


un entorno donde son guardados en caso de
que sean necesitados nuevamente en un sitio
de producción activa o su respectiva
eliminación de estos espacios.

En definitiva, es un lugar donde se almacenan


los datos, pero donde no se realiza ningún
mantenimiento o uso general. De ser
requerido, son restaurados donde se deban
emplear.
El volumen de la información archivada crece
6. Destruir inevitablemente y, si bien es posible que
deseemos guardarlos para siempre, esto no es
factible.

Los costos de almacenamiento y los problemas


de cumplimiento ejercen presión para la
destrucción de estos activos que ya no
necesitamos. Esta depuración es la eliminación
de cada copia de un elemento de datos de una
empresa.

Por lo general, se ejecuta desde el archivado;


el desafío de esta fase del ciclo de vida de
datos es garantizar que se hayan destruido
correctamente.

Antes de hacerlo, es indispensable asegurarse


de que los elementos hayan superado el
período de retención reglamentario requerido.
MOMENTO PARA CONOCER
¿Qué es el ciclo de gestión de los datos?

La gestión del ciclo de vida de los datos


supervisa los datos a nivel de archivo. Es decir,
gestiona los archivos según el tipo, el tamaño y
la antigüedad.

La gestión del ciclo de vida de los datos,


conocida también como Database Lifecycle
Management (DLM), consiste en la realización
y/o mejora de una base de datos y todo lo que
ésta abarca desde un enfoque técnico y
empresarial, de forma que se puedan tratar y
gestionar los datos de una determinado forma,
dándoles así un valor y utilidad que pueda ser
aplicado en empresas y organizaciones.
Un DLM hace énfasis en los distintos aspectos
que se encuentran relacionados con los datos:
el diseño de la arquitectura, el desarrollo de la
base de datos, los procesos que experimenta
un dato en una determinada empresa, sus
medidas de seguridad y su forma de
almacenaje, etc.

Así pues, una correcta gestión del ciclo de vida


de los datos otorga una serie de ventajas
significativas: ayuda a que los procesos
organizacionales sean más sencillos de
planificar y ejecutar y a que la identificación y
optimización de las oportunidades y recursos
sea una realidad.
¿Qué es la virtualización de los datos?

En informática, la virtualización es el concepto


que describe la capacidad de algunas
computadoras de utilizar un programa o un
conjunto de programas para imitar las
características físicas de otra computadora o
de un conjunto de computadoras, lo que da
lugar a un sistema informático virtual.

Se trata de una capa lógica que integra todos


los datos de la empresa repartidos entre
sistemas heterogéneos, gestiona los datos
unificados para una seguridad y gobernanza
centralizadas y, finalmente, los entrega a los
usuarios en tiempo real.
En síntesis, se la virtualización engloba cuatro
áreas:

Capa lógica de los datos: ofrece un enfoque


virtual para acceder, gestionar y proporcionar
datos sin la necesidad de replicarlos en un
repositorio físico.
Integración de los datos: integra datos
repartidos entre los distintos sistemas
empresariales, independientemente de su
formato, ubicación o latencia.
Gestión de datos: proporciona una capa
centralizada y segura para catalogar, buscar,
explorar y gestionar datos unificados y sus
relaciones.
Entrega de datos en tiempo real: facilita a los
usuarios información integrada en las distintas
aplicaciones en tiempo real.
¿Qué es Smart Data?
El smart data o datos inteligentes se refiere a
los datos que realmente poseen un valor
estratégico para la organización. Como
proceso de gestión de datos, el smart data
consiste en el análisis de un gran volumen de
información con la finalidad de identificar cuál
puede ser útil y cuál no.

Las organizaciones que deseen mejorar sus


operaciones deben incluir la tecnología para
recolectar datos y después analizarlos, es decir
que deben utilizar los beneficios del Smart
data. Conocer el mercado hacia el que estas
se dirigen brindará una ventaja competitiva.

Smart data nace de Bigdata, concepto que se


profundizará en la próxima unidad. Por ahora,
solo una pincelada.
¿Qué es Bigdata?

También llamados datos masivos, inteligencia


de datos, datos a gran escala, big data es un
término que hace referencia a conjuntos de
datos tan grandes y complejos que precisan de
aplicaciones informáticas no tradicionales de
procesamiento de datos para tratarlos
adecuadamente.

Entonces,
¿Cuál es la diferencia entre Smart data y Big data?

Podríamos resumirlas en tres aspectos.

1.Según el tipo de información.

El big data, si bien brinda una gran cantidad de


datos, estos no son dinámicos ni inteligentes; a
su vez, son estáticos y sin interpretación.

En cambio, el smart data es información


procesada y dinámica que puede
intercambiarse para la resolución de
necesidades o solicitudes específicas.
2. Según la calidad de los datos.

El big data describe cantidades masivas de


datos que pueden ser estructurados o no.
Estos son recopilados diariamente por todo tipo
de industrias, sectores y canales.

El smart data se describe como grandes datos


que ya han sido limpiados, filtrados y
preparados para ser utilizados y, a diferencia
del big data, están libres de errores. Por ello
son los indicados a utilizar en diferentes
circunstancias, por ejemplo, la toma de
decisiones empresariales.
3. Los pilares sobre los que se sustentan.

El big data se fundamenta en 4 pilares principales:


volumen de datos, variedad de fuente, velocidad de
obtención de datos y veracidad. No obstante, su falta de
limpieza puede resultar una total pérdida de tiempo para
las empresas que buscan tomar decisiones de negocio
a través de ellos, pues su gran generalidad y falta de
objetivos no permiten una visualización clara de la
información.

En cuanto al smart data, su principal pilar es el valor de


los datos. Esto significa que todos los datos recopilados
son recogidos y analizados hasta definir información de
valor. Es por eso que las empresas pueden valerse de
lo obtenido para el mejoramiento de sus operaciones,
procesos y decisiones.
¿Cuáles son los desafíos empresariales en el uso de los datos?

Podríamos resumirlas en cuatro puntos.

1.Almacenamiento
2.Integración
3.Seguridad
4.Privacidad
1. Almacenamiento

El almacenamiento de datos es el proceso


tecnológico donde se graban, archivan y
guardan bits de información que contienen
imágenes, texto, video, programas, hojas de
cálculo, entre otros archivos digitales de
múltiples formatos. Existen diversas
arquitecturas y dispositivos de almacenamiento
para cumplir este propósito.

El almacenamiento de datos es posible gracias


a diferentes sistemas informáticos que utilizan
el sistema binario para registrar los datos en
discos giratorios u otros dispositivos.
Principalmente encontramos la tecnología
magnética, eléctrica, óptica y de transmisión de
datos por red.
Existen dos tipos de dispositivos de
almacenamiento de datos que funcionan de
forma similar al cerebro humano:

Los primarios, que se encargan de recabar


los datos de forma temporal mientras haya
electricidad, de la misma forma que lo hace
nuestra memoria a corto plazo; un ejemplo es
la memoria de acceso aleatorio (RAM) de una
computadora.
Los secundarios, los cuales tienen la
capacidad de grabar datos de manera
permanente y sin perderlos, aun cuando no
haya electricidad. De forma similar a nuestra
memoria a largo plazo; un ejemplo es el disco
duro (HDD) de la computadora.
2. Integración

La integración de datos, consiste en la


recopilación de datos desde las distintas
fuentes empresariales para asegurar tener
datos completos y precisos. La integración
permite consolidar datos de diferente índole
(estructurados, no estructurados, en streaming,
etc.). Así, las empresas se aseguran que se
pueda realizar cualquier operación empresarial,
como consultar en las bases de datos o hacer
analíticas complejas.
La integración de los datos se puede hacer de
forma manual, pero en el momento que se
llega a cierto volumen, este tipo de integración
se vuelve insostenible incluso para las
pequeñas empresas. Por ello, hay muchos
fabricantes de software que ofrecen
plataformas de integración de datos para
facilitar esta labor. Algunos de estos software
son Oracle Data Integration Suite, IBM Cloud
Pack for Integration, y SAP Cloud Platform
Integration Suite.
Los motivos más comunes por los que una
empresa hace una integración de datos son los
siguientes:

Creación de data lakes: algunas empresas


desean tener un data lake (lago de datos)
donde almacenar todos sus datos
empresariales. Los datos dentro de un lago de
datos se encuentran en un formato natural, sin
procesar, generalmente como blobs de objetos
o archivos.
 Gestión de datos maestros y consistencia de datos:
la integración de los datos también es muy usada
para asegurar la conexión de entidades y dominios
empresariales (como clientes, proveedores,
personal, producto, etc.). Al integrar los datos se
hace posible acceder a la información y sincronizar
los procesos y, así, mejorar la gestión de datos
maestros. Asimismo, también aumenta la
consistencia a nivel de base de datos entre
aplicaciones.

 Migración (migration): cuando se va a realizar una


migración de datos de una solución empresarial a
otra, se realiza una integración de datos. Esto se
debe a que se tiene que realizar el proceso de ETL
(extracción, transformación y carga de los datos)
hacia el nuevo sistema.
 Replicación de bases de datos (data replication): la
replicación de la base de datos es muy importante, ya
que así las empresas mejoran la disponibilidad,
consistencia y accesibilidad de los datos. Esto se debe
a que si hay incidencia en alguna base de datos, el
sistema redirigirá a los usuarios afectados a la otra
base de datos que contiene los datos replicados.

 Almacenamiento de los datos de diferentes fuentes en


un almacén de datos o en data center: las empresas
ponen sus datos en un almacén de datos o en data
services para que haya interoperabilidad entre los
distintos sistemas de la empresa. De esta forma, la
empresa se asegura que haya una sincronización de
los datos de los diferentes sistemas, evitando que los
empleados tengan que insertar los mismos datos en
diferentes aplicaciones.
 Preparar los datos para sistemas de BI: los
sistemas de BI necesitan poder tomar los
datos de fuentes que tengan un formato
concreto. Por ello, muchas empresas hacen
uso de los data services de sus soluciones
de BI para asegurarse que los datos estén
en el formato correcto. Algunos de ejemplos
de estos data services son Microsoft
Dataverse, que se usa para las aplicaciones
gestionadas en PowerApps, como PowerBI,
o SAP Data Center, que es usado por
sistemas como SAP BusinessObjects o SAP
Analytics Cloud.
3. Seguridad

En líneas generales, seguridad de datos se


refiere a medidas de protección de la
privacidad digital que se aplican para evitar el
acceso no autorizado a los datos, los cuales
pueden encontrarse en ordenadores, bases de
datos, sitios web, etc. La seguridad de datos
también protege los datos de una posible
corrupción.

Seguridad de datos incluye conceptos como


encriptación de datos, tokenización y prácticas
de gestión de claves que ayudan a proteger los
datos en todas las aplicaciones y plataformas
de una organización.
Hoy en día, organizaciones de todo el mundo
invierten fuertemente en la tecnología de
información relacionada con la ciberdefensa
con el fin de proteger sus activos críticos: su
marca, capital intelectual y la información de
sus clientes.

En todos los temas de seguridad de datos


existen elementos comunes que todas las
organizaciones deben tener en cuenta a la
hora de aplicar sus medidas: las personas, los
procesos y la tecnología.
4. Privacidad

Cuando hablamos de privacidad de los datos, también


llamada privacidad de la información (o data privacy
en inglés), nos estamos refiriendo principalmente a la
privacidad de datos personales, es decir, a mantener
confidencial aquella información personal que puede
servir para identificarnos (la privacidad de la
información también se aplica a otros tipos de datos
que puedan ser confidenciales para la empresa).

Habitualmente nos referimos a la privacidad de datos


dentro del ámbito digital, es decir, en Internet, puesto
que es actualmente el entorno a través del cual más
datos personales tendemos a compartir, muchas
veces sin ser conscientes de la gran cantidad de
información personal que publicamos y cedemos.

Ver el siguiente video:


https://www.ted.com/talks/oscar_gerardo_sanchez_privacidad_de_datos_entre_el_espionaje_y_la_ciencia
MOMENTO PARA RECORDAR

Vistos los contenidos de:

Ciclo de vida de los datos


Gestión de ciclo de vida de los datos
Virtualización de los datos
Smart Data
Desafío empresariales en el uso de los datos

Corresponde aplicarlos en la evaluación de la


semana.
MOMENTO PARA APLICAR
Resolver la evaluación correspondiente a la semana 4 de la unidad 1 que ya se encuentra
habilitada en la plataforma.
MOMENTO PARA RETROALIMENTAR
Conversatorio final para cerrar la unidad.
MUCHAS GRACIAS

También podría gustarte