Está en la página 1de 72

Guía de estudio

Base de Datos II
Código 03084

Preparada por
Jerry Quintero Figueroa
Producción académica y asesoría
metodológica:
Sarita Poltronieri Méndez

Equipo de trabajo

Encargada de programa
Karol Castro Chaves

© Jerry Quintero Figueroa


© Universidad Estatal a Distancia
Encargado de cátedra
Percy Campiña Valdez

Autor de la guía de estudio


Jerry Quintero Figueroa

Esta guía de estudio ha sido confeccionada en la


cátedra Ingeniería de Software, en el año 2020, para
uso exclusivo del estudiantado de la asignatura Base
de Datos II (código 03084), que se imparte en el
Bachillerato en Ingeniería Informática (código 88) de
la Universidad Estatal a Distancia.

ADVERTENCIA: Los derechos patrimoniales de la


presente obra pertenecen en su totalidad a la
Universidad Estatal a Distancia de Costa Rica (UNED),
por lo que está prohibida su copia o reproducción,
comunicación pública, puesta a disposición del
público, transmisión, transformación (incluyendo
adaptación y traducción), distribución, alquiler o
Imagen de portada venta de ejemplares por cualquier medio o
Starline. (15 de abril de 2021). Technological procedimiento, conocido o por conocerse, sin el
[archivo de imagen]. Recuperado <a consentimiento previo por escrito del titular de los
href='https://www.freepik.es/vectores/fondo'>Vec derechos. Eludir esta prohibición, o las medidas
tor de Fondo creado por starline - tecnológicas de protección que contenga la obra,
www.freepik.es</a> constituye una conducta sancionada por normas de
propiedad intelectual.

ii
Presentación

El objetivo principal de la guía de estudio de Bases de Datos II es orientar y


facilitar, a la persona estudiante, en el estudio de las cuatro unidades temáticas
que conforman la asignatura.

Cada uno de los temas presenta el objetivo de aprendizaje, los objetivos


específicos, una introducción general al tema, la guía de lectura con las páginas
que se deben leer por autor y por capítulo. Además, posee un desarrollo temático
donde se le indica al estudiante en cuáles contenidos debe profundizar, un breve
resumen y ejercicios de autoevaluación para repasar.

Específicamente, a lo largo de la guía, se desarrollan los siguientes temas:


Administración de bases de datos. Se analizan los procesos para administrar la
información, con el objeto de identificar las responsabilidades en la
administración del trabajo de la empresa en su contexto organizacional. Se
determinan las herramientas que se requieren para esto y se busca resolver
situaciones hipotéticas que permitan ejercitar la toma de decisiones acertada.

Minería de datos. Se pretende analizar el modelo de minería de datos y el proceso


de explorar la información para la toma de decisiones de acuerdo con las normas
de la industria. Para esto, se deben distinguir los conceptos, describir la
estructura del modelo y diferenciar entre los distintos modelos de minería de
datos, lo que les permite a los tomadores de decisión seleccionar las mejores
estrategias de acuerdo con las normas de la industria.

Inteligencia de negocios. Se abordarán los elementos y estructuras del modelo de


negocios que buscan dar una respuesta a las necesidades del sector productivo
respecto al manejo adecuado de la información, señalando los sistemas que dan
soporte a las decisiones, identificando los elementos del sistema de información
ejecutiva que permitan determinar los factores necesarios para poner en marcha
un Data Mart y un Data Warehouse en la empresa.

Big data. Se presentará una propuesta para el manejo de los datos por medio del
uso de las herramientas necesarias como Apache Hadoop, entre otras que
permitan determinar los elementos de un mercado de grandes volúmenes de
datos.

ii
¿Cómo estudiar esta asignatura de la mejor forma?
Programe sus horas de estudio de forma anticipada, es recomendable hacer
pequeños avances semanales en vez de tomar largas horas durante un fin de
semana. La noche anterior procure dormir las horas suficientes para concentrarse
en el tema de estudio; además, localice un lugar cómodo para la lectura.

En todo momento, tenga esta guía de estudio a mano y los libros que se indica en
cada guía de lectura. Puede utilizar una tableta o una computadora para leer, no
obstante, se recomienda usar una computadora para resolver los ejercicios de
autoevaluación.

Finalmente, disfrute su estudio, comparta con sus compañeros resúmenes y otras


estrategias que le permitan maximizar su aprendizaje. Busque su propia
motivación o converse con su tutor para obtener apoyo.

Iconografía
Para facilitar la lectura de esta guía de estudio, se emplean íconos a lo largo del
texto con el propósito de destacar un contenido específico u otras actividades
complementarias. A continuación, se presenta cada uno y su significado:
Audiovisual
Propone actividades relacionadas con la exposición de material
audiovisual complementario, además, cuenta con un código QR
que facilita su localización.
Atención
Se utiliza para llamar su atención sobre algún punto de singular peso para su
proceso de aprendizaje.

Concepto
Se emplea para definir un concepto complejo o que el estudiante debe dominar
para comprender la lectura.

iii
¿Sabe qué es PROMADE?
¿Quiere colaborar en la mejora de este material didáctico?
Esta guía de estudio fue creada por un equipo multidisciplinario de profesionales
que veló por su calidad académica, gracias a un riguroso proceso de revisiones y
una mediación didáctica apropiada, de acuerdo con las necesidades particulares
de una persona que estudia en el sistema de educación a distancia.

En el Programa de Producción de Material Didáctico Escrito (PROMADE), se


elaboran los materiales escritos que las asignaturas de la UNED requieren. Desde
la fundación de la universidad, en 1977, este departamento ha sido el eje de la
producción de aquellos materiales que son el principal objeto de consumo
didáctico de nuestros estudiantes, lo cual nos compromete a una producción
intensa y permanente. Estas obras han llegado a constituir un acervo nacional e
internacional: se utilizan con gran éxito en la UNED y también en diferentes
instituciones educativas públicas y privadas de nivel
superior y medio del país, así como fuera de Costa Rica.

Usted puede contribuir con el mejoramiento de los


materiales que producimos, enviando sus observaciones
Audiovisual
y comentarios sobre la unidad didáctica al correo Si gusta conocer más
infopromade@uned.ac.cr. sobre nuestro
programa, visite
Recuerde incluir el nombre del material y del autor o nuestro sitio web
https://www.uned.ac.cr/
autores. Y si el libro le gustó, también cuéntenos… ¡Nos dpmd/promade/
encantaría conocer su experiencia!

iv
Contenido

¿Cómo estudiar esta asignatura de la mejor forma? ................................................. iii


Iconografía ......................................................................................... iii
¿Sabe qué es PROMADE? ¿Quiere colaborar en la mejora de este material didáctico?
......................................................................................... iv
Contenido .............................................................................................................. v
Tema I Administración de bases de datos ................................................................... 6
¿Cómo se administran las bases de datos? ................................................................. 7
Guía de lectura .......................................................................................... 7
Desarrollo temático .......................................................................................... 8
Conclusión ............................................................................................................ 11
Ejercicios de autoevaluación ..................................................................................... 11
Respuestas a los ejercicios de autoevaluación .......................................................... 20
Tema II. Minería de datos ......................................................................................... 24
¿Qué función tendrá el manejo adecuado de la minería de datos? .......................... 25
Guía de lectura ........................................................................................ 25
Desarrollo temático ........................................................................................ 25
Conclusión ............................................................................................................ 28
Ejercicios de autoevaluación ..................................................................................... 29
Respuesta a los ejercicios de autoevaluación ........................................................... 36
Tema III. Inteligencia de negocios ............................................................................. 39
¿Qué aspectos influyen en la inteligencia de negocios? ........................................... 40
Guía de lectura ........................................................................................ 40
Desarrollo temático ........................................................................................ 41
Conclusión ............................................................................................................ 48
Ejercicios de autoevaluación ..................................................................................... 49
Respuesta a los ejercicios de autoevaluación ........................................................... 53
Tema IV. Big data ..................................................................................................... 54
¿Qué es big data? ..................................................................................................... 55
Guía de lectura ........................................................................................ 55
Desarrollo temático ........................................................................................ 55
Conclusiones ............................................................................................................ 61
Ejercicios de autoevaluación ..................................................................................... 62
Respuesta a los ejercicios de autoevaluación ........................................................... 68
Referencias .............................................................................................................. 71

v
Tema I
Administración de bases de datos

Sumario
• ¿Cómo administrar bases de datos?
• Conclusión
• Ejercicios de autoevaluación

Objetivos de aprendizaje
Objetivo general
Analizar los procesos en la administración de datos para la identificación de
responsabilidades en la administración del trabajo empresarial.

Objetivos específicos
• Definir los aspectos relacionados con el contexto organizacional
necesarios para administrar una base de datos.
• Identificar las herramientas que se requieren para administrar bases de
datos.
• Resolver situaciones hipotéticas del campo laboral relacionadas con la
administración de bases de datos.
o p o rtu n are fo rz a r d e b e m o se s p a ñ o l
s e rv i d o r l u g a re s No m b re
Ed i to ri a l An a l i z a r e x p l i c a r L a n g u a g e c a u te l a
Ge s ti ó n p ro te g e d e b e rá
fa c i l i ta d o Stru c tu re d c o n s u l te
fu s i o n a r ac c edan
c ons ec uc ión inc luida d e fi n i r e x p o n e n o b j e to s
a u to m á ti c o As p e c to s s eñalado Ín d i c e s BASES
Re p re s e n ta c i ó n re l a c i o n a l d i v e rs a sg e n é ri cm
o u e s tre n c e rte z a e fe c to s m a y o re s

perdida
e s ta n d a ri z a r e m e rg e n te p o s i ti v a o fre c e n am plio c am po
p re s e n ta n d o a te n c i ó n e n fa ti z a re s ta u ra Cl i e n te e s c ri b e
o rd e n
Modelo fre c u e n c i a i n te g ra r Híb ri d o Ofre c e n aunque

empresariales
Gra n u l a ri d a d s ubdiv idir ac c iones
re c o m e n d a d o M annino v a l o re s ta b l a s

controles HOLAP
elemento
m é to d o s v e n ta j a
L i b ro
Actualización o tra s

partes
In te ra m e ri c a n a Ni n g u n a
p ro v o c a

McGraw m a y o ría re a l i z a

modelo Analy tic MOLAP s u fi c i e n te i m p a c to Su m a ri o

candados Arquitectura s i g n i fi c a ti v o s

seguridad
fi n a l e s

datos
modelado gerencia refrescamiento
fa c i l i ta n

transacción
concepto Capítulo
dim ens iones es pac io
únic os o rg a n i z a c i o n a l e s

conceptos fusión c o n c re to s d e s ta c a

resultados continuación
1 4 .To d a s

desarrolla
s e ri e s c u e n ta s

cambios m a rts
c o n s i s te n te
analic e

además
organización
ac c es ibilidad
dude c om ún re s e rv a r

inc luidas saldo Re e s c ri tu ra


Pro c e s o s
c uáles fu n d a m e n ta l

objetiv os
p .5 2 0 Ob j e ti v o

racionalidad
procedimientos existentes
ti e n d a i n v i to a c tu a l i z a rl o
ps eudoc ódigo g e s ti o n a
l e tra j e ra rq u ía
m ejor e n te n d e r

f ase claro Consistente soportar

integridad
d e te n i m i e n toOp e ra c i o n a l
pagar b o rra d o s

ejemplos
ágiles c opias n o rm a l i z a c i ó n
d e s tru c c i ó n p ro p ó s i to
m edia
general o p o rtu n i d a d e s h i p o té ti c a s analiz ado

Administración
tecnología
Aquí objetivo

entornostoma
tanto a rq u i te c tu ra
e l a b o ra c i ó n

desarrollan diccionarios enlace cabo significa


presentan está tareas
a u to ri z a c i ó ne l i m i n a c i ó n

respuesta consultas
v a ri a s c a p a c i ta c i ó e
n s c ri b i rl o s á re a s

representación estudiaremos

más
re a l i z a c i o te
n erm
s i n o l o g ía

DBMS
e x i s te
inconsistentes capítulos
ejemplo Monitoreo
fi rm a s iguen ilegal e n c ri p ta c i ó n

estudio mejorar México


Re s tri c c i o n e s

fa s e s ac c edidos
única parciales c om unic ac ión

e s to s
inglés
negocios depuración i z q u i e rd a re q u e ri m i e n to s

desastres dis ponibilidad

libro
cuanto
Gestor

sección
otros

base
n e c e s a ri a

Atómica
siglas
aprendizaje

recuperación
minería
i d e n ti fi c a primarias d ía planteamiento
aspectos

herramientas
aplicación Hill
c édula c o n s i d e ra m enos

Line llev an Además


apoyo sonresume

bases responsabilidades
data
diseñomay or
ejercicios sugiere

siguiente
vistas
referencia
banco misma

leer cómo
concurrencia
él
recurso utilizar brindan reescritura
esos dudas

tres
tabla
excepciones realice

Datos
c l a ro s
Aislada aplicar
llaves cinco
empresaautor tipos
as í

mantenimiento
dé c a rg a

implica
ilustra varios d e s c ri b i r

básicos
auditoría sean
Es ta s fís i c o s

apoy aradministrativasconsultar incluyen


actualización
administradores
obtener clasificación f lujo
re c i b e

ef iciencia Base mismo e fi c i e n te s


cuatro Qu e ry to d a s

importante
tema serieseccionesusuario
c l a s i fi c a n
otra
permite brinda
desempeño
re a l e s
indica c onoc e

candidatas elegir

dif erencia proceso arquitecturas

apartado detalla
características
procesamiento
m alic ios a
multidimensionales
Candados Disponibilidad limitaciones nivel

programación

sistemas
re l a c i o n a d a si d e n ti fi c a c i ó n
Apareamiento dec ir
multidimensional
aplicaciones almacenados
luego i m p l e m e n ta c i ó n re p re s e n ta c i o n e sa c ti v i d a d e s a u to ri z a d o
s elec c ión
Cu á l p l a n te a m i e n to s He rra m i e n ta sRe fe re n c i a s l i m i ta c i ó n

transparencia
Re fl e x i o n e
fu n c i o n a l e s
Tra n s p a re n c i a desarrollo Educar fl u j o s
c o n fi a b i l i d a d i n te n c i ó n i n d i v i d u a l eosp e ra c i o n e si n c o rre c to Có m o

permiten diferentesSignifica
a s c e n d e n te

falla
e n c u e n tra Pro p o rc i o n a r s i m p l i fi c a c i ó n e s p e c ífi c aEj
s e rc i c i o s Re s p u e s ta s
re s p u e s ta s

dependencia calidad Diseño


fra g m e n to o s p e ra c i o n a l c a rd i n a l i d a d i n te g ra c i ó n i n te g ra d o s c o n te n i d o

Considere
p ro g ra m a s
extraídos M u l ti d i m e n s i o n a l

relacionalesObjetivos
s o l u c i o n a r d e s h a c e rs e a d m i n i s traren n d i m i e n to M a n a g e m e n tto ta l i d a d
as ignado
pilares s o b re s a l i e n te s

usuarios
p ro te c c i ó n
tipo p ri v i l e g i o s m o ti v a c i ó n e m p l e a d o s
d e s c ri b e
funciones Determinar h i s tó ri c o tra n s p o rta c i óanu to ri z a d o s

Toma
materializadas
m inim iz a Da ta u ti l i z a d o s e s ta b l e c e In te g ri d a d a p a rta d o s Es to

optimización
i m p l i c a re fe c tu a r a u to m á ti c a m e n te c o m e rc i a l re
e ss e rv a c i ó n

presentacontexto
Co n s i s te c o n s i s te n
empresarial Re l a c i o n a l o p e ra ti v o m a p a

Explique

administración
p e rc i b e n h i n c a p i é
e fe c ti v o lenguaje re fl e x i o n a re m o s
n o ti fi c a c i ó n p ro fu n d i d a d
s i g u i e n te s Pro to c o l o
p a ra l e l a c olum nas i d e n ti fi c á n d o s e d i s ti n to s fa l l a s e s p e c ífi c o s e s ta b l e c e r

propiedades sistema
i n v i e rte re fl e x i ó n c o n ti n g e n c i a c o n v e rs a r c a n ti d a d
Ca n d a d o re fi e re n e s tre l l a TRANSACCIÓN
o rg a n i c e te m a s e s tra té g i c a re s u l ta d o Te m a

después cuenta distribuidos


c anc ela h a rd wa re nadie e s tá ti c a s noc ión i n te rfe ri r c u a l q u i e r

Finalmente niveles
re s u m i d o o fre c e e x p e ri e n c i a a u m e n ta n
d e re c h o re a l i z a ro b te n g a n
tomar o p e ra ti v a s g a n a n c i a s
Cu e n ta n
te m á ti c o p ro d u c to
d i s tri b u i d a s
Número s e ri o
o p e ra ti v a
m e n c i o n a nCo n te x to
De fi n i r i n c o n s i s te n te
a s e g u ra re s p o n d a s e p a ra d a s
fu e n te s d e fi n i c i o n e s delic adas
Ed i c i ó n aplic an a d e c u a deax p l i c a n
m odelos e s ta s
Ex i s te n c uidado
p ro c e d a

transacciones
l a b o ra l d u ra n te

comprende warehouses
recuperaciones
planea

anterior lograr técnicas


dem ás
ín d i c e s m i n u to s e s q u e m a
páginas
p l a n i fi c a c i ó n
estructurada a d m i n i s tra d o r s o b re s c ri b ap a ré n te s i so b te n e rl o a u m e n ta r

autoev aluacióngrandes
c u a n ta p re s ta r fra c a s a s i g n i fi c a ti cv o m p re n s i ó n p e rm a n e n te d e p u ra d a s c l a ri d a d

em plea Vi g i l a r m e j o re s
o rg a n i z a c i o n e s
dimensión l o g ro a d m i n i s tra rl a e s tru c tu ra s
b e n e fi c i o s
Te c n o l o g íaa d e c u a d o
v uelo p e rm i ti rá n
l i s ta e ta p a s Ac c e s o nulidad c o rp o ra ti v ae sx p e ri m e nctao m p re n d e n to m a d o re s
v elar d e ta l l a d o
g ru p o s c am bia pedidos c o n c u rre n tes u b c o n j u n top l a n e a c i ó n Gu ía
a c e rta d a
tra te n im agen d i n e ro tá c ti c a In te g ra c i ó n e s tá n d a re s s u p e rv i s a r
i n te l e c tu a l
Cajero
restricciones indiv idual Administrador
m e j o ra fo n d o s b o rra r d e s a rro l l a rá e s p e c i a l i z a d a sOp ti m i z a c i ó n Co n c l u s i ó n s i m u l tá n e a

disparadores
te rm i n a p re g ú n te s e
a l ta INSERT educ ar a c tu a l i d a d a n te ri o rm e n te fa c i l i ta ra n ev aluac ión

m o ti v o hec hos De b i d o Ofre c e r


d e re c h o s s i m u l tá n e o
múltiples c o rre s p o n d e np ro p a g a c i ó n
i n te g ra d i re c ta a n a l i z a re s p e c to m i e m b ro s e s ta n c i a v olúm enes p .4 8 6

ROLAP equilibrar
m a rq u e Fi g u ra bloque ejec uc ión c o n te x tu a l i z a
re s u m i r im puls a De ta l l e Co l o q u e p ro p a g a r o b s ta n te
g ra b a d o s
l o g re n Ev a l ú a
debido re s u l te Im p l i c a d e ta l l e So p o rta n
m u c h a s INICIA

6
¿Cómo se administran las bases de datos?

Esta pregunta nos impulsa a pensar en la actualidad, en cómo la mayoría de la


información estratégica y operativa de una empresa está estructurada en bases
de datos, son sistemas en que se gestiona, protege e invierte con mayor cautela,
en especial, en copias de seguridad, mejora de rendimiento, accesibilidad y
cuidado de su calidad de datos (Mannino, 2007).

La administración de bases de datos brinda a los usuarios finales de la gerencia


varios beneficios significativos. Su correcta administración minimiza datos
duplicados y los integra de forma que múltiples programas y usuarios puedan
acceder a estos.

A lo largo de este tema, reflexionaremos sobre el contexto organizacional para


administrar bases de datos, las diversas herramientas que se aplican en este
proceso y la administración de los diferentes entornos utilizados. Además,
estudiaremos la administración de transacciones y la concurrencia, las cuales se
refieren a que los sistemas administradores de base de datos permiten que
muchas transacciones accedan a una misma base de datos al mismo tiempo.

Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema I. Para empezar, lea esta guía de estudio y
luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.

Libro de texto o recurso de Nombre del capítulo


Número de páginas
lectura y sección
Mannino, M. (2007) Capítulo 14.
481-507
Administración de bases de Todas las secciones.
datos. Diseño y desarrollo de Capítulo 15.
515-543
aplicaciones. (3.ª ed.). Ciudad Todas las secciones.
de México, México: McGraw-
Capítulo 16.
Hill/Interamericana editores, 553-596
Todas las secciones.
S. A. de C. V.

7
Desarrollo temático
Esta sección se estructura con base en el orden de la lectura recomendada antes.
Por lo tanto, de desarrolla capítulo por capítulo; es necesario leer la totalidad del
texto, especialmente aquellas partes que le facilitarán comprenderlo. Se indica a
continuación cada una.

El capítulo 14 del libro Administración de bases de datos y desarrollo de aplicaciones


(Mannino, 2007) desarrolla cuatro grandes temas, a saber:
• Contexto organizacional para administrar bases de datos
En este apartado, es importante que lea detenidamente el control de los ciclos de
vida de la información, se encuentra resumido en la figura 14.2. También, las
responsabilidades de los administradores de datos y los administradores de
bases de datos que se sintetizan en la tabla 14.2.

Se explica el apoyo de las bases de datos en la toma de decisiones administrativas,


la administración de los recursos de información para el manejo del
conocimiento, las responsabilidades de los administradores de datos y los
administradores de bases de datos. Asegúrese de comprender en detalle el apoyo
que brindan a cada uno de ellos.

• Herramientas de administración de bases de datos


En esta sección es importante leer con detenimiento las herramientas que se
mencionan para seguridad, integridad y acceso a diccionarios de datos. Además,
analice el manejo de procedimientos almacenados y disparadores como la
seguridad, restricciones de integridad, administración de disparadores,
procedimientos almacenados y manipulación del diccionario de datos.

• Procesos para especialistas en bases de datos


En esta sección se desarrollan las etapas que llevan a cabo los administradores de
datos y de bases de datos, a saber: planificación de los datos, selección y
evaluación de los sistemas de administración de bases de datos. Léalas
detalladamente y organice su estudio de forma que pueda describir cada una.

• Administración de entornos de bases de datos


La lectura ofrece un panorama general de los entornos de procesamiento, se
enfatizan las tareas que ejecutan los administradores de bases de datos y
administradores de datos. Se detalla el procesamiento de transacciones, de Data
Warehouses, entornos distribuidos y administración de bases de datos de
objetos. Reflexione sobre ellos y pregúntese: ¿cómo estos entornos del contexto

8
organizacional facilitan la administración de base de datos? No dude en utilizar
ideas de los apartados anteriores para esta reflexión.

El capítulo 15 (Mannino, 2007) describe las características de la administración de


transacciones para soportar el uso concurrente de una base de datos y la
recuperación en caso de falla. Es importante leer detenidamente las propiedades
de las transacciones, la transparencia de recuperación y concurrencia; el objetivo
del control de concurrencia y los tres problemas de interferencia. En este, se
desarrollan cinco grandes secciones:
• Aspectos básicos de las transacciones de
bases de datos
Es importante la lectura de este apartado, el cual
SQL. Siglas en inglés de
permite tener una noción más precisa de algunos Structured Query Language; en
español, lenguaje de consulta
ejemplos de este tipo de transacciones en lenguaje
estructurada.
SQL, lo que facilita tener mayor claridad en las
cuatro propiedades de una transacción.

• Control de la concurrencia
Se deben tener claros el objetivo, los problemas y las herramientas.

• Administración de recuperaciones
Es necesario prestar atención a las herramientas para el manejo o la gestión de
recuperaciones y los procesos de recuperación que emplean las herramientas.
Para los aspectos del diseño de transacciones, la tabla 15.12 resume los diferentes
niveles de aislamiento.

• Administración del flujo de trabajo


Debe poder explicar la figura 15.15 que sintetiza la forma de clasificar los flujos
por desempeño de las tareas.

El capítulo 16 (Mannino, 2007) brinda los cimientos para una forma emergente
de bases de datos, la Data Warehouse, que se emplea cada vez más para apoyar
la toma de decisiones. Se exponen los requerimientos únicos para su
procesamiento, el modelo multidimensional de datos y su implementación en
bases de datos relacionales, modelado y formulación de consultas y
mantenimiento de estas bases de datos. El capítulo desarrolla cuatro secciones:
• Conceptos básicos
En esta sección es fundamental definir las características de la Data Warehouse y
la minería de datos; situación que se ilustra en la tabla 16.1. En las figuras 16.1 y

9
16.2, nos explican la arquitectura de Data Warehouse de dos y tres niveles.
Finalmente, algunas organizaciones utilizan un planteamiento ascendente, el
cual se muestra en la figura 16.3.

• Representación multidimensional de los datos


Se sugiere leer los ejemplos de representaciones, terminología, datos de series de
tiempo y operaciones del cubo de datos que presenta el autor.

• Soporte de DBMS para Data Warehouse


Se aprecia en la figura 16.9 el ejemplo de un
esquema de bases de datos de las ventas de una DBMS. Siglas en inglés de Data
tienda. Este expone claramente el modelado de Base Management System; en
español, Sistemas de Gestión
datos relacionales para datos multidimensionales. de Bases de Datos relacional.

Se presentan las características de los DBMS


relacionales para soportar o apoyar los datos multidimensionales; también se
incluyen los planteamientos de modelado de datos, representación de
dimensión, extensiones, vistas materializadas con reescritura de consultas y
estructuras de almacenamiento, además, técnicas especializadas de
optimización. Se desarrolla el modelado de datos relacionales para datos
multidimensionales, la representación de
dimensión, vistas materializadas, reescritura de
consultas, tecnologías de almacenamiento y
MOLAP. Siglas en inglés de
optimización. Multidimensional Online
Analytical Processing
Para las tecnologías de almacenamiento y Multidimensional; en español,
Procesamiento Analítico
optimización, se debe tener clara la diferencia entre Mulitidimensional en línea.
MOLAP, ROLAP y HOLAP, así como las técnicas ROLAP. Siglas en inglés de
Online Analytical Processing
más sobresalientes de ROLAP. Relacional; en español,
Procesamiento Analítico
• Mantenimiento de una Data Warehouse relacional en línea.
HOLAP. Siglas en inglés de
La sección se sintetiza en la tabla 16.12, se detalla la Hybrid Online Analytical
clasificación del cambio de datos; la figura 16.15 Processing; en español,
Procesamiento Analítico
presenta el flujo de trabajo genérico para el Híbrido en línea.
mantenimiento de la Data Warehouse. Finalmente,
la tabla 16.14 resume las limitaciones de refrescamiento.

10
Conclusión

A lo largo del estudio del tema, se analizaron los procesos en la administración


de datos que llevan a cabo los administradores, se identifican las
responsabilidades en la administración del trabajo empresarial, con el fin de
obtener información oportuna para la toma de decisiones acertada.

En cuanto al contexto organizacional para la administración de base de datos, un


administrador debe tener claras cuáles son sus responsabilidades en el manejo
de la información, las herramientas que pueden utilizar para administrarla y los
procesos que aplican los especialistas para tomar decisiones que permitan
maximizar las ganancias de la empresa.

Con la aplicación de herramientas administrativas de bases de datos, la gerencia


o los tomadores de decisiones tendrán la certeza de que los recursos de
información y de administración de datos permitirán conseguir las metas que
establece la organización. Por este motivo, los administradores de la información
deben velar porque los resultados que se obtengan de la aplicación de métodos
y técnicas sean claros, concretos y reales, con el uso adecuado de diferentes
lenguajes de programación que sean ágiles y eficientes.

Por último, el tema concluye presentando una serie de conceptos sobre diferentes
tipos de bases de datos que permiten dar apoyo a la toma de decisiones y al
manejo de las arquitecturas de Data Warehouse y minería de datos que se
desarrollará a profundidad.

Ejercicios de autoevaluación

Para esta sección, se usan fragmentos totales o parciales del libro de texto
facilitado (Mannino, 2007) con el propósito de no interferir con el espíritu de lo
señalado en el desarrollo teórico del autor.

Selección única
Con base en el estudio del tema, lea los enunciados y marque con una X la respuesta
correcta.

11
1. Considere las siguientes características:
• Ayudan a manejar los negocios con eficiencia.
• Soportan en forma directa las principales funciones, como procesamiento
de pedidos, manufactura, cuentas por pagar y distribución de productos.
• Cuentan con un rápido procesamiento, mayores volúmenes de negocios y
reducidos costos de personal.
Las características anteriores hacen referencia al concepto de base de datos:
a) táctica
b) integradas
c) operacional
d) para la toma de decisiones

2. Considere la siguiente información:


Es un puesto de gerencia alta o media con amplias responsabilidades en cuanto
a la administración de los recursos de información. Ve el recurso de la
información en un contexto más amplio.
El concepto anterior hace referencia a:
a) Administrador de datos
b) Gestor de bases de datos
c) Gestor de la información
d) Administrador de bases de datos

3. Considere la siguiente información:


Proporciona un patrón integrado de todas las bases de datos de una
organización. Es menos detallado que las bases de datos individuales que
comprende. Se puede desarrollar para planificar los datos, es decir, ¿cuáles bases
de datos desarrollar?, o el apoyo a las decisiones, en otras palabras, ¿cómo
integrar y resumir las bases de datos existentes?
El concepto anterior hace referencia al modelo de:
a) Bases de datos
b) Datos empresariales
c) Toma de decisiones
d) Tecnología de negocios

12
4. Lea la siguiente información:
• Consiste en desarrollar modelos empresariales de datos, procesos y
funciones organizacionales. Evalúa los sistemas existentes, identifica las
oportunidades de aplicar la tecnología de la información para lograr una
ventaja competitiva y planea nuevos sistemas.
¿A cuál proceso de los que llevan a cabo los administradores de datos y de bases
de datos hace referencia el texto anterior?
a) Toma de decisiones
b) Planificación de datos
c) Selección de los sistemas
d) Evaluación de los sistemas

5. Lea la siguiente información:


• Significa que una transacción no se puede subdividir, ya sea que se realice
todo el trabajo en la transacción o que no se haga nada. Implica que los
cambios parciales, que efectúa una transacción, deben deshacerse si esta
se cancela.
¿A cuál de las propiedades de las transacciones hace referencia el texto anterior?
a) Aislada
b) Durable
c) Atómica
d) Consistente

6. Lea la siguiente información:


• Significa que cualquier cambio que resulte de una transacción es
permanente. Ninguna falla va a borrar ningún cambio después de
terminar la transacción. Por ejemplo, si la computadora de un banco
experimenta una falla cinco minutos después de terminar una transacción,
sus resultados siguen grabados en la base de datos del banco.
¿A cuál de las propiedades de las transacciones hace referencia el texto anterior?
a) Aislada
b) Durable
c) Atómica
d) Consistente

13
7. Lea la siguiente información:
• Ofrecen una forma de evitar que otros usuarios tengan acceso a un
elemento de una base de datos que está en uso. Un elemento de una base
de datos puede ser una fila, un bloque, un subconjunto de filas o incluso
una tabla completa. Antes de tener acceso al elemento de la base de datos,
es necesario obtenerlo.
¿A cuál herramienta de control de concurrencia se refiere el texto anterior?
a) Candados
b) Candado de intención
c) Protocolo de candados
d) Granularidad de candados

8. Considere la siguiente información:


Restricciones de programación de carga como resultado de los aspectos de
recursos, incluida la capacidad de almacenamiento, disponibilidad en línea y uso
del servidor.
¿A cuál limitación del refrescamiento de la Data Warehouse hace referencia el
texto anterior?
a) Integridad
b) Integración
c) Disponibilidad
d) Acceso de origen

9. Considere la siguiente lista de técnicas de almacenamiento y optimización


para recuperar los datos de resumen:
• Índices de enlace de mapa de bits.
• Optimización de consultas con enlace de estrella.
• Reescritura de consultas usando vistas materializadas.
• Partición, simplificación y ejecución paralela de consultas.
¿A cuál tecnología de almacenamiento y optimización corresponden las técnicas
anteriores?
a) OLAP
b) MOLAP
c) ROLAP
d) HOLAP

14
Pareo
A continuación, se le presenta una serie de definiciones en columnas al lado derecho que
debe relacionar con los enunciados de la izquierda. Coloque en el espacio entre paréntesis
la letra que antecede la respuesta correcta.

Relacione las responsabilidades de los especialistas en bases de datos para el


procesamiento de transacciones, Data Warehouses y bases de datos para
entornos; con sus respectivas áreas.

( ) Monitoreo del A. Consultar sobre el diseño para equilibrar la


desempeño integridad y el desempeño; educar sobre los
aspectos de diseño y las características de los
DBMS.
( ) Infraestructura B. Vigilar o supervisar el desempeño de las
para el transacciones y solucionar los problemas de
procesamiento de desempeño; modificar los niveles de los
transacciones recursos para mejorar el desempeño.
( ) Recuperación de C. Determinar la frecuencia para actualizar la
desastres Data Warehouse y programar las actividades
para esto.
( ) Diseño de D. Proporcionar planes de contingencia para
transacciones distintos tipos de fallas en las bases de datos.
( ) Actualización de E. Educar y consultar sobre el impacto de los
la Data ambientes distribuidos para el procesamiento
Warehouse de transacciones y los Data Warehouse.
( ) Uso de la Data F. Identificar las metas para los entornos
Warehouse distribuidos; elegir el procesamiento
distribuido, las bases de datos paralelas y las
arquitecturas de bases de datos distribuidas
para lograr los objetivos.
( ) Modelo de datos G. Determinar los niveles de los recursos en
empresariales cuanto a su eficiencia y confiabilidad.
( ) Desarrollo de H. Educar y consultar sobre el diseño de
aplicaciones aplicaciones y las características de los DBMS
para el procesamiento de Data Warehouse.
( ) Arquitectura de I. Ofrecer su experiencia en el contenido de las
entornos bases de datos operativas.
distribuidos

15
Desarrollo
Con base en lo analizado en este tema, responda, de forma amplia, las preguntas que se le
presentan en esta sección.

1. Para crear conocimientos, el autor sugiere hacer mayor hincapié en el


procesamiento humano de la información y la dinámica de la organización
para equilibrar el énfasis en la tecnología. Existen tres pilares para el
manejo del conocimiento, explique en qué consiste cada uno.

2. El autor presenta herramientas para seguridad, integridad y acceso a


diccionarios de datos; además, analiza el manejo de procedimientos
almacenados y disparadores. Explique en qué consiste cada una de esas
herramientas.

16
3. Explique la diferencia entre el control de acceso discrecional y el control
de acceso obligatorio.

4. Se le solicita elaborar un pseudocódigo para la transacción de un retiro de


dinero en una cuenta de ahorros del banco X.

5. ¿Cuál es la diferencia entre la transparencia de recuperación y la


transparencia de concurrencia? Dé un ejemplo de cada una.

17
6. Hay tres problemas que se pueden presentar debido al acceso simultáneo
a una base de datos: (1) actualización perdida, (2) dependencia sin
realizaciones y (3) recuperación inconsistente. Explique en qué radica cada
uno.

7. Considere la siguiente
imagen (a la derecha)
sobre el flujo de trabajo
para el mantenimiento
de una Data
Warehouse.

18
Explique en qué consiste cada una de las fases que se presentan en la figura.

19
Respuestas a los ejercicios de autoevaluación

En este apartado, encontrará las respuestas a los ejercicios de autoevaluación. No


obstante, si considera que tiene dudas, converse con el tutor al respecto.

Selección única
Número de pregunta Respuesta
1 c Operacional
2 a Administrador de datos
3 b Datos empresariales
4 b Planificación de datos
5 c Atómica
6 c Durable
7 a Candados
8 c Disponibilidad
9 c ROLAP

Pareo
(B) Monitoreo del desempeño
(G) Infraestructura para el procesamiento de transacciones
(D) Recuperación de desastres
(A) Diseño de transacciones
(C) Actualización de la Data Warehouse
(H) Uso de la Data Warehouse
(E) Desarrollo de aplicaciones
(F) Arquitectura de entornos distribuidos

Desarrollo
1. La respuesta debe contener la siguiente información en sus propias
palabras:
Los pilares del conocimiento son: tecnología, procesamiento de la información
humana y dinámica de la organización. Esta visión de la administración del
conocimiento contextualiza el uso de la tecnología de la información para
solucionar problemas de negocios, la cual permite usar los datos para que los
resultados sean los mejores para la empresa. La mejor tecnología de la
información fracasa si no se adecúa a las acciones de los miembros de la
organización.

20
La tecnología de la información debe aumentar la capacidad intelectual
individual, remediar las limitaciones en el procesamiento producto del error
humano y apoyar positivamente la dinámica en la organización. Correcta
información, tecnología adecuada y empleados con la capacitación necesaria
permiten conseguir los objetivos de la empresa.

2. La respuesta debe incluir la siguiente información en sus propias


palabras:
La seguridad comprende la protección de una base de datos del acceso no
autorizado y de la destrucción maliciosa. Debido al valor de la información en
las bases de datos corporativas, existe una gran motivación en los usuarios no
autorizados para tratar de acceder a estas ilegalmente; implica controles de red,
de hardware, de sistema operativo y físicos que aumentan los controles que
ofrecen los DBMS (Mannino, 2007, p. 486).
En cuanto a las restricciones de integridad, se deben tomar en cuenta el manejo
de llaves primarias, las llaves foráneas, las llaves candidatas y las restricciones de
no nulidad, de cardinalidad y las de la jerarquía de generalización. También, las
dependencias funcionales y de valores múltiples como parte del proceso de
normalización, además, índices que se pueden emplear para aplicar con
eficiencia las llaves primarias y candidatas.
En materia de administración de disparadores y procedimientos almacenados,
las principales responsabilidades de un DBA son manejar esos procedimientos y
disparadores, y no escribirlos, también incluyen establecer las normas para las
prácticas de encriptación, vigilar las dependencias y entender las interacciones
de los disparadores (Mannino, 2007, p. 493).

3. La respuesta debe considerar la siguiente información en sus propias


palabras:
En el control de acceso discrecional, los usuarios tienen derechos de acceso
asignados o privilegios para partes específicas de una base de datos. Este es el
tipo de control de seguridad más común para el que brindan soporte los DBMS
comerciales. Por su parte, el control de acceso obligatorio es un planteamiento de
seguridad para bases de datos muy delicadas y estáticas. Un usuario puede
acceder a un elemento de la base de datos solo si el nivel de autorización del
usuario brinda acceso al nivel de clasificación del elemento (Mannino, 2007, p.
486).

21
4. La respuesta debe contener la siguiente información en sus propias
palabras:
A continuación, se presenta una serie de pasos
que brindan una posible respuesta a esta
pregunta: Atención. Para ver otros
ejemplos de respuesta,
• INICIA TRANSACCIÓN consulte las páginas 517-518
• Cajero saluda del libro de texto asignado.

• Solicita número de cuenta, cédula y


cantidad
• SELECT número de cuenta y saldo
• If saldo es suficiente then
• UPDATE cuenta anotando el retiro
• INSERT registro histórico
• Cliente firma comprobante y recibe efectivo
• Else
• Cajero indica no tiene fondos
• End If
• FIN
5. La respuesta debe contemplar la siguiente información en sus propias
palabras:
Transparencia de recuperación significa que el DBMS restaura automáticamente
una base de datos a un estado consistente después de una falla; y transparencia
de concurrencia, que los usuarios perciben la base de datos como un sistema
para un solo usuario, aunque haya varios de forma simultánea. Por ejemplo,
para la transparencia de recuperación, si ocurre una falla de comunicación
durante una transacción en un cajero automático, los efectos de la transacción
quedan borrados de la base de datos. En cambio, para la transparencia de
concurrencia, cuando muchos usuarios traten de reservar lugares en el mismo
vuelo mediante una transacción de reservación, el DBMS se asegura de que
cada usuario no sobrescriba el trabajo de los demás (Mannino, 2007).

22
6. La respuesta debe abarcar la siguiente información en sus propias
palabras:
Una actualización perdida es el problema de interferencia más serio porque los
cambios hechos a una base de datos se pierden sin que nadie se dé cuenta. En
una actualización perdida, la actualización de un usuario sobrescribe la de otro.
Una dependencia sin realización sucede cuando una transacción lee los datos que
escribe otra antes de que una segunda transacción se realice. Una dependencia
sin realización también se conoce como lectura sucia porque la provoca una
transacción que lee datos sucios (Mannino, 2007, p. 520).
Todos los problemas de recuperaciones inconsistentes presentan una transacción
que lee y una segunda transacción que cambia la misma parte de la base de datos.
El problema de resumen incorrecto es el más significativo entre los que
comprenden recuperaciones inconsistentes.

7. La respuesta debe incluir la siguiente información en sus propias palabras:


La fase de preparación manipula el cambio de datos de sistemas de origen
individual. La extracción implica recuperar datos de un sistema de origen
individual; la transportación, el movimiento de los datos extraídos a un área de
estancia; la depuración, una variedad de tareas para uniformar y mejorar la
calidad de los datos extraídos. La auditoría implica registrar los resultados del
proceso de depuración, hacer revisiones sobre la integridad y racionalidad, y
manejar excepciones.
La fase de actualización conlleva propagar el cambio de datos integrados a varias
partes de la Data Warehouse, incluidas tablas de hechos y dimensiones, vistas
materializadas, cubos de datos almacenados y Data Marts. Después de la
propagación, puede enviarse una notificación a los grupos de usuarios y
administradores (Mannino, 2007, p. 593).

23
Tema II.
Minería de datos

Sumario
• ¿Qué función tendrá el manejo adecuado de la minería de datos?
• Conclusión
• Ejercicios de autoevaluación

Objetivos de aprendizaje
Objetivo general

Analizar el modelo de minería de datos y el proceso de exploración de la


información para la toma de decisiones de acuerdo con las normas de la
industria.

Objetivos específicos
• Distinguir los conceptos relacionados con minería de datos.
• Describir la estructura del modelo de datos.
• Discernir entre los modelos de minería de datos que permitan la toma de
decisiones acorde con las normas de la industria.

variables
donantes/rec eptores reforz ar
Estructura es tablec iendo

análisis
Proc es s es pac ios
tareas
analítica interés

algoritmos Datos
prác tic as
s uperv ivenc ia
creación
predicción tomar amplia

utilizan
patrones detección
mejorar
utiliz ar c arac terís tic as muc ho c uantificar
útil efic az
rec olec ción Angos s gananc ias

metodología
ras trean

anterior
propietarias
autores Ignorar criterios
anteriores realizar c lav e

datos
podrían fac tores
pasos
etapa técnicas
hoy c olec c ión s egmentac ión

atención
aplicaciones
dilema
almac enamiento normaliz ac ión
derecha Descubrimiento
fallos
aplic a

software
poderos a

determinar
c ons olidan Aquí día

conceptos
acuerdo gran
s erá
es o
autoevaluación s ec tor
sino
s ea

entrada
organiz ación Luis

partir
definir

ac orde

etapas

web
for
reglas
tema
c omienz a lis ta
preparac ión proc es os generac ión
respuesta resume
código
reflex ionaremosalmac enes
pues preparan tales

figura Google
adminis trador prec oz

proceso
áreas
c omerc io
agrupar Estas
tipo
genes s ens ores
v ez

éxito filtros

c orrelac iones posibles


c las ific o
v er
temas des arrolladores
enunciados
data
textos Social debe c urs o
leer
series elec trónic o

recursos
lectura
programac ión
lea loc al interes a
cuál única correcta c ampos

modelo
letra
les
opc iones

SEO sitio
bus c an poner
google
c romos oma
API
fases
estructura
s erie partes

estudio atributo
Data
c línic o
programas identific aron

diferentes explica
dis tintos

Big
s ec uenc ias menc ionan
clasificación
industria III idiomas

minería
texto
Interpretac ión optimiz ac ión
ric o clientes
cuáles negocio ejercicios
siguientes
algoritmo
generan
tengan c ontinuación facilitada
s emies truc turados llev a
están
usos
servicios basescampañasseccionessegún Clasificación
c ánc er
Es te
innov ar
rango

modelos

concepto
exploración
dic has

función columnadetalla estándaresfase conocimiento


13.Todas
mining deberá es truc turados
red rec urs o

Textos
c ienc ias
responde
denominada aplicar
fac ilitarán es tadís tic as As oc iac ión

Loc aliz ación


implementaría

Considere negocios empresa


utiliz ada des een polític as
Conc lus ión
necesidades
tarea medicina
búsqueda
c omplete
func ionalidades afinidades es pec íficos c omprens ibles

Capítulo adecuado
decisiones
aplicación identific ador
utiliza
orden
brinda Guía neuronales
Descriptivo
c ompleja

logís tic a triv ial


desconocidos
influy en

repres entac ión

asociación
puedas

c las ific ar

24
¿Qué función tendrá el manejo adecuado
de la minería de datos?

Existen muchos datos y una gran cantidad de decisiones por tomar, con base en
ellos, por parte de los administradores de bases de datos; y las empresas se están
enfrentando a este dilema. Los datos están creciendo, y eso nos lleva a reflexionar
sobre cuál será la mejor estructura para modelar los datos y cuáles modelos de
minería de datos nos permitirán tomar las mejores decisiones. Esto también
depende de las normas de la industria.

En este tema, reflexionaremos acerca de estas preguntas y los conceptos


relacionados con la minería de datos, minería web y de textos, el procesamiento
de datos, algoritmos y estructuras de minería.

Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema II. Para empezar, lea esta guía de estudio y
luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.

Libro de texto Nombre del capítulo


Número de páginas
o recurso de lectura y sección
Joyanes Aguilar, L. (2019). Capítulo 8.
225-256
Inteligencia de negocios y Todas las secciones.
analítica de datos. Bogotá, Capítulo 9.
269-300
Colombia: ALFAOMEGA. Todas las secciones.
Larson, B. (2009). Capítulo 13.
470-494
Delivering Business Todas las secciones.
Intelligence. New York,
Capítulo 14.
USA: The McGraw-Hill 496-528
Todas las secciones.
Companies.

Desarrollo temático
Esta sección se estructura con base en el orden de la lectura recomendada. Por lo
anterior, estudiaremos capítulo por capítulo, con especial énfasis en aquellas
partes que le facilitarán comprender el texto.

25
En el capítulo 8 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019),
se desarrollan los siguientes temas:
• Minería de Datos: conceptos, definiciones y aplicaciones
• Aplicaciones de la Minería de Datos
• Proceso de descubrimiento del
conocimiento: KDD
• Proceso de Minería de Datos: metodología
KDD. Siglas en inglés de
CRISP-DM Knowledge Discovery in
Databases; la Extracción del
• Proceso de Minería de Datos: metodología Conocimiento.
SEMMA CRISP-DM. Cross Industry
Standard Process for Data
• Modelos, algoritmos y técnicas de Minería Mining, no existe traducción
de Datos precisa en español.
SEMMA. Siglas en inglés de
• Relaciones de la Minería de Datos con otras Sample, Explore, Modify,
Model, and Assess; en español,
disciplinas: de big data a Data Science Muestrear, Explorar,
• Herramientas de software de Minería de Modificar, Modelar y Evaluar.

Datos

Es importante que distinga las múltiples áreas en las que se aplica la minería de
datos y explicar la figura 8.1 “Proceso de descubrimiento del conocimiento”,
donde se resumen las cinco fases del proceso de descubrimiento del
conocimiento.

Se explican también los seis pasos del proceso de data mining, la metodología
CRISP-DM y las fases del proceso de minería de datos, el cual se resume en la
figura 8.2 Etapas del proceso de Minería de Datos CRISP-DM. Es importante
poner atención a este tema, ya que es la base fundamental para el desarrollo del
proyecto final del curso.

Una de las metodologías que se explican en este capítulo 8 es la SEMMA, y sobre


las cuales deben distinguir entre los modelos de minería de datos. Esta se resume
en la figura 8.5; es importante tener claras las etapas de este proceso, ya que,
además, se explican los dos modelos de minería de datos y los algoritmos de
aprendizaje, así como las relaciones de la minería de datos con otras ciencias (se
detalla en la figura 8.6). Estas otras ciencias se relacionan con la minería de datos.

Finalmente, el autor presenta una serie de herramientas de código abierto y


comerciales propietarias para realizar minería de datos, las cuales debe distinguir
con precisión para el proceso de minería.

26
El capítulo 9 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019)
desarrolla los siguientes temas:
• Minería de Textos
• Herramientas de la Minería de Textos
• Minería Web: conceptos, definiciones y categorías
• Arquitectura de la Minería Web
• Categorías de la Minería Web
• Minería Web de Contenido
• Minería Web de Estructura
• Minería Web de Uso SEO. Siglas en inglés de Search
• Herramientas de Minería Web Engine Optimization; en
español, Optimización en
• Motores de búsqueda (buscadores) Motores de Búsqueda.
SEM. Siglas en inglés de Search
• Posicionamiento SEO: Optimización de los
Engine Marketing; en español,
motores de búsqueda Mercadotecnia en Buscadores
Web.
• Posicionamiento SEM

Preste atención a lo que el autor explica sobre el concepto de minería de textos y


las herramientas para hacer este tipo de minería (de código abierto y de software
propietario), con el fin de distinguir conceptos relacionados con minería web y
las etapas de la minería web según dos autores; estas se resumen en las figuras
9.2. Etapas de la Minería Web4 de Etzioni y 9.3. Etapas de la Minería Web de
Kosala y Blockeel. En la figura 9.4, se explican las tres categorías de minería web
y la figura 9.5 detalla las tipologías de minería web.

Luego, se explica la minería web de contenido, de estructura y de uso, así como


las herramientas para desarrollar este tipo de minería, los motores de búsqueda
y sus dos opciones de posicionamiento; termina con el SEM, el cual es el
posicionamiento de pago que no responde a criterios orgánicos o naturales de los
buscadores, sino a la creación de campañas específicas que posicionan un
determinado sitio web.

En el capítulo 13 del libro Delivering Business Intelligence (Larson, 2009), es


relevante el concepto de minería de datos y las tareas realizadas mediante esta
minería: clasificación, regresión, segmentación, asociación. Seguidamente, se
explica los pasos para la minería de datos: definición del problema, preparación
de los datos, capacitación, validación, despliegue. También se detallan los
diferentes algoritmos de minería de datos de Microsoft (se especifica su función

27
y tareas en cada uno): árboles de decisión, algoritmo de Naïve Bayes,
agrupamiento, reglas de asociación, agrupación de secuencias, series de tiempo,
redes neuronales y algoritmo de regresión logística. Es importante ver las
características de cada herramienta y cómo, dependiendo de la empresa y el tipo
de minería, se podrían emplear con aplicaciones específicas.

El capítulo 14 del libro Delivering Business Intelligence (Larson, 2009) inicia con el
detalle de la estructura de minería de datos, la explicación del modelo el uso de
la columna de datos. Después, se explica cómo definir un modelo de minería de
datos con SQL Server. Finalmente, se presentan ventanas con los algoritmos
explicados en el capítulo 13 aplicando Microsoft. Asegúrese de prestar atención
a cada una y de abstraer los conceptos importantes que se mencionan.

Conclusión

A lo largo de la lectura de los capítulos asignados, se identificaron conceptos


relacionados con minería de datos, modelos y el proceso de exploración de la
información para la toma de decisiones de acuerdo con las normas de la
industria. Estas decisiones dependerán de las necesidades de la empresa y del
tipo de software que tengan para analizar la información; ya sea de código abierto
o licenciado. Por lo que, con un manejo adecuado de herramientas de minería de
datos, los analistas de datos podrán tomar decisiones acertadas, que permitan
mejorar las ganancias y aumentar la rentabilidad del negocio.

Se presentan las etapas y fases para desarrollar un adecuado modelo de minería


y diferentes herramientas con sus funciones y usos, estos le permitirán al
administrador de bases de datos determinar cuál software usaría en su empresa
en función de las necesidades del análisis de los datos, por eso, al aplicar la
minería de datos, textos y web con diferentes tipos de software, se podrá
determinar el futuro de la empresa.

Finalmente, con la explicación de la metodología CRISP-DM, se podrá


determinar la forma en la cual es posible desarrollar un proyecto de
implementación para una circunstancia específica en una empresa que necesite
aplicar minería de datos, ya que con esta se contempla el proceso de análisis de
datos como un proyecto profesional. Esto establece un contexto mucho más rico
que influye en la elaboración de los modelos, metodología que hoy las empresas
ponen en práctica cuando quieren mejorar su gestión informática.

28
Ejercicios de autoevaluación

Selección única
Con base en el estudio de la información facilitada, lea los enunciados y marque con una
X la letra que antecede a la respuesta correcta.

1. Lea el siguiente texto:


Es el proceso que utiliza técnicas matemáticas, estadísticas y de inteligencia
artificial para extraer datos, identificar información útil y conocimientos
posteriores en forma de patrones; los cuales pueden estar en diferentes formatos,
tales como reglas de negocio, afinidades, correlaciones, asociación, tendencias,
entre otros (Ropero, 2009).
La información anterior hace referencia al concepto de:
a) Big data
b) Data Warehouse
c) Minería de datos
d) Inteligencia de negocios

2. Lea el siguiente texto:


Proceso no trivial de identificar patrones válidos, novedosos, potencialmente
útiles y comprensibles a partir de los datos (Ropero, 2009).
La información anterior se refiere al concepto de:
a) Big data
b) Data Warehouse
c) Minería de datos
d) Descubrimiento de conocimiento en bases de datos

3. Considere la siguiente fase del proceso de descubrimiento del


conocimiento:
Es el tratamiento preliminar de los datos y generación de nuevas variables
a partir de las ya existentes, con una estructura apropiada de datos. Aquí se
hacen operaciones de normalización o agrupación, que los consolidan de la
forma necesaria para la siguiente fase (Ropero, 2009).

29
La información anterior hace referencia a la fase denominada:
a) Transformación
b) Minería de datos
c) Selección de datos
d) Interpretación y evaluación

4. Considere el siguiente paso del proceso de minería de datos:


Se buscan patrones de comportamiento en los valores de las variables del
problema o relaciones de asociación entre dichas variables.
El texto anterior se refiere al paso denominado
a) Transformación
b) Selección de datos
c) Análisis de los datos
d) Extracción de conocimiento

5. Considere la siguiente etapa del proceso de minería de datos según la


metodología SEMMA:
Selección de variables y transformación de la representación de variables. Se
preparan los datos para el análisis (transformación de variables, filtros a los datos
fuera de rango, agrupamiento, ruido).
El texto anterior hace referencia a la etapa denominada:
a) Modificación
b) Exploración
c) Modelado
d) Muestreo

6. Lea la siguiente información:


Describe los datos, además, se utiliza para predecir el valor de algún atributo
desconocido. Es decir, se emplean algunas variables para predecir valores
desconocidos de otras variables. Está orientado a estimar valores de salida.
El texto anterior hace referencia al modelo de minería de datos denominado:
a) Descriptivo
b) Predictivo
c) Clasificación
d) Regresión

30
7. Considere el siguiente concepto de minería de datos:
Se usa para predecir el valor de un atributo discreto, es decir, un atributo que
tiene uno de un número establecido de valores distintos.
El concepto anterior se refiere a la tarea denominada:
a) Descriptivo
b) Predictivo
c) Clasificación
d) Regresión

8. Lea el siguiente concepto


La entrada al proceso es una colección de archivos de datos no estructurados
o semiestructurados. Esta minería comienza con la recolección y
almacenamiento de fuentes de datos, su procesamiento y análisis para extraer
información relevante y conocimiento de los datos basados mediante técnicas
y herramientas de minería. Tiene gran aplicación en áreas donde existen o se
generan grandes cantidades de datos.
El concepto anterior hace referencia a la minería:
a) Web
b) Social
c) De datos
d) De textos

9. Considere las siguientes herramientas para hacer minería:


I. Clear Forest
II. Angoss Knowledge Miner
III. IBM SPSS
IV. GATE
V. WordStat
VI. LingPipe
De la lista anterior, ¿cuáles son herramientas de software propietario que se
utilizan para hacer minería de textos?
a) I, III y V.
b) II, IV y V.
c) III, IV y V.
d) IV, V y VI.

31
10. Lea el siguiente concepto:
Es el uso de técnicas de minería de datos aplicadas a la búsqueda, extracción y
evaluación automática de información para conseguir el descubrimiento del
conocimiento de los recursos como documentos y servicios (Ropero, 2009).
El concepto anterior hace referencia a la minería:
a) Web
b) Social
c) De datos
d) De textos

11. Lea el siguiente concepto:


Localización de los recursos de la web, que clasifico en documentos y servicios
desconocidos en la web.
El concepto anterior hace referencia a la subárea o etapa de la organización de la
arquitectura de la minería web denominada:
a) Extracción de la información
b) Descubrimiento de recursos
c) Selección de las fuentes
d) Generalización

12. Lea el siguiente concepto:


Análisis de los enlaces contenidos en las páginas web. Se intenta descubrir un
modelo a partir de la topología de los enlaces de la red. Este modelo puede ser
útil para clasificar o agrupar documentos.
El concepto anterior hace referencia a la minería web de:
a) Uso
b) Datos
c) Contenido
d) Estructura
13. Lea el siguiente concepto:
No responde a criterios orgánicos o naturales de los buscadores, sino a la creación
de campañas específicas de publicidad, que posicionan un determinado sitio
mediante el pago de una cantidad variable por parte del contratante en función
de un sistema, normalmente, de subastas.

32
El concepto anterior se refiere al posicionamiento:
a) Orgánico SEO
b) De pago SEM
c) SEO local
d) Web

Pareo
Con base en el estudio de la información facilitada, lea los enunciados y complete los
espacios con la letra que antecede la respuesta correcta.
1. Con base en la lectura del capítulo 14, relacione la estructura de minería
de datos de la izquierda con sus usos de la columna derecha.

Estructura Usos
( ) Columnas de entrada A. Es el identificador único para una
tabla o una dimensión. La clave
no se usa para identificar de
manera exclusiva registros o
miembros, y el algoritmo de
minería de datos no la emplea
para predecir valores.
( ) Ignorar B. Son utilizados por el algoritmo de
minería de datos al hacer una
predicción. Los valores de
entrada son los valores que
influyen en la predicción
realizada por el algoritmo.
( ) Solo pronóstico C. Esta columna también se puede
utilizar como columna de
entrada. Si la columna de datos A
y la columna de datos B son
ambas predicciones, la columna
de datos A servirá como entrada
cuando el algoritmo predice la
columna de datos B, y viceversa.
( ) Clave D. Es una columna de datos cuyo
valor está siendo predicho por el
algoritmo de minería de datos.
( ) Predicción E. El algoritmo de minería de datos
no utiliza esta columna de datos.

33
2. Con base en la lectura del capítulo 13, relacione los algoritmos de minería
de datos con su correspondiente tarea de la columna derecha. Se pueden
repetir letras.
Algoritmos Tarea
( ) Algoritmo de Naïve Bayes A. Regresión
( ) Algoritmo de regresión B. Clasificación
logística
( ) Algoritmo de reglas de C. Segmentación
asociación
( ) Algoritmo de regresión lineal D. Asociación
( ) Algoritmo de agrupamiento
( ) Algoritmos de series de
tiempo

Desarrollo

Con base en lo analizado en este tema, responda, de forma amplia, las siguientes
preguntas.

1. La minería de datos se puede aplicar en diferentes áreas. Presente dos


ejemplos de cómo se podría emplear en la medicina y la industria.

2. Existen otras aplicaciones de software de minería de textos de código


abierto como Google Cloud Platform. Explique en qué consiste esta API
(interfaz de programación de aplicaciones).

34
3. La minería web se ha convertido en una poderosa herramienta para hacer
negocios, pues la web es demasiado compleja, dinámica, no especifica un
dominio. Justifique por qué las empresas recurren a la minería web.

35
Respuesta a los ejercicios de autoevaluación

En esta sección, encontrará las respuestas a los ejercicios de autoevaluación. No obstante,


si considera que tiene dudas, converse con el tutor al respecto.

Selección única
Número
Respuesta
de pregunta
1 c Minería de datos
2 d Descubrimiento de conocimiento de bases de datos
3 a Transformación
4 d Extracción de conocimiento
5 a Modificación
6 b Predictivo
7 c Clasificación
8 d De textos
9 a I, III, V
10 a Web
11 b Descubrimiento de recursos
12 d Estructura
13 d De pago SEM

Pareo
Estructura
(B) Columnas de entrada
(E) Ignorar
Ejercicio 1
(D) Solo pronóstico
(A) Clave
(C) Predicción

Tarea
(B) Clasificación
(A) Regresión
Ejercicio 2 (D) Asociación
(A) Regresión
(C) Segmentación
(A) Regresión

36
Desarrollo
1. La respuesta debe contener la siguiente información, en sus propias
palabras:
La minería de datos en medicina es una de las aplicaciones más prácticas.
Algunas posibles respuestas podrían ser:
• Identificación de patrones novedosos para mejorar la supervivencia de
pacientes con cáncer.
• Predicción de tasas de éxito en trasplantes de órganos a pacientes para
desarrollar políticas de donantes/receptores en el tratamiento clínico.
• Genómica. Identificación de los diferentes genes del cromosoma humano.
• Selección de embriones en reproducción artificial.
• Genética. Estudio del ADN.
• Descubrimiento de las relaciones entre
síntomas y enfermedades, así como entre
ADN. Siglas para el ácido
enfermedades y tratamientos con éxito. desoxirribonucleico.

• Identificación de terapias para diferentes


enfermedades.
• Estudio de factores de riesgo en diferentes patologías.

En el sector industrial, son numerosas las aplicaciones y, también, la gran


cantidad de campos. Algunas posibles respuestas podrían ser:
• Fabricación y producción. Predecir fallos de máquinas antes de que
ocurran a través del uso de datos de sensores.
• Procesos industriales. Automatización del control de procesos:
optimización del rendimiento de forma adaptativa; implementación de
programas de mantenimiento predictivo.
• Control de calidad. Identificación de posibles causas de fallos, detección y
localización precoz de defectos industriales, detección precisa de
productos defectuosos, descubrimiento de
patrones noveles para identificar y mejorar la
calidad de los productos.
2. La respuesta debe incluir la siguiente información
en sus propias palabras: Para obtener más
información sobre la
Es una API de Google cada vez más utilizada por Google API, visite el
link que se le facilita
desarrolladores, que permite funcionalidades de bases de https://www.uned.cr/qr/
datos, almacenes de datos, aprendizaje automático y, en googleapi

37
general, aplicaciones de big data. Alguna de las aplicaciones más eficientes de
esta plataforma en minería de textos son análisis sintáctico de texto, análisis de
opiniones, análisis de texto en varios idiomas y clasificación de documento según
temas.

3. La respuesta debe abarcar la siguiente información en sus propias


palabras:
Las empresas recurren a la minería web para que les facilite conocer el
comportamiento de los clientes, evaluar la eficacia de un sitio web específico o
cuantificar el éxito de una campaña de mercadotecnia. Es un enfoque eficaz y
prometedor que se puede utilizar para mejorar la potencia de los buscadores. Por
ejemplo, servicios de Google como Google Trends y Google Insights for Search
rastrean la popularidad de las palabras y las frases utilizadas en las consultas de
búsqueda de Google para conocer cuáles son los términos de interés de los
usuarios, y cuáles son los productos que les interesa comprar en un sitio de
comercio electrónico. Esto puede ayudar a las empresas a innovar en productos
o servicios que deseen los clientes.

38
Tema III.
Inteligencia de negocios

Sumario
• ¿Qué aspectos influyen en la inteligencia de negocios?
• Conclusión
• Ejercicios de autoevaluación

Objetivos de aprendizaje
Objetivo general
Describir los elementos y estructuras del modelo de inteligencia de negocios para
dar respuesta a las necesidades del entorno laboral en relación con el manejo
adecuado de la información.

Objetivos específicos
• Definir los aspectos relacionados con el cuadro de mando integral.
• Señalar los sistemas de soporte a las decisiones.
• Identificar los elementos que conforman un sistema de información
ejecutiva.
• Determinar los factores necesarios para la implementación de Data Mart
y Data Warehouse.
Cuadr ant e War ehouseDat a necesar ia per sonas
cont ienen War ehousePr ocesam ient o Cor por at e det ect ar

consider a act ualizado Anót elas

conf igur a r esponsables agr egaciones

t r ansf or m ar la
Hadoop esquem at iza
post er ior m ent e alim ent ación com pr ender

t r adicionales matemáticas Analyt icsBig com pr obada

respecto incluyendo KnoledgeM iner í a

Analyt icsCiencia diferentes com pet encias


O f f icer Analist a

representan
descubr im ient o
siguiente responden

Warehouse
t r ansaccionales
objetivos

estas Luis
Existen
presentan p. 6

cont enidos
ot r a

conjunto am p

analítica
Capa lago visualizándolos

minería Conceptos
procesos
Respuesta
jer ár quica r ecom endaciones

diferencia est r at egias

lea aislam ient o cuar t iles

capítulos
Joyanes
int er f aces alm acenados Descr ibir
est r at égica necesidad

Analyt icsEn det allada

organización
proceso
importancia compartir det ección diseñado

información
fundamentales estructura almacenan Sankey
Además
War ehousePr oveedor es Aquí Conclusión

define
Com unicación posibles

aquí bases grandes Alm acenam ient o em pleada

variedad
tomar archivos
alt o t odos Adm inist r ación dif icult ades oper ación Pr egunt a

TI C
soluciones
herramienta realizar detenimiento
Apareamiento paralelo
dir ect am ent e

M ult idem sional

dist r ibuidas
consider ar

cont em plan

desem peñar
Enf at ice

ent ender

predictiva f acilit ado


luego est r uct ur ar pr ecisión

Finalmente
explican
elementos
enfoque
dist r ibuidos alm acenen

exper iencia

calidad
disciplina est adí st icos

importantes móvil ingeniero


cuadros aprendizaje gobierno
sistemas
factores desarrollo r ol

accesibles
técnicas pasado especí f icas

página
const ancia
Selección

Mapas
Intelligence resaltar

ver sa
relevante
Objetivos principales
presente ést os

lugar respecta
estudio grupos ar quit ect o

reducción
Datos
Este
logr o data
ideas
marco
real ot r os f uer a

analizar
sistema
pieza

ayudan analista
papel

gráfico
clara
entorno habilidadesrelacionados cosas

definiciones cuanto
contar
temas

datos
gráfica negocio
tablas
arquitectura
Cuadro
estos
capas
0
gent e decir

explica

Big
ejercicios

leer analítico
lotes existen

cabe
Batch básicos
esto
tipomodelo
son
anterior

negocios
basan cinco

definición alta est ar

Ciencia encuentra versus


f echa

través

tipos
est án

beneficios serie mencionan ciencia aplicaciones Herramientas nube


vida
cost o

visual
históricos medio
ciclo let r a

partir
avanzada cómo
secciones línea lectura

decisiones
Esto f inal

consta
más
realiza
estadísticas cuadro f ijos f lujo

pueda especif ican

resume
Ciclo

análisis
plena solos t ar ea

autoevaluación

conocimiento
anteriores Desarrollo Tema f acilit ar án

única
clave

conceptos
f ácil
extracción medidores externos
ventaja Lake
r oles

Arquitectura gerencial
deben act ualidad def iniendo

transformación
Bussiness
posee

explicando

gestióndesarrollan
Warehouses
Ejer cicios Gantt
Cuadros

productos t r at a
almacenar
cuales
características
muestra
gráficos
guí a G uí a

diferencias

visualización referencia
volúmenes almacén integración
ident if ique

im plem ent ación

desempeño est r at égicas

Analytics
Vale Load único Repr esent ación

Marts servicios infraestructura signif icat ivos

estructurados
él
Consiste
com por t am ient os

importante
r ecom endada
páginas est ablecer

com ponent e rendimiento t ales t al diagr am as

Herrera
presenta acciones Definición
jer ar quí a dist r ibuido Pr edict iva desact ualizados especí f icos seis r ecopilar

4. Todas
anidados

det alles

dest aque
plat af or m as

color eando

colocando
ETL necesario
usual

Capítulo
transformar
enunciados exponencial
discover y

profesionales visualizar
tecnologías
concisa SankeySe adelant e r elacionadas Ent er pr ise especial

conocen 2. Todas dependen semiestructurados f inalm ent e explor ar

Com par e r esum ida adecuado


propiedades usuarios discr et os f or m at os

aplicar per m it en Pr ocesam ient o


volumen f acilit ada War ehouseHer r am ient as disper sos gr af ican

central
colum na r elación Ar quit ect o adm inist r ador es

informes problemas f undam ent al r ef er ent e pr ocesar

analyticsreportes
color es r egiones capí t uloy r ecom endable I dent if icar r ef lexiva pr oducir

aplican Per m it en izquier da Disciplinas inf ogr af í as t axonom í a

1. Todas delegado pr ogr am ación car t ogr am as Docum ent a

inteligencia
af ect ar pat r ones dif er encian com put ador a ejecut iva im pulsar

representación
prestar inicia
ut ilzan def inido t r adicional m ult idim ensional im plant ación f uncionado inf luyen

solución I ngenier o descr ipt iva big OLAP ant er ior m ent e r ect ángulos asignado
act ivos adecuada opor t unidad
competitiva ar quit ect ur as r edundant es business

sof t war e cont iene t er m inación opor t unidades pena dat o


visuales otras I I I . I nt eligencia Ref er encias capt ur ar

ser vidor conocida asegúr ese Pr escr ipt iva pr epar ados int egr al

opor t una gener ales descr ipción ejecut ivo int egr an

14. Todas oper aciones I nf or m ación t om ador es

Tecnologí as r eposit or io Ciencias

Tr ansm it en pr ocesados

tabla seguridad
Posteriormente
agr upar lo oper acionales ser á M ás consist ent e em pleados

pr escr ipt iva Integral cent r alizadas r espuest as

III r ealizar lo

necesar ios
Cartogramas
rápidas
soporte
Analyt icsAnalí t ica

administración
ver

clasif icación
pr ot ección
Performance mejores const it uyen

individuales Recuper ado

consist encias r epr esent ar


m et odologí as inconsist encia I nt egr ación Tr ansf or m

gener ados dependient e


objetivo cor por at ivo esper ados I nt er net

evolución debidam ent e int er act ivas Relacional m ét r icas

ht t ps: / / www. gest iopolis. com / int eligencia- en- los- negocios- concept os- f undam ent raleal
esizan

opciones Tendencias dat awar ehouse Sim plif ican cim ient o

obt ienen evident es I nt r oducción r epr esent a O bjet ivo

univer sal cr ecim ient o M ar t M ar co Recopila aum ent o

Conjunt o m et odologí a obser var 7. Todas cont r ol

39
¿Qué aspectos influyen en la inteligencia de negocios?

El mundo empresarial tiene como cimiento la toma de decisiones estratégicas


para generar rentabilidad. Lo que marca la diferencia entre una empresa exitosa
y una que no lo es, se encuentra en la oportuna y correcta toma de decisiones con
las herramientas adecuadas que usa la primera. Para realizarlo, es esencial contar
con la información adecuada y a tiempo para el soporte de toda la gestión de las
operaciones de la empresa de forma ágil y rápida (García, 2019).

Las TIC tienen un papel importante al facilitar la


recolección, almacenamiento y procesamiento de
datos, generados a partir de la operación de una
TIC. Siglas para tecnologías de
empresa. Esto es posible a través de herramientas la información y comunicación.
que permiten recopilar y crear información
relevante, clara y concisa.

Es necesario contar con información que se pueda manejar e interpretar. Para


esto, existen herramientas muy útiles como la inteligencia de negocios, también
llamada por su nombre en inglés, Business Intelligence, las cuales ocupan el
desarrollo de este tema de estudio.

Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema III. Para empezar, lea esta guía de estudio
y luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.

Libro de texto Nombre del capítulo


Número de páginas
o recurso de lectura y sección
Capítulo 1.
1-49
Todas las secciones.
Capítulo 2.
53-93
Joyanes Aguilar, L. (2019). Todas las secciones.
Inteligencia de negocios y Capítulo 4.
135-186
analítica de datos. Bogotá, Todas las secciones.
Colombia: ALFAOMEGA. Capítulo 7.
191-221
Todas las secciones.
Capítulo 14.
417-441
Todas las secciones.

40
Desarrollo temático
Esta sección se estructura con base en el orden de la lectura recomendada
anteriormente. Por esto, estudiaremos capítulo por capítulo, con especial énfasis
en aquellas partes que le facilitarán comprender el texto.

En el capítulo 1 del libro Inteligencia de negocios y analítica de datos, se desarrollan


los siguientes temas:
• Inteligencia de negocios: historia, definiciones y conceptos
• Business Intelligence; Business Analytics y big data: los tres pilares de la
inteligencia empresarial
• Arquitectura de un sistema de inteligencia de negocios
• Introducción a big data y su impacto en la inteligencia de negocios
• Arquitectura de inteligencia de negocios con integración de big data
• Visión gerencial de inteligencia de negocios
• Analítica de negocios (Business Analytics)
• Inteligencia de negocios en big data
• Inteligencia de negocios móvil
• Inteligencia de negocios en la nube
• Proveedores de inteligencia de negocios: cuadrante mágico de Gartner de
Bl & Analytics
• Inteligencia de negocios futura: integración de big data, internet de las
cosas e inteligencia artificial
• La evolución hacia la inteligencia de negocios en la nube

Es importante tener claro el concepto de inteligencia de negocios que se presenta


a lo largo de la lectura. De forma resumida, se define como “el proceso de
convertir datos en conocimiento y conocimiento en acciones para crear la ventaja
competitiva del negocio” (Joyanes, 2019, p. 6).

También se presentan los conceptos de los tres pilares de la inteligencia


empresarial: inteligencia de negocios, Bussiness Analytics y big data, las cuales son
disciplinas que se integran en beneficio de la toma de decisiones en las empresas.
Anótelas y téngalas presente durante su estudio.

Es importante prestar atención a la figura 1.1 (página 10), en la que se


esquematiza la arquitectura de inteligencia de negocios de cinco capas. Aquí se
tiene en cuenta el valor y calidad de los datos, así como del flujo de información
del sistema.

41
Con respecto a las capas que se mencionan, se brindan las siguientes
recomendaciones sobre las tres más importantes:
• Una de las capas sobre la cual se debe prestar
atención es la capa ETL, ya que se centra en
tres procesos fundamentales que se grafican
ETL. Siglas en inglés de Extract,
en las figuras 1.2 y 1.3 de las páginas 13 y 14. Transform y Load; en español,
• En cuanto a la capa de almacenamiento de extraer, transformar y cargar.

datos, consta de tres componentes: almacén


de datos, Data Warehouse y Data Marts. Este proceso se presenta en la
figura 1.4 de la página 14.
• La capa de metadatos describe dónde se utilizan y almacenan los datos,
las fuentes de datos, los cambios que se realizan y cómo una pieza de datos
se refiere a otra información; este proceso se grafica en la figura 1.5 de la
página 17.

Es importante prestar atención a cada una de las etapas del ETL, para tomar una
serie de datos que se generen por una empresa y sea capaz de extraer la
información relevante. Esto con el propósito de transformarla con alguna
herramienta de análisis de datos y finalmente cargar los resultados para la toma
de decisiones por parte de los administradores.

En lo que respecta a la definición de big data, se deben tener presentes las 3 V


(volumen, velocidad y variedad) que conforman el modelo. Este concepto cuenta
con tres tipos de datos: estructurados, semiestructurados y no estructurados.
Para recolectar los datos, estos se dividen en dos grupos: batch o lotes y streaming
o transformación en tiempo real. En materia de grandes volúmenes de datos, se
trabaja con Hadoop, que es un marco de trabajo creado, diseñado y actualizado
para facilitar el procesamiento distribuido y paralelo de grandes volúmenes de
datos.

Más adelante, el autor presenta una visión gerencial de la inteligencia de negocios


de la aplicación de metodologías, como la Turban. Esta considera que un sistema
de inteligencia de negocios posee cuatro componentes y su proceso se resume en
la figura 1.7 de la página 29. La metodología Laudon consta de seis componentes
del entorno de inteligencia de negocios; este proceso se resume en la figura 1.8
de la página 30. Compare, de forma reflexiva, ambos procesos.

42
Posteriormente, se define el concepto de analítica de negocios como “un conjunto
de técnicas y herramientas de software utilizadas para analizar los datos
debidamente preparados y producir informes.” (Joyanes, 2019, p. 31).

Para realizar la analítica de negocios, se aplican tecnologías tales como informes


(reportes) y consultas (reports y queries), y minería de datos, minería web y
minería de texto, así como otras herramientas matemáticas y estadísticas
específicas.

Para definir el concepto de cuadro de mando


integral, el autor inicia explicando los conceptos de
administración del rendimiento gerencial o BPM y
BPM. Siglas en inglés de
administración del desempeño corporativo o CPM. Business Performance
Management; en español,
Posteriormente, la figura 1.9 de la página 34 explica administración del
una plataforma de analítica en una infraestructura rendimiento gerencial.
CPM. Siglas en inglés de
de inteligencia de negocios que le será de ayuda Corporate Performance
para comprender el concepto. Management; en español,
administración del desempeño
Respecto a una solución de big data, cabe resaltar corporativo.

que un sistema de inteligencia de negocios tradicional que se diferencia por


aspectos como los entornos big data y que los datos se almacenan en un sistema
de archivos distribuidos, en lugar de en un servidor central. Entre tanto, en
inteligencia de negocios, las funciones de procesamiento remiten los datos en
lugar de que los datos dirijan las funciones. Big data analiza datos en diferentes
formatos, los datos procesados por este medio pueden ser en tiempo real o
tradicionales fuera de línea, y las tecnologías de big data recurren a sistemas de
procesamiento paralelo masivo.

Finalmente, en el capítulo se explica la inteligencia de negocios móvil y algunas


soluciones, así como la inteligencia de negocios en la nube y las ventajas de
usarla. Asegúrese de diferenciarlos.

En el capítulo 2 del libro de Joyanes (2019), se desarrollan los temas que se


enlistan a continuación, no obstante, el Caso de Estudios no será desarrollado:
• Conceptos básicos de analítica de negocios
• Business Analytics versus Data Analytics
• Analítica avanzada (AA)
• Organización, tipos y fuentes de datos
• Ciclo de vida de los datos

43
• Analítica de datos: conceptos y tipos
• Big data Analytics
• Ciencia de datos
• Tendencias de Analytics

En este capítulo, se debe leer con detenimiento el concepto de analítica de


negocios, aquí se aclara que es un componente fundamental de la inteligencia de
negocios. También, que este conjunto de técnicas y herramientas ayudan a los
tomadores de decisiones, a nivel empresarial, a evaluar opciones y decidir por
dónde llevar la línea del negocio.

Se compara con claridad una analítica de negocios y una analítica de datos.


Además, se indica cómo los usuarios finales del negocio pueden trabajar con
datos e información usando variedad de herramientas y técnicas, entre estas:
reportes y consultas; minería de datos, web, de textos, y cuadros de mando. Se
mencionan herramientas de analítica de datos que contemplan modelos y
minería de datos, OLAP, herramientas de reportes e informes de consultas y
analítica de big data. Observe esta comparación y al uso que se le da a las
herramientas según cada tipo de analítica empleada.

Es importante, prestar atención a los conceptos básicos que se mencionan sobre


qué es un analista de datos, un analista de negocios, data analytics,
descubrimiento de datos, analytics, business analytics, visual analytics, analítica
de datos, inteligencia de negocios, analítica de negocios y analítica avanzada.

En lo que respecta a los tipos de datos, debe tener en cuenta que el autor define
tres tipos: los estructurados que tienen campos fijos, los no estructurados, que no
los tienen, y los semiestructurados que contienen propiedades de los
estructurados y los sin estructurar. Es recomendable revisar la tabla 2.1 sobre la
taxonomía de datos y propiedades.

El ciclo de vida de los datos, en un sistema de inteligencia de negocios, es similar


al de los sistemas de información. Un sistema de gestión de datos tiene las
siguientes etapas:
• Recolección de datos, se deben tomar en cuenta las herramientas por lotes
o batch y en tiempo real o streaming.
• Almacenamiento donde se especifican los componentes y conceptos
implicados en este.
• Procesamiento y análisis de datos.

44
• Visualización de datos.

En el tema de analítica de datos, es necesario considerar que es una técnica


consistente en capturar, procesar y analizar los datos para predecir la toma de
decisiones. Existen tres técnicas usadas para elaborar este tipo de analítica:
• Descriptiva. Consiste en almacenar y realizar agregaciones de datos
históricos, visualizándolos de forma que ayudan a la comprensión del
negocio.
• Predictiva. Consiste en aplicar técnicas matemáticas y estadísticas para
predecir datos.
• Prescriptiva. Recopila información del negocio y la integra, tomando en
cuenta los resultados y beneficios esperados.

Finalmente, es importante tener clara la figura 2.6 sobre los beneficios de la


analítica de big data, en la que se resumen estos: reducción de costos, toma más
rápida de mejores decisiones, y nuevos productos o servicios. Entre algunas
tecnologías de analítica de big data, están: gestión, minería de datos, Hadoop,
analítica en memoria y predictiva, minería de textos.

En el capítulo 4 del libro Inteligencia de negocios y analítica de datos, se desarrollan


los siguientes temas:
• Datos: gestión, gobierno, calidad e integridad
• Administración de archivos
• Bases de datos
• Data Warehouse
• Data mart
• Marco de trabajo (framework) de un sistema de almacenamiento de datos
• Metadatos, calidad y gobierno de una Data Warehouse
• Herramientas ETL
• Desarrollo de un sistema de Data Warehouse
• Enfoques de desarrollo de un sistema de Data Warehouse
• Procesamiento analítico en línea
• Lagos de datos (Data lake)
• Data Lake versus Data Warehouse
• Proveedores de soluciones de Data Warehouse

En este capítulo, se debe leer con atención el concepto de datos, se definen como
uno de los activos estratégicos más importantes de la organización y elementos

45
discretos sin valor por sí solos. Otro concepto es la gestión de datos, el cual versa
sobre la necesidad del almacenamiento de información de la empresa en bases
de datos para luego estar accesibles para toma de decisiones por medio de Data
Warehouses; su objetivo es proporcionar la infraestructura y herramientas para
transformar datos en bruto a información usable de alta calidad. El proceso de
gestión de los datos se resume en la figura 4.1 del ciclo de vida de los datos,
observe sus detalles.

Lea con detenimiento las dificultades de la gestión que explica el autor y que
podemos resumir en el aumento exponencial de datos que están dispersos en la
organización, se obtienen de múltiples fuentes, se degradan con el tiempo y
dependen del soporte donde se almacenen. Se debe tomar en cuenta la calidad,
seguridad e integridad de los datos, y estos pueden ser redundantes o
desactualizados.

El tema de gobierno de los datos es un enfoque para gestionar la información y


es una de las mayores áreas de oportunidades de las organizaciones. Se define
como una serie de políticas, procedimientos y gente necesaria para establecer un
marco de consistencias de datos dentro de la organización.

Para administrar los archivos, es prudente observar y entender la figura 4.2, en


esta se organiza la jerarquía de los datos de una computadora. Además, se deben
tener claros los problemas en la gestión de archivos: redundancia, aislamiento,
inconsistencia y seguridad de los datos. Preste atención a las definiciones que el
autor hace de base de datos y los tipos (centralizadas y distribuidas).

Para el tema de Data Warehouses, se debe tener claro el concepto y como se


distinguen de las Data Marts, sus características y componentes. Enfatice en las
diferencias que hace el autor al agruparlo en tres categorías: datos externos,
internos y personales.

Para el tema de calidad de los datos en un almacén de datos, tenga presentes los
factores que pueden afectar su calidad, a saber: precisión, completitud,
constancia, oportunidad, no redundancia, significativos y accesibles. También es
necesario tener claras las herramientas ETL que apoyan al proceso de Data
Warehouse.

Acerca del tema de procesamiento analítico (OLAP), el autor explica que es una
aplicación conocida de análisis multidimensional. Se presentan algunas
características de estos sistemas, de los cuales se resaltan los siguientes: permite

46
visualizar los mismos datos en diferentes sitios, respuestas rápidas, alto nivel de
detalle y los elementos de control. Posteriormente, se explican los tres grupos de
OLAP: MOLAP (multidimensional), ROLAP (relacional) y HOLAP (híbrida). Lea
con detenimiento el resumen de cada uno, en la tabla 4.1 de la página 172.

En el lago de datos (Data Lake), se debe tener presente que es un repositorio de


almacenamiento que contiene muchos datos en bruto en su formato original,
incluyendo datos estructurados, semiestructurados y no estructurados; es un
depósito masivo de fácil acceso para almacenar big data. El autor presenta un
cuadro comparativo entre el Data Warehouse y el Data Lake en la tabla 4.2, al
que debe prestarle mucha atención, así como a las principales diferencias entre
ambos.

En el capítulo 7, se desarrollan los siguientes temas:


• Conceptos generales de visualización de datos
• Gráficos
• Tipos de gráficos
• Mapas
• Infografías
• Informes y consultas
• Cuadros de mando
• Narrativa de datos
• Cuadro de mando integral
• Herramientas de visualización de datos

Inicia con la descripción de algunos conceptos, de ellos se resalta el de


visualización de datos. Luego se definen y ejemplifican algunos tipos de mapas,
entre ellos destaque: cartogramas, mapas de calor, diagrama de Sankey,
Diagrama de Gantt, Mapas de árbol, infografías.

Con respecto a los informes y consultas, se debe tener claro el concepto de


informes o reportes y los tipos de informes. Además, referente al tema de cuadros
de mando, preste atención al concepto, características, clasificación, componentes
y aplicaciones. Sobre la narrativa de datos, lea con detenimiento la definición de
esta.

En el capítulo 14 del libro Inteligencia de negocios y analítica de datos, se desarrollan


los siguientes temas:
• Definición de ciencia de datos

47
• Disciplinas de ciencias de datos
• El proceso de ciencia de datos
• El científico de datos
• El perfil del científico de datos
• Herramientas de programación para ciencia de datos
• Roles profesionales relacionados con datos
• Ciencia de datos en la inteligencia de negocios

El autor inicia definiendo el concepto de ciencia de datos, posteriormente explica


cuáles son las tres actividades y competencias que debe ser capaz de desempeñar
un científico de datos, a saber: habilidades informáticas de hacking, dominio de
las matemáticas y estadística, y experiencia comprobada en el entorno. Preste
atención a cada una de ellas e identifique su importancia.

Considere la figura 14.2 sobre las disciplinas de ciencia de datos y la figura 14.7
en la que se explican las etapas de un proceso de datos. Finalmente, lea con
detenimiento acerca de las plataformas de ciencia de datos (SQL, R, Python,
Knime y Weka).

En cuanto a los papeles o roles, asegúrese de tener claros los diferentes tipos que
existen en el mercado: analista de datos, ingeniero de datos, arquitecto de datos,
científico datos, ingeniero de visualización, director de datos y delegado de
protección de datos.

Conclusión

El cuadro de mando integral es una herramienta de apoyo a la gestión de la toma


de decisiones de directivos y profesionales. Su objetivo es ayudar a conseguir los
objetivos de la inteligencia y de la analítica de negocio, es decir, transformar los
datos en información, y la información en conocimiento. Además, el
conocimiento debe facilitar la toma de decisiones a los empleados.

La mayoría de los cuadros de mando se basan en una serie de gráficos, tablas,


medidores u otros indicadores visuales que el usuario ha seleccionado para
supervisar y sus indicadores pueden ser de importancia operativa o estratégica.

Los sistemas de soporte a las decisiones son aquellos que se basan en Business
Analytics y que permiten, a través de la Data Analytics, tomar decisiones de
analítica avanzada y de herramientas de big data que buscan reducir costos, toma

48
más rápida de mejores decisiones, y nuevos productos o servicios. La mayoría de
las aplicaciones de una empresa, en un sistema de información, organiza los
datos en una estructura jerárquica de información.

La alimentación de datos a Data Warehouse se puede agrupar en tres grandes


categorías: datos internos, datos externos y datos personales. Los datos internos
almacenados en la mayoría de las bases de datos se conocen como sistemas
transaccionales o sistemas operacionales, y constituyen la espina dorsal de un
sistema de información de empresa.

Existen diferentes arquitecturas para el


almacenamiento de datos que ayudan en la toma
de decisiones. La arquitectura más usual es una
EDW. Siglas en inglés de
Data Warehouse central de empresa (EDW). Se Enterprise Data Warehouse; en
configura como una plataforma central para cada español, almacén de datos
empresarial.
organización sin uso de Data Mart. Este es el
enfoque de la mayoría de las organizaciones; en esta arquitectura, los datos del
Data Warehouse son accesibles por todos los usuarios. La de Data Marts
independientes se usa cuando el costo de la implantación de una única Data
Warehouse no es asumido por la empresa o porque así lo consideran sus
directivos o responsables de los sistemas de información.

Ejercicios de autoevaluación

Para esta sección, se usan fragmentos totales o parciales del libro de texto
facilitado (Joyanes, 2019) con el propósito de no interferir con el espíritu de lo
señalado en el desarrollo teórico del autor.

Selección única
Con base en el estudio de la información facilitada, lea los enunciados y marque con una
X la letra que antecede a la respuesta correcta.

1. Lea el siguiente enunciado:


Hace referencia al proceso de convertir datos en conocimiento, este conocimiento
en acciones, con el fin de crear una ventaja competitiva para el negocio.
El concepto anterior corresponde a:
a) Inteligencia de negocios
b) Analítica de negocios

49
c) Bussiness Analytics
d) Big data

2. Lea el siguiente texto:


Conjunto de estrategias, tecnologías y sistemas que propician el análisis del
rendimiento de una organización en el pasado, de forma que permita predecir
comportamientos futuros, y también detectar patrones ocultos de la información.
El concepto anterior hace referencia a:
a) Inteligencia de negocios
b) Analítica de negocios
c) Bussiness Analytics
d) Big data

3. Lea el siguiente texto:


Ciencia de razonamiento analítico facilitado por interfaces visuales interactivas.
Para las organizaciones, el beneficio de las herramientas de este tipo es poder
compartir el conocimiento con la alta administración.
El concepto anterior se refiere a:
a) Data analytics
b) Data discovery
c) Visual analytics
d) Bussiness analytics

4. Lea el siguiente texto:


La analítica de datos reside en el almacenamiento y la agregación de datos
históricos, de forma tal que los visualiza para facilitar la comprensión del estado
actual y pasado de la empresa. Documenta y muestra cómo ha funcionado la
empresa desde el histórico hasta la actualidad.
El concepto anterior hace referencia a analítica de datos de tipo:
a) descriptiva
b) predictiva
c) prescriptiva

50
5. Lea el siguiente texto:
Es una disciplina que se encarga de la extracción de conocimiento a partir de los
datos y que se encuentra en plena expansión. Se enmarca en las habilidades
relacionadas con la extracción del conocimiento de datos.
El concepto anterior se refiere a:
a) Knowledge
b) Minería de datos
c) Ciencia de datos
d) Aprendizaje automático

6. Lea las siguientes características:


• Permiten ver cosas que antes no eran evidentes.
• Transmiten información de manera universal.
• Simplifican la tarea de compartir ideas con otras personas.
• Trata de explorar y analizar los datos de una forma visual y rápido.
Las características anteriores responden al concepto de:
a) Visualización de datos
b) Análisis de datos
c) Analítica visual
d) Big data

7. Lea las siguientes características:


• Herramienta de inteligencia de negocios que muestra gráficos, diagramas,
tablas de métricas o de indicadores clave de rendimiento en una pantalla
única.
• Es una representación gráfica de los principales indicadores clave o
medidores de desempeño.
• Sirven para analizar los datos y detectar los posibles problemas de un
negocio.
• Permiten el análisis visual de la información de la empresa.
Las características anteriores responden al concepto:
a) Cuadros de mando
b) Infografías
c) Gráficos
d) Mapas

51
8. Lea el siguiente texto:
Es un cargo dependiente del máximo ejecutivo de la empresa, a quien reporta
directamente. Su misión es impulsar el crecimiento de la organización o empresa
mediante la transformación digital de esta.
El texto anterior hace referencia al papel o rol de:
a) Ingeniero de visualización
b) Arquitecto de big data
c) Chief Data Officer
d) Analista de datos

Pareo
Con base en la lectura de este tema, relacione los conceptos de la izquierda con las
definiciones de la columna derecha.
Conceptos Definición
( ) Diagrama de Sankey A. Se presentan datos estadísticos por
regiones, colocando un número o
coloreando las diferentes zonas en
función del dato que representa.
( ) Diagrama de caja B. Representación gráfica de los datos,
donde los valores individuales
contenidos en una matriz se
representan como colores.
( ) Infografías C. Diagrama de flujos antiguo donde las
flechas representan el volumen.
( ) Diagrama de Gantt D. Método para la visualización de datos
jerárquicos mediante el uso de
rectángulos anidados.
( ) Cartogramas E. Es un gráfico que ilustra la fecha de
inicio y terminación de los elementos
de un proyecto.
( ) Mapas de árbol F. Utiliza cuartiles para representar un
grupo de datos en forma de gráfico.
( ) Mapas de calor G. Mezcla de información y gráficos y una
representación visual de una página
que trata de mostrar los datos.

52
Respuesta a los ejercicios de autoevaluación

En esta sección, encontrará las respuestas a los ejercicios de autoevaluación. No obstante,


si considera que tiene dudas, converse con el tutor al respecto.

Selección única
Número de Respuesta
pregunta

1 a Inteligencia de negocios

2 c Bussiness analytics

3 c Visual analytics

4 a Descriptiva

5 c Ciencia de datos

6 a Visualización de factores

7 a Cuadros de mando

8 c Chief Data Officer

Pareo
Conceptos

(C) Diagrama de Sankey

(F) Diagrama de caja

(G) Infografías

(E) Diagrama de Gantt

(A) Cartogramas

(D) Mapas de árbol

(B) Mapas de calor

53
Tema IV.
Big data

Sumario
• ¿Qué es big data?
• Conclusiones
• Ejercicios de autoevaluación

Objetivos de aprendizaje
Objetivo general

Diseñar una propuesta de manejo de datos utilizando las herramientas necesarias


para la toma de decisiones por parte del administrador de bases de datos.

Objetivos específicos

• Identificar los conceptos relacionados con big data.


• Describir las características de la plataforma de código abierto Hadoop.
• Determinar los elementos de un mercado de grandes datos.
• Elaborar una propuesta de mejora empresarial relacionada con el uso de
los mercados de datos (ver indicaciones específicas en la plataforma
Moodle).
ta re a Pro y e c to to d o s c o m e n ta
Co n fo rm e fo rm a to s tra d u c i r c onoc er
d i s ti n to s p e rm i ti d o re fo rz a r Ag u i l a r
c o n v e rti r c a te g o ría s e rv i c i o s ex am inar s o ftwa re
p o s i b i l i ta i n te rv a l o p re te n d e n e j e c u ta n p e rm i ti r a g re g a n Ca re c e n
regres ión c o n v i e rta d i g i ta l e s tra n s i ta n ex plic ar re l a ti v a a g ru p a n
o rd e n p l a n i fi c a d o i n v e rs i ó n p ri n c i p a l c o l u m n a s In c l u y e n p ro c e s a n Va ri e d a d
Des arrollo
m a rc o Ed i to ri a l 1 0 .To d a s e s tu d i a n So c i a l e s a u m e n ta
proy ec tos
c l ú s te re s Da h s b o a rd e j e c u c i ó n re q u i e re n c re a c i ó n i n te rn o s p ro d u c e n 5 .To d a s
Empres arial momento Re fl e x i o n e fra m e wo rk ac c iones em pleada re s p o n d a
Bu s s i n e s s c o m i e n z adoc
n umentar An a l y ti c s p o s te ri o r a n te c e d e HCa ta l o g p e rm i ta n u b íq u e s e

im plic a
Cassandraintegración p e rs p e c ti v a
p l a ta fo rm a s
c ualquier re s p u e s ta
fu n c i o n e s a d e l a n te
Ej e m p l o s
i n m e rs a s
p ro p o n e n
te m á ti c o
prác tic as Se l e c c i ó n a l c a n z a r e s tu d i a r m e rc a d o s p ú b l i c o s
tratamiento interac ción ex pues to Te c n o l o g ía s In v o l u c ra p ro p i e d a d a p re c i a r m e n c i o n a

características
Po s e e n nav egac ión o tra s em oc iones v inc ulada e tc é te ra Ob j e ti v o
re l a c i o n a d a Chuk wa
e s p e c ífi c o p re g ú n te s e e n c o n tra r p re s e n te s a s o c i a d o e x te rn a s
Es ta s De s c ri b i r Si g u i e n d o El a b o ra r
nuev os c omprens ión Bi o m e tría niv el tratan re fl e x i o n e g e s ti o n a r a m b i e n te e x a m i n a n
re g i s tra n am pliado
e s c a l a b l e re q u e ri rá c o m p l e to
a p l i c a d a s n e c e s a ri a te l é fo n o s
d e te c c i ó n re c o l e c ta b ri n d a d o

volumen
p ro c e d e rá n i n d u s tri a wa re h o u s e
pres enc ia

siguiente
c o m p o n e n te s v a ri a r In fo rm a c i ó n m edir p ro v i s i o n a r b e n e fi c i o

d i fe re n te s fl o re c i m i e n to
to l e ra n c i a
Negocios Predic tiv a
c antidad
dis eñadas
c a p ítu l o y p a rti e n d o
des c ubrir re s u l ta d o
Perez p ri m e ra m e n te
ex pos ic ión
propues ta
dis c iplina etiquetas
entender a d a p ta rs e e n fre n ta n

inteligenc ia Ex plique

decisiones ligada tec nologías c o n o c i d a s m enc ionado

forma
alm ac enada s i m p l i fi c a
Objetiv os s ac ar

código
a g ru p a c i o n e s pos ibilidades Se n ti m i e n to s c o m p e ti ti v a m o n i to re a r
a rq u i te c tu ra s iz quierda
mejor
términos diferenciar IBM ex traídos
modelado
Web Di s c i p l i n a L i b ro utiliz ada
Es tos s oporte Internet Rec olec ción
nec es idad
re l a c i o n e s e s tá n nec es idades
es tas utiliz an tradic ional
generar
a g i l e s Arq u i te c tu ra
permiten s e n ti m i e n to
HBase

analítica
m e to d o l o g ía Ec o s i s te m a

tales
aplicaciones humanas

grandes
c o n v e rti rs e v olum inos a v u e l to
v ideo c om unic ac ión ex is ten l e tra automátic o
embargo
div ers as deben
tema
tipos
d e fi n i r s e c to r te n i d o
Prescriptiva Finalmente
e n v ía n re c o m e n d a dtra
a v és o ri g e n

archivos almacenamiento

datos
modelo visualización
dim ens iones alm ac enar

procesamiento empresas
He rra m i e n ta s

arquitectura trans formac iones Oozie


d e s a rro l l a d o s
claves autoev aluac ión detenidamentea l g o ri tm o s

siguientes
i n d u s tri a l e s Ej e rc i c i o s i n v i to s e ri a r
adquis ic ión ac c eder
re l a c i o n a l
c ienc ia
d e fi n e n

usuarios
enunc iados
Análisis consiste
d e s a rro l l a d a
especial
re c o m e n d a b l e fi g u ra s
anteriores
i n c u rs i o n a r

análisis
ac c es o e m p re s a ri a l e s a n te ri o rm e n te é n fa s i s
c entra
c olumna atención ev aluac ión
o p o rtu n i d a d e s
am plia
utiliz a v er fi j o
e s ta b l e c i m i eanntoa l i c e
d e te rm i n a d o s Tra z a b i l i d a d

data
redes
c o n tro l app b ri n d a re c o l e c ta n c ontrario
u s u a ri o
Hive página
hora años

negocios
c onoc e

Data
realiz an
m e j o ra almac enan etapa d i v e rs i d a d
media dec is ión
libro
base
Datosautor
piez as
explica
a p re c i a c onoz c a a u to ra
fijos
bloques él d i fe re n c i a s
nuevas es c ogerm o d e l a d o s re s p u e s ta s a d m i n i s tra d o r

Pre d i c ti v o lea es e Di c h o s
proc es os línea según
vez nac e
a g re g a

bases
lic enc iadas
añadió d e s c ri p ti v a
manera pers ona
conforman sitio
gran
es to
secciones
toma
referencia
a b a rc a
Sqoop
volúmenes
Có d i g o us e
a n a l íti c a s
bús quedas c ontinuación Son

figura
e s p e c ífi c o s preparar Ah o ra empres ario
c apas c orrec ta

anterior
1 .To d a s
marc a
e n e rg ía
texto

fuentes
Uti l i z a Ed i c i ó n as í
medios
e j e rc i c i o s
ejemplo
e s p a rc i d o s
elementos utilizar móvil
c inc o
c o n v e rti d o
claro
res umena d m i n i s tra c i ó n

mejores
semiestructurados
utiliz ando web re c o l e c c i ó n v is ibilidad

huella
empresa
patrones
c as os
av anz adas
Minería
d e s a rro l l a r
cuatro medio
Ap l i c a c i ó n merc ado a b i e rta
útil

sociales
e s p e c ífi c a s
u ti l i z a rá n g e n e ra l m e n te n a ti v a s s e rv i d o re s
rá p i d a
veracidad identific ac ión
c a ra c te rís ti c a
c anales
Vi a b i l i d a d Ca te g o ría s i n te rn o m i c ro b l o g s
dis tribuida div ers os
etapas

capítulo
analiz ado
s ec tores d i ri g i r
Co n c l u s i ó n

Av ro
d e s ta c a d a s

numerosas
lectura amplían

además
n o to ri o b ru to s

técnicas
d e c l a v e -v a l o r
luego e n c u e n tra n

aplicación
Pro l i fe ra c i ó n i d e n ti fi c a r
final
clasificar presentan
e s tu d i a n e c e s a ri o s

herramientas
aplic ar
Pérez
sistemas Visualización
temas i n c e rti d u m b re
obtener J o y a n e s ,2 0 1 9
s ec c ión
s is tema
Además

plataforma
i n n o v a d o ra n e c e s a ri a s e s p e c i fi c a c o
Téc nic as c ons ideradas
modelos
resultados
Luc ene
c e n te r c las es

a b s tra c c i ó n s uc ede
capítulos
Capítulo
c o o rd i n a c i ó n re c o l e c ta d o s
derec ha
Digital puedan ejemplific a

estructurados
presenta u ti l i z a d a s fá c i l e s
des arrollan tec nología
organización
p re s c ri b i r fu n d a m e n ta l

objetiv os
enunciado
importante
e fi c a z ra ti fi c a c i ó n
Datific ac ión oc ultos
Definición ac tiv idad
i n c re m e n ta n
As oc ie c o s to s De s c ri p ti v a
rendimiento infraestructura

Flume
organizaciones re l a c i o n a l e s
a m p l i a m e n te

dispositivos
Hadopp Co m p l e m e n te

i m p o rta n te s

dis tribuido
Se n ti m i e n to

54
¿Qué es big data?

Big data es uno más de los conceptos que han tomado fuerza en el mundo de la
tecnología en los años recientes, de forma simple, se puede decir que es un gran
volumen de datos digitales provenientes de diversas fuentes.

Big data no es una tecnología específica, al contrario, está vinculada a otras


tecnologías relacionadas con la información digital. A lo largo del desarrollo de
tema se verán los tipos y fuentes de datos, características y arquitecturas de los
grandes volúmenes de datos, técnicas, herramientas y aplicaciones para bases de
datos como Hadoop, y analítica de datos y negocios en plataformas de
integración.

Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema IV. Para empezar, lea esta guía de estudio
y luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.

Libro de texto o recurso Nombre del capítulo


Número de páginas
de lectura y sección
Capítulo 5.
Joyanes Aguilar, L. (2019). Inteligencia En línea
Todas las secciones.
de negocios y analítica de datos.
Capítulo 10.
Bogotá, Colombia: ALFAOMEGA. 303-329
Todas las secciones.
Pérez Marqués, M. (2015). BIG DATA. Capítulo 1.
En línea
Técnicas, herramientas y aplicaciones. Todas las secciones.
Ciudad de México, México: Capítulo 2.
En línea
ALFAOMEGA. Todas las secciones.

Desarrollo temático
Esta sección se estructura según el orden de la lectura recomendada. Por lo tanto,
estudiaremos capítulo por capítulo, enfatizando aquellas partes destacadas que
detallaremos para facilitar la comprensión del texto.

En el capítulo 5 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019),


se desarrollan temas relacionados con big data, de los cuales, se deben leer con
atención los siguientes:

55
• Definición
• Tipos de datos
• Fuentes de datos
• Datificación
• Datos en organizaciones y empresas
• Arquitectura
• Ecosistema Hadoop
• Herramientas más utilizadas de Hadoop en big data.

Durante el desarrollo de este capítulo, el autor presenta varios conceptos de big


data, los cuales podrá contrastar más adelante con autores como Joyanes (2019).
Preste atención al siguiente concepto:

son los grandes conjuntos de datos que tienen tres características


principales: volumen (cantidad), velocidad (velocidad de creación y
utilización) y variedad (tipos de fuentes de datos no estructurados, tales
como la interacción social, video, audio, cualquier cosa que se pueda
clasificar en una base de datos) (capítulo 5, p. 5).

Esta definición se empleará a lo largo del tema, este concepto puede variar según
las características de las empresas.

Existen figuras de gran valor para comprender y abstraer la información, preste


atención a cada una de las que se le indican seguidamente. En la figura 3.1, se
resumen las 3 V de big data; después IBM añadió 2 V más, las cuales se sintetizan
en la figura 5.2. Finalmente, en la figura 5.3, se presenta un modelo ampliado al
que se agregan 2 V más: visualización y viabilidad.

Siguiendo la lectura del capítulo, el autor define los tipos de datos: estructurados,
no estructurados y semiestructurados. Es importante diferenciar cada uno de
ellos, en cuanto a su definición y los tipos que lo conforman.

En cuanto a la historia de big data, el autor explica las dos etapas en las que nace
el concepto y se expande entre 1984 y 2007, y luego, a partir del 2008, se
comienzan a desarrollar herramientas para sacar rendimiento a las empresas. Lo
relevante de esta información es que en esta época nace el nombre moderno.

Las fuentes de datos que alimentan los big data procederán de numerosas
fuentes, tanto tradicionales como nuevas. En la figura 5.4, se presentan diferentes
fuentes de big data de las cuales se abstrae la información necesaria para la toma

56
de decisiones. Es importante que pueda distinguir cada una y cómo se clasifican
en cinco grandes categorías.

Es necesario que tengan claro el concepto de ratificación. Este hace referencia a


la huella digital de las actividades humanas e informáticas, las cuales, en su
mayoría, se pueden documentar y analizar para proporcionar información sobre
diversos temas. Un ejemplo son las redes sociales.

Según Joyanes (2019), “Los datos en las organizaciones y empresas se agrupan


en dos grandes categorías: datos internos y externos. Estos, a su vez, pueden ser
datos estructurados, no estructurados o semiestructurados” (capítulo 5, p. 23). En
cuanto a la arquitectura de datos, las cuatro capas más consideradas en el proceso
de tratamiento de big data son: recolección, almacenamiento y procesamiento,
análisis y visualización de datos, los cuales el autor explica detalladamente.

Para la recolección de datos, se utilizarán los métodos por lote y en tiempo real.
Para el almacenamiento, los más empleados son Hadoop y Spark. En el
procesamiento por lotes, se recolecta la entrada para un intervalo específico de
tiempo y las transformaciones se ejecutan de un modo planificado; al contrario,
el procesamiento en tiempo real implica la ejecución de las transformaciones de
datos en el momento que estos son recolectados (Joyanes, 2019).

El análisis de datos almacenados utiliza modelos, algoritmos y herramientas para


proporcionar visibilidad a los datos; en la visualización, se utilizan herramientas
para que los usuarios finales realicen búsquedas y accedan a la información
rápidamente, en algunos casos en tiempo real, de forma que los usuarios puedan
tener el control de la información en el momento en que se produce (Joyanes,
2019). Esto es importante porque el usuario puede seleccionar puede seleccionar
datos de la gran cantidad de herramientas de visualización y agruparlos, por
ejemplo, categorías, mapas, infografías, nubes de palabras, entre otros.

La infraestructura o plataforma más utilizada en el procesamiento de big data es


Hadoop, la cual consiste en una estructura base utilizada como punto de partida
o framework de código abierto, distribuida, escalable y fiable. Finalmente, el
autor comenta algunas herramientas que se usan en la inteligencia de negocios,
es recomendable leerlas detenidamente para que conozca la diversidad de
aplicaciones que se pueden utilizar en inteligencia de negocios.

57
En el capítulo 10 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019),
se desarrollan diversos temas relacionados con analítica de datos, de los cuales
se deben leer con atención los siguientes:
• Analítica de negocios
• Categorías prácticas de analítica
• Analítica de big data
• Características de una plataforma de integración de analítica de big data
• Analítica digital
• Analítica web
• Proliferación de datos sociales
• Analítica social
• Analítica de sentimientos
• Analítica móvil

En el capítulo, el autor presenta varios conceptos relacionados con la analítica de


datos. Esta es considerada como la ciencia que examina los datos brutos, con el
fin de generar conclusiones acerca de la información que contienen. Es
importante definir los tipos de analítica para poder clasificar la información que
se le presente cuando la examine.

Existen tres clases o tipos de analítica de datos:


• Descriptiva. Consiste en preparar y analizar datos históricos para la
identificación de patrones y tendencias; además, usa técnicas como
modelos de regresión, modelados y visualización de datos.
• Predictiva. Consiste en utilizar los datos para determinar lo que sucede, o
puede suceder, en el futuro; emplean técnicas de aprendizaje automático,
minería de datos.
• Prescriptiva. Determina nuevas formas de operar que permiten alcanzar
los objetivos determinados del negocio.

Es importante diferenciar los tipos para que, a la hora de clasificar las actividades,
se determine qué estrategia de analítica aplicar para obtener los mejores
resultados.

Por su parte, en el tema de analítica de negocios o analítica empresarial es


importante entender que su aplicación posibilita lograr una ventaja competitiva
para las organizaciones. En especial, esto brinda oportunidades a aquellas que
son más ágiles e innovadoras.

58
Para analizar grandes datos, se pueden emplear herramientas de software
tradicionales dentro de las técnicas de analítica avanzadas, como la minería de
datos o el análisis predictivo. Sin embargo, a veces, cuando se tienen datos no
estructurados en forma voluminosa, se requerirá de la aplicación de etapas de
tratamiento de big data como adquisición o ingesta de datos, procesamiento de
la información, análisis, decisión, resultados y visualización.

Existen categorías prácticas de analítica de datos, estas se nombran de la


siguiente manera: tradicional, web, social, móvil y big data.

Una vez que se comprende la big data, se puede proceder a la analítica de big
data. Esta consiste en el uso de técnicas analíticas aplicadas a grupos de grandes
volúmenes de datos; en este proceso, se examinan numerosas cantidades de
datos, de distintos tipos para descubrir patrones ocultos, correlaciones
desconocidas y otra información útil. Una plataforma de analítica de big data
debe ser innovadora e integrada a la infraestructura de tecnologías de
información de la organización. Una opción es por medio del desarrollo de un
sistema completo de código abierto utilizando el marco de trabajo Hadoop
(Joyanes, 2019).

Repase los conceptos relacionados con la analítica digital, la cual se aplica cuando
se tratan datos de internet y de la web, se centra en analizar la actividad de un
sitio web a partir de los datos extraídos de la navegación de los usuarios; además,
estudia la presencia de una marca, persona u organización en internet. Tenga
claro que es una categoría de analítica digital que, a su vez, es una rama de la
analítica de datos y de la analítica empresarial.

La analítica social o analítica de medios sociales se ha convertido en una


disciplina fundamental en las organizaciones y empresas. Esta es una de las áreas
que más impacta la analítica de datos, porque, en los últimos años, el
florecimiento del mercadeo digital ha permitido que el uso de las redes sociales
se convierta en una de las grandes fuentes de datos, los cuales son significativos
para la empresa.

El análisis de sentimiento también se conoce como la minería de opinión. Hace


referencia al análisis automático del sentimiento que trata de traducir, es decir, a
indicadores relativamente medibles de las emociones humanas inmersas en los
datos sociales, tanto en fuentes externas y autónomas (redes sociales, blogs,

59
microblogs, foros, medios de comunicación, wikis, etc.) como internas de la
empresa (Joyanes, 2019).

La analítica móvil parte de la necesidad de las empresas de conocer el retorno de


la inversión de su canal móvil. Conforme aumenta la adquisición de teléfonos
celulares con acceso a internet, las empresas enfrentan la necesidad de hacerse
presentes a través de canales móviles por medio de su sitio web (aplicación web)
o aplicaciones nativas, las cuales han tenido que adaptarse a las características de
cada uno de los dispositivos y de la información que puedan generar para las
empresas (Joyanes, 2019).

Ahora, en el capítulo 1 del libro BIG DATA. Técnicas, herramientas y aplicaciones de


Pérez (2015), también se desarrolla el concepto “big data” desde otra perspectiva,
ya que hace referencia a datos de la empresa, datos de medios sociales y grandes
conjuntos de datos. Dichos términos se amplían en el esquema de la página 12,
por lo tanto, lea detenidamente este esquema y compare este término con la
definición expuesta por Joyanes (2019).

Adicionalmente, Pérez (2015) menciona las cuatro características claves que


definen la información relativa al big data: volumen, velocidad, variedad y valor.
Estos conceptos también son desarrollados por Joyanes (2019) en el capítulo 5 del
libro Inteligencia de negocios y analítica de datos. Compare las definiciones de ambos
autores, analice sus diferencias y similitudes, además, reflexione sobre cómo se
complementan o amplían estas características claves según lo expuesto por
ambos.

Posteriormente, Pérez (2015) desarrolla algunos campos donde las técnicas de big
data se aplican más como patrones de detección de fraude, patrones de social
media, patrones de modelado y gestión de riesgo, en el sector de energía y en los
call center. Reflexione: ¿cree que las técnicas de big data tendrán un mayor
impacto en estos sectores o incursionará en nuevos sectores, como los
relacionados con la ciberseguridad?

En el capítulo 2 (Pérez, 2015), se explica la


plataforma de código abierto Hadoop, ampliando Hadoop. es un nombre propio
lo que expone Joyanes en el capítulo 5 del libro sin traducción.
HDFS. Siglas en inglés para
Inteligencia de negocios. Pérez (2015) explica las tres Sistema de Ficheros
Distribuido de Hadoop.
piezas que conforman Hadoop:

60
• Hadoop Distributed File System (HDFS) que se ejemplifica en la figura de la
página 23.
• Hadoop MapReduce cuyo flujo de datos se ejemplifica en la figura de la
página 24.
• Hadoop Common, mencionado brevemente en la página 24.

Complemente la información de la plataforma Hadoop con base en lo expuesto


por ambos autores. Además, pregúntese: ¿cómo los bloques se mueven en cada
una de estas piezas?

Por último, el autor explica algunos proyectos relacionados con Hadoop, entre
estos: Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Luzene, Oozie, Pig,
ZooKeeper. Como se aprecia, existen muchas herramientas, tanto de código
abierto como licenciadas, que pretenden convertirse en generadoras de
información para que la empresa tome las mejores decisiones con base en los
resultados que arrojan las aplicaciones cuando analizan los datos. Al tener una
gran variedad, el empresario podrá escoger la que mejor se adapte, en términos
de costos e infraestructura, a las necesidades de la industria.

Conclusiones

A lo largo de los capítulos que presentan ambos autores, se desarrolla


ampliamente el concepto de las grandes bases de datos o big data y cómo estos
grandes bloques de información sirven para la toma de decisiones en muchos
campos. Se identificaron aquellos conceptos que son necesarios para entender el
origen y funcionamiento de los grandes volúmenes de información. Además, se
describieron las características de la plataforma de código abierta Hadoop, su
funcionamiento interno, sus funciones para el análisis de la información y
posterior toma de decisiones. Finalmente, se determinaron los elementos que
conforman ese gran mercado de datos, lo que permite al empresario escoger o
seleccionar las herramientas que mejor se adapten a sus necesidades
empresariales e industriales.

61
Ejercicios de autoevaluación

Selección única
Con base en el estudio de la información facilitada, lea los enunciados y marque con una
X la letra que antecede a la respuesta correcta.

Lea el siguiente enunciado


1. Son grandes grupos de datos y tienen tres características principales, a
saber: volumen, velocidad y variedad; tales como video, audio,
interacción social, entre otros, que se puedan clasificar en una base de
datos (Joyanes, 2019).

El concepto anterior hace referencia a:


a) Inteligencia de negocios
b) Analítica de negocios
c) Bussiness Analytics
d) Big data

2. Considere las siguientes características:


• Poseen campos fijos.
• Son datos con formato o esquema fijo.
• Se almacenan en filas y columnas, además, son fáciles de introducir,
almacenar y analizar.
• Se registran en campos con nombre específico y con relaciones entre ellos.

¿A qué concepto se refieren las características anteriores?


a) Datos semiestructurados
b) Datos estructurados
c) Datos sin estructura
d) Datos big data

62
3. Lea el siguiente enunciado:
Carecen de formatos fijos, sin embargo, poseen etiquetas y otros marcadores que
permiten separar los elementos en dato. Ejemplos típicos son el texto de etiquetas
de XML y HTML (Joyanes, 2019).

El concepto anterior hace referencia a:


a) Datos semiestructurados
b) Datos estructurados
c) Datos sin estructura
d) Datos big data

4. Lea el siguiente enunciado:


Es la huella digital que deja la mayor parte de las actividades humanas e
informáticas, se pueden documentar y analizar para proporcionar información
sobre diversos temas, incluso sobre el rendimiento empresarial (Joyanes, 2019).

El concepto anterior hace referencia a:


a) Datificación
b) Trazabilidad
c) Biometría
d) Social media

5. Considere las siguientes características:


• Código abierto
• Almacenamiento y procesamiento distribuido
• Escalabilidad
• Tiene tolerancia a fallos

¿A qué concepto hacen referencia las características anteriores?


a) Hadoop
b) Chukwa
c) Scribe
d) Sqoop

63
6. Lea el siguiente concepto:
Es una herramienta basada en la web para provisionar, gestionar y monitorear
conglomerados o clústeres de la plataforma de código abierto Hadoop. Incluyen
soporte para el sistema de archivos HDSFS y MapReduce, además Hive,
HCatalog, HBase, ZooKeeper, Oozie, Pig y Sqoop (Joyanes, 2019).

El concepto anterior hace referencia a:


a) Ambari
b) Cassandra
c) HBase
d) Mahout

7. Lea el siguiente concepto:


Involucra procesos y actividades diseñadas para obtener y evaluar de datos que
permiten extraer información útil.

El concepto anterior hace referencia a


a) Analítica de datos
b) Inteligencia de negocios
c) Big data
d) Dashboard

Lea el siguiente concepto:


Consiste en preparar y analizar datos históricos para la identificación de patrones
y tendencias. Está muy ligada a la inteligencia de negocios y utiliza técnicas tales
como modelos de regresión, modelado y visualización de datos.

El concepto anterior hace referencia a:


a) Analítica descriptiva
b) Analítica predictiva
c) Analítica prescriptiva
d) Analítica de negocios

64
Pareo
Con base en las lecturas relacionadas con big data. Asocie los conceptos de la izquierda
con su respectiva definición en la columna la derecha.

Analítica Definición
a. Se analizan los datos que envían,
( ) Prescriptiva reciben o transitan desde los
dispositivos.
b. Se centra en analizar la actividad
de un sitio web partiendo de
datos extraídos de la navegación
( ) Predictiva que realizan los usuarios, así
como estudiar también la
presencia de una marca, persona
u organización.
c. Utiliza datos para prescribir
aquellas acciones que
( ) Web incrementan las posibilidades
para obtener los mejores
resultados.
d. Analítica de grandes volúmenes
( ) Social
de datos.
e. Disciplina que ayuda a las
organizaciones y empresas a
analizar, medir y explicar el
( ) móvil
rendimiento de las iniciativas y
proyectos sociales (Joyanes,
2019).
f. Permite descubrir patrones
( ) De big data ocultos en datos que el humano
experto no puede apreciar.
g. Usadas en servidores, PC y
laptops, que han formado los
( ) Digital componentes de los sistemas de
información tradicional (Joyanes,
2019).

65
Con base en las lecturas relacionadas con la plataforma de código abierto
Hadoop, asocie los conceptos de la izquierda con su respectiva definición en la
columna la derecha.
Aplicación Definición
( ) Avro a. Su principal tarea es dirigir los
datos de una localidad hacia
alguna otra.
( ) Cassandra b. Infraestructura de Data
Warehouse que facilita la
administración de grandes
grupos de datos que se
encuentran almacenados en un
ambiente distribuido.
( ) Oozie c. Es un proyecto de Apache que
provee servicios que permiten
seriar datos.
( ) Hive d. Proyecto Apache común y
notorio para realizar búsquedas
sobre textos.
( ) Lucene e. Base de datos no relacional
distribuida y fundamentada en un
modelo de almacenamiento de
clave-valor, desarrollada en Java.
( ) Flume f. Es un proyecto de código abierto
que simplifica los flujos de trabajo
y la coordinación entre cada uno
de los procesos (Joyanes, 2019).

Desarrollo

Con base en lo analizado en este tema, responda, de forma amplia, las preguntas que se le
presentan.

1. Explique con sus palabras en qué consiste el modelo de 5 V de big data


planteado por IBM y en qué se diferencia del modelo de 7 V.

66
2. La gestión de grandes volúmenes de datos necesita de una arquitectura
específica, que se compone de cuatro capas o etapas consideradas en el
proceso de tratamiento de big data. Explique cada una de estas.

67
Respuesta a los ejercicios de autoevaluación

En esta sección, encontrará las respuestas a los ejercicios de autoevaluación. No obstante,


si considera que tiene dudas, converse con el tutor al respecto.

Selección única
Número
Respuesta
de pregunta
1 d Big data
2 b Datos estructurados
3 a Datos semiestructurados
4 a Datificación
5 a Hadoop
6 a Ambari
7 a Analítica de datos
8 a Analítica descriptiva

Pareo
Analítica
( C ) Prescriptiva
( F ) Predictiva
( B ) Web
Ejercicio 1
( E ) Social
( A ) Móvil
( D ) De big data
( B ) Digital

Aplicación
(C) Avro
( E ) Cassandra
Ejercicio 2 ( F ) Oozie
(B) Hive
(D) Lucene
(A) Flume

68
Desarrollo
1. La respuesta debe considerar la siguiente información en sus propias
palabras:
IBM planteó, como también hizo Gartner, que big data abarca tres grandes
dimensiones, conocidas como el “Modelo de las tres V” (3 V o V3): volumen,
velocidad y variedad. Posteriormente, en el 2015, agrega 2 V más al modelo;
define la característica de veracidad como “la incertidumbre de los datos”. La
veracidad hace referencia al nivel de fiabilidad asociado a ciertos tipos de
datos. El establecimiento de la veracidad o fiabilidad (truth) de big data
supone un gran reto a medida que la variedad y las fuentes de datos crecen.

El valor. Las organizaciones estudian cómo obtener información de los


grandes datos de una manera rentable y eficiente. En esta área, las tecnologías
de código abierto, tales como Apache Hadoop, se han vuelto muy populares.

A las cinco características anteriores se están uniendo, según algunos modelos


de big data, dos nuevas e importantes V:

• Visualización: es el modo en que los datos se presentan para encontrar


patrones y claves que permitan obtener los resultados para una toma
de decisión eficiente.
• Viabilidad: esta propiedad se refiere a la capacidad que tienen las
empresas de generar un uso eficaz del gran volumen de datos que
manejan (Joyanes, 2019, pp. 13-15).
2. La respuesta debe incluir la siguiente información en sus propias
palabras:
• Recolección de datos. Existen múltiples datos públicos que se
producen en numerosas cantidades, muchos dispositivos esparcidos
por todo el planeta que emiten, procesan y recogen información de
diversas actividades. Se recolectan por lotes o en tiempo real (Joyanes,
2019, cap. 5, p.25).
• Almacenamiento y procesamiento de datos. En los sistemas de
almacenamiento de big data, el soporte es brindado por los archivos
distribuidos. En esta fase, se tratan sistemas de archivos tradicionales
y distribuidos, bases de datos relacionales SQL y bases de datos
NoSQL y en memoria (Joyanes, 2019, cap. 5, p.26).
• Análisis de datos. Generalmente, se considera como una o dos etapas
(procesamiento y análisis de datos), según la metodología que se use.

69
Una vez que se almacenan todos los datos, se han de convertir en
conocimiento, por medio del procesamiento y análisis de toda la
información almacenada (Joyanes, 2019).
• Visualización de datos. Los resultados del análisis de datos es la etapa
de consumo de estos que debe permitir su exposición para la correcta
toma de decisiones por parte de quienes los requieren. Esta capa
muestra el beneficio del almacenamiento y procesamiento de la
información, cuyo resultado es la producción de conocimiento
(Joyanes, 2019).

70
Referencias

Mannino, M. (2007). Administración de bases de datos. Diseño y desarrollo de


aplicaciones. México D. F., México: McGraw Hill/Interamericana editores,
S. A. de C. V.
Joyanes Aguilar, L. (2019). Inteligencia de negocios y analítica de datos. Bogotá,
Colombia: ALFAOMEGA.
Larson, B. (2009). Delivering Business Intelligence. New York, USA: The McGraw-
Hill Companies.
Pérez Marqués, M. (2015). BIG DATA. Técnicas, herramientas y aplicaciones. Ciudad
de México, México: ALFAOMEGA.
García Herrera, V. (30 de enero de 2019). Inteligencia en los negocios. Conceptos
fundamentales. Recuperado de https://www.gestiopolis.com/inteligencia-
en-los-negocios-conceptos-fundamentales/
Ropero Rodríguez, J. (2009). Método general de Extracción de Información basado en
el uso de Lógica Borrosa. Aplicación en portales web (Tesis doctoral).
Universidad de Sevilla. Recuperado de
https://www.dte.us.es/personal/jropero/TesisV2p0.pdf

71

También podría gustarte