Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Base de Datos II
Código 03084
Preparada por
Jerry Quintero Figueroa
Producción académica y asesoría
metodológica:
Sarita Poltronieri Méndez
Equipo de trabajo
Encargada de programa
Karol Castro Chaves
ii
Presentación
Big data. Se presentará una propuesta para el manejo de los datos por medio del
uso de las herramientas necesarias como Apache Hadoop, entre otras que
permitan determinar los elementos de un mercado de grandes volúmenes de
datos.
ii
¿Cómo estudiar esta asignatura de la mejor forma?
Programe sus horas de estudio de forma anticipada, es recomendable hacer
pequeños avances semanales en vez de tomar largas horas durante un fin de
semana. La noche anterior procure dormir las horas suficientes para concentrarse
en el tema de estudio; además, localice un lugar cómodo para la lectura.
En todo momento, tenga esta guía de estudio a mano y los libros que se indica en
cada guía de lectura. Puede utilizar una tableta o una computadora para leer, no
obstante, se recomienda usar una computadora para resolver los ejercicios de
autoevaluación.
Iconografía
Para facilitar la lectura de esta guía de estudio, se emplean íconos a lo largo del
texto con el propósito de destacar un contenido específico u otras actividades
complementarias. A continuación, se presenta cada uno y su significado:
Audiovisual
Propone actividades relacionadas con la exposición de material
audiovisual complementario, además, cuenta con un código QR
que facilita su localización.
Atención
Se utiliza para llamar su atención sobre algún punto de singular peso para su
proceso de aprendizaje.
Concepto
Se emplea para definir un concepto complejo o que el estudiante debe dominar
para comprender la lectura.
iii
¿Sabe qué es PROMADE?
¿Quiere colaborar en la mejora de este material didáctico?
Esta guía de estudio fue creada por un equipo multidisciplinario de profesionales
que veló por su calidad académica, gracias a un riguroso proceso de revisiones y
una mediación didáctica apropiada, de acuerdo con las necesidades particulares
de una persona que estudia en el sistema de educación a distancia.
iv
Contenido
v
Tema I
Administración de bases de datos
Sumario
• ¿Cómo administrar bases de datos?
• Conclusión
• Ejercicios de autoevaluación
Objetivos de aprendizaje
Objetivo general
Analizar los procesos en la administración de datos para la identificación de
responsabilidades en la administración del trabajo empresarial.
Objetivos específicos
• Definir los aspectos relacionados con el contexto organizacional
necesarios para administrar una base de datos.
• Identificar las herramientas que se requieren para administrar bases de
datos.
• Resolver situaciones hipotéticas del campo laboral relacionadas con la
administración de bases de datos.
o p o rtu n are fo rz a r d e b e m o se s p a ñ o l
s e rv i d o r l u g a re s No m b re
Ed i to ri a l An a l i z a r e x p l i c a r L a n g u a g e c a u te l a
Ge s ti ó n p ro te g e d e b e rá
fa c i l i ta d o Stru c tu re d c o n s u l te
fu s i o n a r ac c edan
c ons ec uc ión inc luida d e fi n i r e x p o n e n o b j e to s
a u to m á ti c o As p e c to s s eñalado Ín d i c e s BASES
Re p re s e n ta c i ó n re l a c i o n a l d i v e rs a sg e n é ri cm
o u e s tre n c e rte z a e fe c to s m a y o re s
perdida
e s ta n d a ri z a r e m e rg e n te p o s i ti v a o fre c e n am plio c am po
p re s e n ta n d o a te n c i ó n e n fa ti z a re s ta u ra Cl i e n te e s c ri b e
o rd e n
Modelo fre c u e n c i a i n te g ra r Híb ri d o Ofre c e n aunque
empresariales
Gra n u l a ri d a d s ubdiv idir ac c iones
re c o m e n d a d o M annino v a l o re s ta b l a s
controles HOLAP
elemento
m é to d o s v e n ta j a
L i b ro
Actualización o tra s
partes
In te ra m e ri c a n a Ni n g u n a
p ro v o c a
McGraw m a y o ría re a l i z a
candados Arquitectura s i g n i fi c a ti v o s
seguridad
fi n a l e s
datos
modelado gerencia refrescamiento
fa c i l i ta n
transacción
concepto Capítulo
dim ens iones es pac io
únic os o rg a n i z a c i o n a l e s
conceptos fusión c o n c re to s d e s ta c a
resultados continuación
1 4 .To d a s
desarrolla
s e ri e s c u e n ta s
cambios m a rts
c o n s i s te n te
analic e
además
organización
ac c es ibilidad
dude c om ún re s e rv a r
objetiv os
p .5 2 0 Ob j e ti v o
racionalidad
procedimientos existentes
ti e n d a i n v i to a c tu a l i z a rl o
ps eudoc ódigo g e s ti o n a
l e tra j e ra rq u ía
m ejor e n te n d e r
integridad
d e te n i m i e n toOp e ra c i o n a l
pagar b o rra d o s
ejemplos
ágiles c opias n o rm a l i z a c i ó n
d e s tru c c i ó n p ro p ó s i to
m edia
general o p o rtu n i d a d e s h i p o té ti c a s analiz ado
Administración
tecnología
Aquí objetivo
entornostoma
tanto a rq u i te c tu ra
e l a b o ra c i ó n
respuesta consultas
v a ri a s c a p a c i ta c i ó e
n s c ri b i rl o s á re a s
representación estudiaremos
más
re a l i z a c i o te
n erm
s i n o l o g ía
DBMS
e x i s te
inconsistentes capítulos
ejemplo Monitoreo
fi rm a s iguen ilegal e n c ri p ta c i ó n
fa s e s ac c edidos
única parciales c om unic ac ión
e s to s
inglés
negocios depuración i z q u i e rd a re q u e ri m i e n to s
libro
cuanto
Gestor
sección
otros
base
n e c e s a ri a
Atómica
siglas
aprendizaje
recuperación
minería
i d e n ti fi c a primarias d ía planteamiento
aspectos
herramientas
aplicación Hill
c édula c o n s i d e ra m enos
bases responsabilidades
data
diseñomay or
ejercicios sugiere
siguiente
vistas
referencia
banco misma
leer cómo
concurrencia
él
recurso utilizar brindan reescritura
esos dudas
tres
tabla
excepciones realice
Datos
c l a ro s
Aislada aplicar
llaves cinco
empresaautor tipos
as í
mantenimiento
dé c a rg a
implica
ilustra varios d e s c ri b i r
básicos
auditoría sean
Es ta s fís i c o s
importante
tema serieseccionesusuario
c l a s i fi c a n
otra
permite brinda
desempeño
re a l e s
indica c onoc e
candidatas elegir
apartado detalla
características
procesamiento
m alic ios a
multidimensionales
Candados Disponibilidad limitaciones nivel
programación
sistemas
re l a c i o n a d a si d e n ti fi c a c i ó n
Apareamiento dec ir
multidimensional
aplicaciones almacenados
luego i m p l e m e n ta c i ó n re p re s e n ta c i o n e sa c ti v i d a d e s a u to ri z a d o
s elec c ión
Cu á l p l a n te a m i e n to s He rra m i e n ta sRe fe re n c i a s l i m i ta c i ó n
transparencia
Re fl e x i o n e
fu n c i o n a l e s
Tra n s p a re n c i a desarrollo Educar fl u j o s
c o n fi a b i l i d a d i n te n c i ó n i n d i v i d u a l eosp e ra c i o n e si n c o rre c to Có m o
permiten diferentesSignifica
a s c e n d e n te
falla
e n c u e n tra Pro p o rc i o n a r s i m p l i fi c a c i ó n e s p e c ífi c aEj
s e rc i c i o s Re s p u e s ta s
re s p u e s ta s
Considere
p ro g ra m a s
extraídos M u l ti d i m e n s i o n a l
relacionalesObjetivos
s o l u c i o n a r d e s h a c e rs e a d m i n i s traren n d i m i e n to M a n a g e m e n tto ta l i d a d
as ignado
pilares s o b re s a l i e n te s
usuarios
p ro te c c i ó n
tipo p ri v i l e g i o s m o ti v a c i ó n e m p l e a d o s
d e s c ri b e
funciones Determinar h i s tó ri c o tra n s p o rta c i óanu to ri z a d o s
Toma
materializadas
m inim iz a Da ta u ti l i z a d o s e s ta b l e c e In te g ri d a d a p a rta d o s Es to
optimización
i m p l i c a re fe c tu a r a u to m á ti c a m e n te c o m e rc i a l re
e ss e rv a c i ó n
presentacontexto
Co n s i s te c o n s i s te n
empresarial Re l a c i o n a l o p e ra ti v o m a p a
Explique
administración
p e rc i b e n h i n c a p i é
e fe c ti v o lenguaje re fl e x i o n a re m o s
n o ti fi c a c i ó n p ro fu n d i d a d
s i g u i e n te s Pro to c o l o
p a ra l e l a c olum nas i d e n ti fi c á n d o s e d i s ti n to s fa l l a s e s p e c ífi c o s e s ta b l e c e r
propiedades sistema
i n v i e rte re fl e x i ó n c o n ti n g e n c i a c o n v e rs a r c a n ti d a d
Ca n d a d o re fi e re n e s tre l l a TRANSACCIÓN
o rg a n i c e te m a s e s tra té g i c a re s u l ta d o Te m a
Finalmente niveles
re s u m i d o o fre c e e x p e ri e n c i a a u m e n ta n
d e re c h o re a l i z a ro b te n g a n
tomar o p e ra ti v a s g a n a n c i a s
Cu e n ta n
te m á ti c o p ro d u c to
d i s tri b u i d a s
Número s e ri o
o p e ra ti v a
m e n c i o n a nCo n te x to
De fi n i r i n c o n s i s te n te
a s e g u ra re s p o n d a s e p a ra d a s
fu e n te s d e fi n i c i o n e s delic adas
Ed i c i ó n aplic an a d e c u a deax p l i c a n
m odelos e s ta s
Ex i s te n c uidado
p ro c e d a
transacciones
l a b o ra l d u ra n te
comprende warehouses
recuperaciones
planea
autoev aluacióngrandes
c u a n ta p re s ta r fra c a s a s i g n i fi c a ti cv o m p re n s i ó n p e rm a n e n te d e p u ra d a s c l a ri d a d
em plea Vi g i l a r m e j o re s
o rg a n i z a c i o n e s
dimensión l o g ro a d m i n i s tra rl a e s tru c tu ra s
b e n e fi c i o s
Te c n o l o g íaa d e c u a d o
v uelo p e rm i ti rá n
l i s ta e ta p a s Ac c e s o nulidad c o rp o ra ti v ae sx p e ri m e nctao m p re n d e n to m a d o re s
v elar d e ta l l a d o
g ru p o s c am bia pedidos c o n c u rre n tes u b c o n j u n top l a n e a c i ó n Gu ía
a c e rta d a
tra te n im agen d i n e ro tá c ti c a In te g ra c i ó n e s tá n d a re s s u p e rv i s a r
i n te l e c tu a l
Cajero
restricciones indiv idual Administrador
m e j o ra fo n d o s b o rra r d e s a rro l l a rá e s p e c i a l i z a d a sOp ti m i z a c i ó n Co n c l u s i ó n s i m u l tá n e a
disparadores
te rm i n a p re g ú n te s e
a l ta INSERT educ ar a c tu a l i d a d a n te ri o rm e n te fa c i l i ta ra n ev aluac ión
ROLAP equilibrar
m a rq u e Fi g u ra bloque ejec uc ión c o n te x tu a l i z a
re s u m i r im puls a De ta l l e Co l o q u e p ro p a g a r o b s ta n te
g ra b a d o s
l o g re n Ev a l ú a
debido re s u l te Im p l i c a d e ta l l e So p o rta n
m u c h a s INICIA
6
¿Cómo se administran las bases de datos?
Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema I. Para empezar, lea esta guía de estudio y
luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.
7
Desarrollo temático
Esta sección se estructura con base en el orden de la lectura recomendada antes.
Por lo tanto, de desarrolla capítulo por capítulo; es necesario leer la totalidad del
texto, especialmente aquellas partes que le facilitarán comprenderlo. Se indica a
continuación cada una.
8
organizacional facilitan la administración de base de datos? No dude en utilizar
ideas de los apartados anteriores para esta reflexión.
• Control de la concurrencia
Se deben tener claros el objetivo, los problemas y las herramientas.
• Administración de recuperaciones
Es necesario prestar atención a las herramientas para el manejo o la gestión de
recuperaciones y los procesos de recuperación que emplean las herramientas.
Para los aspectos del diseño de transacciones, la tabla 15.12 resume los diferentes
niveles de aislamiento.
El capítulo 16 (Mannino, 2007) brinda los cimientos para una forma emergente
de bases de datos, la Data Warehouse, que se emplea cada vez más para apoyar
la toma de decisiones. Se exponen los requerimientos únicos para su
procesamiento, el modelo multidimensional de datos y su implementación en
bases de datos relacionales, modelado y formulación de consultas y
mantenimiento de estas bases de datos. El capítulo desarrolla cuatro secciones:
• Conceptos básicos
En esta sección es fundamental definir las características de la Data Warehouse y
la minería de datos; situación que se ilustra en la tabla 16.1. En las figuras 16.1 y
9
16.2, nos explican la arquitectura de Data Warehouse de dos y tres niveles.
Finalmente, algunas organizaciones utilizan un planteamiento ascendente, el
cual se muestra en la figura 16.3.
10
Conclusión
Por último, el tema concluye presentando una serie de conceptos sobre diferentes
tipos de bases de datos que permiten dar apoyo a la toma de decisiones y al
manejo de las arquitecturas de Data Warehouse y minería de datos que se
desarrollará a profundidad.
Ejercicios de autoevaluación
Para esta sección, se usan fragmentos totales o parciales del libro de texto
facilitado (Mannino, 2007) con el propósito de no interferir con el espíritu de lo
señalado en el desarrollo teórico del autor.
Selección única
Con base en el estudio del tema, lea los enunciados y marque con una X la respuesta
correcta.
11
1. Considere las siguientes características:
• Ayudan a manejar los negocios con eficiencia.
• Soportan en forma directa las principales funciones, como procesamiento
de pedidos, manufactura, cuentas por pagar y distribución de productos.
• Cuentan con un rápido procesamiento, mayores volúmenes de negocios y
reducidos costos de personal.
Las características anteriores hacen referencia al concepto de base de datos:
a) táctica
b) integradas
c) operacional
d) para la toma de decisiones
12
4. Lea la siguiente información:
• Consiste en desarrollar modelos empresariales de datos, procesos y
funciones organizacionales. Evalúa los sistemas existentes, identifica las
oportunidades de aplicar la tecnología de la información para lograr una
ventaja competitiva y planea nuevos sistemas.
¿A cuál proceso de los que llevan a cabo los administradores de datos y de bases
de datos hace referencia el texto anterior?
a) Toma de decisiones
b) Planificación de datos
c) Selección de los sistemas
d) Evaluación de los sistemas
13
7. Lea la siguiente información:
• Ofrecen una forma de evitar que otros usuarios tengan acceso a un
elemento de una base de datos que está en uso. Un elemento de una base
de datos puede ser una fila, un bloque, un subconjunto de filas o incluso
una tabla completa. Antes de tener acceso al elemento de la base de datos,
es necesario obtenerlo.
¿A cuál herramienta de control de concurrencia se refiere el texto anterior?
a) Candados
b) Candado de intención
c) Protocolo de candados
d) Granularidad de candados
14
Pareo
A continuación, se le presenta una serie de definiciones en columnas al lado derecho que
debe relacionar con los enunciados de la izquierda. Coloque en el espacio entre paréntesis
la letra que antecede la respuesta correcta.
15
Desarrollo
Con base en lo analizado en este tema, responda, de forma amplia, las preguntas que se le
presentan en esta sección.
16
3. Explique la diferencia entre el control de acceso discrecional y el control
de acceso obligatorio.
17
6. Hay tres problemas que se pueden presentar debido al acceso simultáneo
a una base de datos: (1) actualización perdida, (2) dependencia sin
realizaciones y (3) recuperación inconsistente. Explique en qué radica cada
uno.
7. Considere la siguiente
imagen (a la derecha)
sobre el flujo de trabajo
para el mantenimiento
de una Data
Warehouse.
18
Explique en qué consiste cada una de las fases que se presentan en la figura.
19
Respuestas a los ejercicios de autoevaluación
Selección única
Número de pregunta Respuesta
1 c Operacional
2 a Administrador de datos
3 b Datos empresariales
4 b Planificación de datos
5 c Atómica
6 c Durable
7 a Candados
8 c Disponibilidad
9 c ROLAP
Pareo
(B) Monitoreo del desempeño
(G) Infraestructura para el procesamiento de transacciones
(D) Recuperación de desastres
(A) Diseño de transacciones
(C) Actualización de la Data Warehouse
(H) Uso de la Data Warehouse
(E) Desarrollo de aplicaciones
(F) Arquitectura de entornos distribuidos
Desarrollo
1. La respuesta debe contener la siguiente información en sus propias
palabras:
Los pilares del conocimiento son: tecnología, procesamiento de la información
humana y dinámica de la organización. Esta visión de la administración del
conocimiento contextualiza el uso de la tecnología de la información para
solucionar problemas de negocios, la cual permite usar los datos para que los
resultados sean los mejores para la empresa. La mejor tecnología de la
información fracasa si no se adecúa a las acciones de los miembros de la
organización.
20
La tecnología de la información debe aumentar la capacidad intelectual
individual, remediar las limitaciones en el procesamiento producto del error
humano y apoyar positivamente la dinámica en la organización. Correcta
información, tecnología adecuada y empleados con la capacitación necesaria
permiten conseguir los objetivos de la empresa.
21
4. La respuesta debe contener la siguiente información en sus propias
palabras:
A continuación, se presenta una serie de pasos
que brindan una posible respuesta a esta
pregunta: Atención. Para ver otros
ejemplos de respuesta,
• INICIA TRANSACCIÓN consulte las páginas 517-518
• Cajero saluda del libro de texto asignado.
22
6. La respuesta debe abarcar la siguiente información en sus propias
palabras:
Una actualización perdida es el problema de interferencia más serio porque los
cambios hechos a una base de datos se pierden sin que nadie se dé cuenta. En
una actualización perdida, la actualización de un usuario sobrescribe la de otro.
Una dependencia sin realización sucede cuando una transacción lee los datos que
escribe otra antes de que una segunda transacción se realice. Una dependencia
sin realización también se conoce como lectura sucia porque la provoca una
transacción que lee datos sucios (Mannino, 2007, p. 520).
Todos los problemas de recuperaciones inconsistentes presentan una transacción
que lee y una segunda transacción que cambia la misma parte de la base de datos.
El problema de resumen incorrecto es el más significativo entre los que
comprenden recuperaciones inconsistentes.
23
Tema II.
Minería de datos
Sumario
• ¿Qué función tendrá el manejo adecuado de la minería de datos?
• Conclusión
• Ejercicios de autoevaluación
Objetivos de aprendizaje
Objetivo general
Objetivos específicos
• Distinguir los conceptos relacionados con minería de datos.
• Describir la estructura del modelo de datos.
• Discernir entre los modelos de minería de datos que permitan la toma de
decisiones acorde con las normas de la industria.
variables
donantes/rec eptores reforz ar
Estructura es tablec iendo
análisis
Proc es s es pac ios
tareas
analítica interés
algoritmos Datos
prác tic as
s uperv ivenc ia
creación
predicción tomar amplia
utilizan
patrones detección
mejorar
utiliz ar c arac terís tic as muc ho c uantificar
útil efic az
rec olec ción Angos s gananc ias
metodología
ras trean
anterior
propietarias
autores Ignorar criterios
anteriores realizar c lav e
datos
podrían fac tores
pasos
etapa técnicas
hoy c olec c ión s egmentac ión
atención
aplicaciones
dilema
almac enamiento normaliz ac ión
derecha Descubrimiento
fallos
aplic a
software
poderos a
determinar
c ons olidan Aquí día
conceptos
acuerdo gran
s erá
es o
autoevaluación s ec tor
sino
s ea
entrada
organiz ación Luis
partir
definir
ac orde
etapas
web
for
reglas
tema
c omienz a lis ta
preparac ión proc es os generac ión
respuesta resume
código
reflex ionaremosalmac enes
pues preparan tales
figura Google
adminis trador prec oz
proceso
áreas
c omerc io
agrupar Estas
tipo
genes s ens ores
v ez
éxito filtros
recursos
lectura
programac ión
lea loc al interes a
cuál única correcta c ampos
modelo
letra
les
opc iones
SEO sitio
bus c an poner
google
c romos oma
API
fases
estructura
s erie partes
estudio atributo
Data
c línic o
programas identific aron
diferentes explica
dis tintos
Big
s ec uenc ias menc ionan
clasificación
industria III idiomas
minería
texto
Interpretac ión optimiz ac ión
ric o clientes
cuáles negocio ejercicios
siguientes
algoritmo
generan
tengan c ontinuación facilitada
s emies truc turados llev a
están
usos
servicios basescampañasseccionessegún Clasificación
c ánc er
Es te
innov ar
rango
modelos
concepto
exploración
dic has
Textos
c ienc ias
responde
denominada aplicar
fac ilitarán es tadís tic as As oc iac ión
Capítulo adecuado
decisiones
aplicación identific ador
utiliza
orden
brinda Guía neuronales
Descriptivo
c ompleja
asociación
puedas
c las ific ar
24
¿Qué función tendrá el manejo adecuado
de la minería de datos?
Existen muchos datos y una gran cantidad de decisiones por tomar, con base en
ellos, por parte de los administradores de bases de datos; y las empresas se están
enfrentando a este dilema. Los datos están creciendo, y eso nos lleva a reflexionar
sobre cuál será la mejor estructura para modelar los datos y cuáles modelos de
minería de datos nos permitirán tomar las mejores decisiones. Esto también
depende de las normas de la industria.
Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema II. Para empezar, lea esta guía de estudio y
luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.
Desarrollo temático
Esta sección se estructura con base en el orden de la lectura recomendada. Por lo
anterior, estudiaremos capítulo por capítulo, con especial énfasis en aquellas
partes que le facilitarán comprender el texto.
25
En el capítulo 8 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019),
se desarrollan los siguientes temas:
• Minería de Datos: conceptos, definiciones y aplicaciones
• Aplicaciones de la Minería de Datos
• Proceso de descubrimiento del
conocimiento: KDD
• Proceso de Minería de Datos: metodología
KDD. Siglas en inglés de
CRISP-DM Knowledge Discovery in
Databases; la Extracción del
• Proceso de Minería de Datos: metodología Conocimiento.
SEMMA CRISP-DM. Cross Industry
Standard Process for Data
• Modelos, algoritmos y técnicas de Minería Mining, no existe traducción
de Datos precisa en español.
SEMMA. Siglas en inglés de
• Relaciones de la Minería de Datos con otras Sample, Explore, Modify,
Model, and Assess; en español,
disciplinas: de big data a Data Science Muestrear, Explorar,
• Herramientas de software de Minería de Modificar, Modelar y Evaluar.
Datos
Es importante que distinga las múltiples áreas en las que se aplica la minería de
datos y explicar la figura 8.1 “Proceso de descubrimiento del conocimiento”,
donde se resumen las cinco fases del proceso de descubrimiento del
conocimiento.
Se explican también los seis pasos del proceso de data mining, la metodología
CRISP-DM y las fases del proceso de minería de datos, el cual se resume en la
figura 8.2 Etapas del proceso de Minería de Datos CRISP-DM. Es importante
poner atención a este tema, ya que es la base fundamental para el desarrollo del
proyecto final del curso.
26
El capítulo 9 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019)
desarrolla los siguientes temas:
• Minería de Textos
• Herramientas de la Minería de Textos
• Minería Web: conceptos, definiciones y categorías
• Arquitectura de la Minería Web
• Categorías de la Minería Web
• Minería Web de Contenido
• Minería Web de Estructura
• Minería Web de Uso SEO. Siglas en inglés de Search
• Herramientas de Minería Web Engine Optimization; en
español, Optimización en
• Motores de búsqueda (buscadores) Motores de Búsqueda.
SEM. Siglas en inglés de Search
• Posicionamiento SEO: Optimización de los
Engine Marketing; en español,
motores de búsqueda Mercadotecnia en Buscadores
Web.
• Posicionamiento SEM
27
y tareas en cada uno): árboles de decisión, algoritmo de Naïve Bayes,
agrupamiento, reglas de asociación, agrupación de secuencias, series de tiempo,
redes neuronales y algoritmo de regresión logística. Es importante ver las
características de cada herramienta y cómo, dependiendo de la empresa y el tipo
de minería, se podrían emplear con aplicaciones específicas.
El capítulo 14 del libro Delivering Business Intelligence (Larson, 2009) inicia con el
detalle de la estructura de minería de datos, la explicación del modelo el uso de
la columna de datos. Después, se explica cómo definir un modelo de minería de
datos con SQL Server. Finalmente, se presentan ventanas con los algoritmos
explicados en el capítulo 13 aplicando Microsoft. Asegúrese de prestar atención
a cada una y de abstraer los conceptos importantes que se mencionan.
Conclusión
28
Ejercicios de autoevaluación
Selección única
Con base en el estudio de la información facilitada, lea los enunciados y marque con una
X la letra que antecede a la respuesta correcta.
29
La información anterior hace referencia a la fase denominada:
a) Transformación
b) Minería de datos
c) Selección de datos
d) Interpretación y evaluación
30
7. Considere el siguiente concepto de minería de datos:
Se usa para predecir el valor de un atributo discreto, es decir, un atributo que
tiene uno de un número establecido de valores distintos.
El concepto anterior se refiere a la tarea denominada:
a) Descriptivo
b) Predictivo
c) Clasificación
d) Regresión
31
10. Lea el siguiente concepto:
Es el uso de técnicas de minería de datos aplicadas a la búsqueda, extracción y
evaluación automática de información para conseguir el descubrimiento del
conocimiento de los recursos como documentos y servicios (Ropero, 2009).
El concepto anterior hace referencia a la minería:
a) Web
b) Social
c) De datos
d) De textos
32
El concepto anterior se refiere al posicionamiento:
a) Orgánico SEO
b) De pago SEM
c) SEO local
d) Web
Pareo
Con base en el estudio de la información facilitada, lea los enunciados y complete los
espacios con la letra que antecede la respuesta correcta.
1. Con base en la lectura del capítulo 14, relacione la estructura de minería
de datos de la izquierda con sus usos de la columna derecha.
Estructura Usos
( ) Columnas de entrada A. Es el identificador único para una
tabla o una dimensión. La clave
no se usa para identificar de
manera exclusiva registros o
miembros, y el algoritmo de
minería de datos no la emplea
para predecir valores.
( ) Ignorar B. Son utilizados por el algoritmo de
minería de datos al hacer una
predicción. Los valores de
entrada son los valores que
influyen en la predicción
realizada por el algoritmo.
( ) Solo pronóstico C. Esta columna también se puede
utilizar como columna de
entrada. Si la columna de datos A
y la columna de datos B son
ambas predicciones, la columna
de datos A servirá como entrada
cuando el algoritmo predice la
columna de datos B, y viceversa.
( ) Clave D. Es una columna de datos cuyo
valor está siendo predicho por el
algoritmo de minería de datos.
( ) Predicción E. El algoritmo de minería de datos
no utiliza esta columna de datos.
33
2. Con base en la lectura del capítulo 13, relacione los algoritmos de minería
de datos con su correspondiente tarea de la columna derecha. Se pueden
repetir letras.
Algoritmos Tarea
( ) Algoritmo de Naïve Bayes A. Regresión
( ) Algoritmo de regresión B. Clasificación
logística
( ) Algoritmo de reglas de C. Segmentación
asociación
( ) Algoritmo de regresión lineal D. Asociación
( ) Algoritmo de agrupamiento
( ) Algoritmos de series de
tiempo
Desarrollo
Con base en lo analizado en este tema, responda, de forma amplia, las siguientes
preguntas.
34
3. La minería web se ha convertido en una poderosa herramienta para hacer
negocios, pues la web es demasiado compleja, dinámica, no especifica un
dominio. Justifique por qué las empresas recurren a la minería web.
35
Respuesta a los ejercicios de autoevaluación
Selección única
Número
Respuesta
de pregunta
1 c Minería de datos
2 d Descubrimiento de conocimiento de bases de datos
3 a Transformación
4 d Extracción de conocimiento
5 a Modificación
6 b Predictivo
7 c Clasificación
8 d De textos
9 a I, III, V
10 a Web
11 b Descubrimiento de recursos
12 d Estructura
13 d De pago SEM
Pareo
Estructura
(B) Columnas de entrada
(E) Ignorar
Ejercicio 1
(D) Solo pronóstico
(A) Clave
(C) Predicción
Tarea
(B) Clasificación
(A) Regresión
Ejercicio 2 (D) Asociación
(A) Regresión
(C) Segmentación
(A) Regresión
36
Desarrollo
1. La respuesta debe contener la siguiente información, en sus propias
palabras:
La minería de datos en medicina es una de las aplicaciones más prácticas.
Algunas posibles respuestas podrían ser:
• Identificación de patrones novedosos para mejorar la supervivencia de
pacientes con cáncer.
• Predicción de tasas de éxito en trasplantes de órganos a pacientes para
desarrollar políticas de donantes/receptores en el tratamiento clínico.
• Genómica. Identificación de los diferentes genes del cromosoma humano.
• Selección de embriones en reproducción artificial.
• Genética. Estudio del ADN.
• Descubrimiento de las relaciones entre
síntomas y enfermedades, así como entre
ADN. Siglas para el ácido
enfermedades y tratamientos con éxito. desoxirribonucleico.
37
general, aplicaciones de big data. Alguna de las aplicaciones más eficientes de
esta plataforma en minería de textos son análisis sintáctico de texto, análisis de
opiniones, análisis de texto en varios idiomas y clasificación de documento según
temas.
38
Tema III.
Inteligencia de negocios
Sumario
• ¿Qué aspectos influyen en la inteligencia de negocios?
• Conclusión
• Ejercicios de autoevaluación
Objetivos de aprendizaje
Objetivo general
Describir los elementos y estructuras del modelo de inteligencia de negocios para
dar respuesta a las necesidades del entorno laboral en relación con el manejo
adecuado de la información.
Objetivos específicos
• Definir los aspectos relacionados con el cuadro de mando integral.
• Señalar los sistemas de soporte a las decisiones.
• Identificar los elementos que conforman un sistema de información
ejecutiva.
• Determinar los factores necesarios para la implementación de Data Mart
y Data Warehouse.
Cuadr ant e War ehouseDat a necesar ia per sonas
cont ienen War ehousePr ocesam ient o Cor por at e det ect ar
t r ansf or m ar la
Hadoop esquem at iza
post er ior m ent e alim ent ación com pr ender
representan
descubr im ient o
siguiente responden
Warehouse
t r ansaccionales
objetivos
estas Luis
Existen
presentan p. 6
cont enidos
ot r a
conjunto am p
analítica
Capa lago visualizándolos
minería Conceptos
procesos
Respuesta
jer ár quica r ecom endaciones
capítulos
Joyanes
int er f aces alm acenados Descr ibir
est r at égica necesidad
organización
proceso
importancia compartir det ección diseñado
información
fundamentales estructura almacenan Sankey
Además
War ehousePr oveedor es Aquí Conclusión
define
Com unicación posibles
variedad
tomar archivos
alt o t odos Adm inist r ación dif icult ades oper ación Pr egunt a
TI C
soluciones
herramienta realizar detenimiento
Apareamiento paralelo
dir ect am ent e
dist r ibuidas
consider ar
cont em plan
desem peñar
Enf at ice
ent ender
Finalmente
explican
elementos
enfoque
dist r ibuidos alm acenen
exper iencia
calidad
disciplina est adí st icos
accesibles
técnicas pasado especí f icas
página
const ancia
Selección
Mapas
Intelligence resaltar
ver sa
relevante
Objetivos principales
presente ést os
lugar respecta
estudio grupos ar quit ect o
reducción
Datos
Este
logr o data
ideas
marco
real ot r os f uer a
analizar
sistema
pieza
ayudan analista
papel
gráfico
clara
entorno habilidadesrelacionados cosas
definiciones cuanto
contar
temas
datos
gráfica negocio
tablas
arquitectura
Cuadro
estos
capas
0
gent e decir
explica
Big
ejercicios
leer analítico
lotes existen
cabe
Batch básicos
esto
tipomodelo
son
anterior
negocios
basan cinco
través
tipos
est án
visual
históricos medio
ciclo let r a
partir
avanzada cómo
secciones línea lectura
decisiones
Esto f inal
consta
más
realiza
estadísticas cuadro f ijos f lujo
resume
Ciclo
análisis
plena solos t ar ea
autoevaluación
conocimiento
anteriores Desarrollo Tema f acilit ar án
única
clave
conceptos
f ácil
extracción medidores externos
ventaja Lake
r oles
Arquitectura gerencial
deben act ualidad def iniendo
transformación
Bussiness
posee
explicando
gestióndesarrollan
Warehouses
Ejer cicios Gantt
Cuadros
productos t r at a
almacenar
cuales
características
muestra
gráficos
guí a G uí a
diferencias
visualización referencia
volúmenes almacén integración
ident if ique
Analytics
Vale Load único Repr esent ación
estructurados
él
Consiste
com por t am ient os
importante
r ecom endada
páginas est ablecer
Herrera
presenta acciones Definición
jer ar quí a dist r ibuido Pr edict iva desact ualizados especí f icos seis r ecopilar
4. Todas
anidados
det alles
dest aque
plat af or m as
color eando
colocando
ETL necesario
usual
Capítulo
transformar
enunciados exponencial
discover y
profesionales visualizar
tecnologías
concisa SankeySe adelant e r elacionadas Ent er pr ise especial
central
colum na r elación Ar quit ect o adm inist r ador es
analyticsreportes
color es r egiones capí t uloy r ecom endable I dent if icar r ef lexiva pr oducir
inteligencia
af ect ar pat r ones dif er encian com put ador a ejecut iva im pulsar
representación
prestar inicia
ut ilzan def inido t r adicional m ult idim ensional im plant ación f uncionado inf luyen
solución I ngenier o descr ipt iva big OLAP ant er ior m ent e r ect ángulos asignado
act ivos adecuada opor t unidad
competitiva ar quit ect ur as r edundant es business
ser vidor conocida asegúr ese Pr escr ipt iva pr epar ados int egr al
opor t una gener ales descr ipción ejecut ivo int egr an
Tr ansm it en pr ocesados
tabla seguridad
Posteriormente
agr upar lo oper acionales ser á M ás consist ent e em pleados
III r ealizar lo
necesar ios
Cartogramas
rápidas
soporte
Analyt icsAnalí t ica
administración
ver
clasif icación
pr ot ección
Performance mejores const it uyen
ht t ps: / / www. gest iopolis. com / int eligencia- en- los- negocios- concept os- f undam ent raleal
esizan
opciones Tendencias dat awar ehouse Sim plif ican cim ient o
39
¿Qué aspectos influyen en la inteligencia de negocios?
Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema III. Para empezar, lea esta guía de estudio
y luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.
40
Desarrollo temático
Esta sección se estructura con base en el orden de la lectura recomendada
anteriormente. Por esto, estudiaremos capítulo por capítulo, con especial énfasis
en aquellas partes que le facilitarán comprender el texto.
41
Con respecto a las capas que se mencionan, se brindan las siguientes
recomendaciones sobre las tres más importantes:
• Una de las capas sobre la cual se debe prestar
atención es la capa ETL, ya que se centra en
tres procesos fundamentales que se grafican
ETL. Siglas en inglés de Extract,
en las figuras 1.2 y 1.3 de las páginas 13 y 14. Transform y Load; en español,
• En cuanto a la capa de almacenamiento de extraer, transformar y cargar.
Es importante prestar atención a cada una de las etapas del ETL, para tomar una
serie de datos que se generen por una empresa y sea capaz de extraer la
información relevante. Esto con el propósito de transformarla con alguna
herramienta de análisis de datos y finalmente cargar los resultados para la toma
de decisiones por parte de los administradores.
42
Posteriormente, se define el concepto de analítica de negocios como “un conjunto
de técnicas y herramientas de software utilizadas para analizar los datos
debidamente preparados y producir informes.” (Joyanes, 2019, p. 31).
43
• Analítica de datos: conceptos y tipos
• Big data Analytics
• Ciencia de datos
• Tendencias de Analytics
En lo que respecta a los tipos de datos, debe tener en cuenta que el autor define
tres tipos: los estructurados que tienen campos fijos, los no estructurados, que no
los tienen, y los semiestructurados que contienen propiedades de los
estructurados y los sin estructurar. Es recomendable revisar la tabla 2.1 sobre la
taxonomía de datos y propiedades.
44
• Visualización de datos.
En este capítulo, se debe leer con atención el concepto de datos, se definen como
uno de los activos estratégicos más importantes de la organización y elementos
45
discretos sin valor por sí solos. Otro concepto es la gestión de datos, el cual versa
sobre la necesidad del almacenamiento de información de la empresa en bases
de datos para luego estar accesibles para toma de decisiones por medio de Data
Warehouses; su objetivo es proporcionar la infraestructura y herramientas para
transformar datos en bruto a información usable de alta calidad. El proceso de
gestión de los datos se resume en la figura 4.1 del ciclo de vida de los datos,
observe sus detalles.
Lea con detenimiento las dificultades de la gestión que explica el autor y que
podemos resumir en el aumento exponencial de datos que están dispersos en la
organización, se obtienen de múltiples fuentes, se degradan con el tiempo y
dependen del soporte donde se almacenen. Se debe tomar en cuenta la calidad,
seguridad e integridad de los datos, y estos pueden ser redundantes o
desactualizados.
Para el tema de calidad de los datos en un almacén de datos, tenga presentes los
factores que pueden afectar su calidad, a saber: precisión, completitud,
constancia, oportunidad, no redundancia, significativos y accesibles. También es
necesario tener claras las herramientas ETL que apoyan al proceso de Data
Warehouse.
Acerca del tema de procesamiento analítico (OLAP), el autor explica que es una
aplicación conocida de análisis multidimensional. Se presentan algunas
características de estos sistemas, de los cuales se resaltan los siguientes: permite
46
visualizar los mismos datos en diferentes sitios, respuestas rápidas, alto nivel de
detalle y los elementos de control. Posteriormente, se explican los tres grupos de
OLAP: MOLAP (multidimensional), ROLAP (relacional) y HOLAP (híbrida). Lea
con detenimiento el resumen de cada uno, en la tabla 4.1 de la página 172.
47
• Disciplinas de ciencias de datos
• El proceso de ciencia de datos
• El científico de datos
• El perfil del científico de datos
• Herramientas de programación para ciencia de datos
• Roles profesionales relacionados con datos
• Ciencia de datos en la inteligencia de negocios
Considere la figura 14.2 sobre las disciplinas de ciencia de datos y la figura 14.7
en la que se explican las etapas de un proceso de datos. Finalmente, lea con
detenimiento acerca de las plataformas de ciencia de datos (SQL, R, Python,
Knime y Weka).
En cuanto a los papeles o roles, asegúrese de tener claros los diferentes tipos que
existen en el mercado: analista de datos, ingeniero de datos, arquitecto de datos,
científico datos, ingeniero de visualización, director de datos y delegado de
protección de datos.
Conclusión
Los sistemas de soporte a las decisiones son aquellos que se basan en Business
Analytics y que permiten, a través de la Data Analytics, tomar decisiones de
analítica avanzada y de herramientas de big data que buscan reducir costos, toma
48
más rápida de mejores decisiones, y nuevos productos o servicios. La mayoría de
las aplicaciones de una empresa, en un sistema de información, organiza los
datos en una estructura jerárquica de información.
Ejercicios de autoevaluación
Para esta sección, se usan fragmentos totales o parciales del libro de texto
facilitado (Joyanes, 2019) con el propósito de no interferir con el espíritu de lo
señalado en el desarrollo teórico del autor.
Selección única
Con base en el estudio de la información facilitada, lea los enunciados y marque con una
X la letra que antecede a la respuesta correcta.
49
c) Bussiness Analytics
d) Big data
50
5. Lea el siguiente texto:
Es una disciplina que se encarga de la extracción de conocimiento a partir de los
datos y que se encuentra en plena expansión. Se enmarca en las habilidades
relacionadas con la extracción del conocimiento de datos.
El concepto anterior se refiere a:
a) Knowledge
b) Minería de datos
c) Ciencia de datos
d) Aprendizaje automático
51
8. Lea el siguiente texto:
Es un cargo dependiente del máximo ejecutivo de la empresa, a quien reporta
directamente. Su misión es impulsar el crecimiento de la organización o empresa
mediante la transformación digital de esta.
El texto anterior hace referencia al papel o rol de:
a) Ingeniero de visualización
b) Arquitecto de big data
c) Chief Data Officer
d) Analista de datos
Pareo
Con base en la lectura de este tema, relacione los conceptos de la izquierda con las
definiciones de la columna derecha.
Conceptos Definición
( ) Diagrama de Sankey A. Se presentan datos estadísticos por
regiones, colocando un número o
coloreando las diferentes zonas en
función del dato que representa.
( ) Diagrama de caja B. Representación gráfica de los datos,
donde los valores individuales
contenidos en una matriz se
representan como colores.
( ) Infografías C. Diagrama de flujos antiguo donde las
flechas representan el volumen.
( ) Diagrama de Gantt D. Método para la visualización de datos
jerárquicos mediante el uso de
rectángulos anidados.
( ) Cartogramas E. Es un gráfico que ilustra la fecha de
inicio y terminación de los elementos
de un proyecto.
( ) Mapas de árbol F. Utiliza cuartiles para representar un
grupo de datos en forma de gráfico.
( ) Mapas de calor G. Mezcla de información y gráficos y una
representación visual de una página
que trata de mostrar los datos.
52
Respuesta a los ejercicios de autoevaluación
Selección única
Número de Respuesta
pregunta
1 a Inteligencia de negocios
2 c Bussiness analytics
3 c Visual analytics
4 a Descriptiva
5 c Ciencia de datos
6 a Visualización de factores
7 a Cuadros de mando
Pareo
Conceptos
(G) Infografías
(A) Cartogramas
53
Tema IV.
Big data
Sumario
• ¿Qué es big data?
• Conclusiones
• Ejercicios de autoevaluación
Objetivos de aprendizaje
Objetivo general
Objetivos específicos
im plic a
Cassandraintegración p e rs p e c ti v a
p l a ta fo rm a s
c ualquier re s p u e s ta
fu n c i o n e s a d e l a n te
Ej e m p l o s
i n m e rs a s
p ro p o n e n
te m á ti c o
prác tic as Se l e c c i ó n a l c a n z a r e s tu d i a r m e rc a d o s p ú b l i c o s
tratamiento interac ción ex pues to Te c n o l o g ía s In v o l u c ra p ro p i e d a d a p re c i a r m e n c i o n a
características
Po s e e n nav egac ión o tra s em oc iones v inc ulada e tc é te ra Ob j e ti v o
re l a c i o n a d a Chuk wa
e s p e c ífi c o p re g ú n te s e e n c o n tra r p re s e n te s a s o c i a d o e x te rn a s
Es ta s De s c ri b i r Si g u i e n d o El a b o ra r
nuev os c omprens ión Bi o m e tría niv el tratan re fl e x i o n e g e s ti o n a r a m b i e n te e x a m i n a n
re g i s tra n am pliado
e s c a l a b l e re q u e ri rá c o m p l e to
a p l i c a d a s n e c e s a ri a te l é fo n o s
d e te c c i ó n re c o l e c ta b ri n d a d o
volumen
p ro c e d e rá n i n d u s tri a wa re h o u s e
pres enc ia
siguiente
c o m p o n e n te s v a ri a r In fo rm a c i ó n m edir p ro v i s i o n a r b e n e fi c i o
d i fe re n te s fl o re c i m i e n to
to l e ra n c i a
Negocios Predic tiv a
c antidad
dis eñadas
c a p ítu l o y p a rti e n d o
des c ubrir re s u l ta d o
Perez p ri m e ra m e n te
ex pos ic ión
propues ta
dis c iplina etiquetas
entender a d a p ta rs e e n fre n ta n
inteligenc ia Ex plique
forma
alm ac enada s i m p l i fi c a
Objetiv os s ac ar
código
a g ru p a c i o n e s pos ibilidades Se n ti m i e n to s c o m p e ti ti v a m o n i to re a r
a rq u i te c tu ra s iz quierda
mejor
términos diferenciar IBM ex traídos
modelado
Web Di s c i p l i n a L i b ro utiliz ada
Es tos s oporte Internet Rec olec ción
nec es idad
re l a c i o n e s e s tá n nec es idades
es tas utiliz an tradic ional
generar
a g i l e s Arq u i te c tu ra
permiten s e n ti m i e n to
HBase
analítica
m e to d o l o g ía Ec o s i s te m a
tales
aplicaciones humanas
grandes
c o n v e rti rs e v olum inos a v u e l to
v ideo c om unic ac ión ex is ten l e tra automátic o
embargo
div ers as deben
tema
tipos
d e fi n i r s e c to r te n i d o
Prescriptiva Finalmente
e n v ía n re c o m e n d a dtra
a v és o ri g e n
archivos almacenamiento
datos
modelo visualización
dim ens iones alm ac enar
procesamiento empresas
He rra m i e n ta s
siguientes
i n d u s tri a l e s Ej e rc i c i o s i n v i to s e ri a r
adquis ic ión ac c eder
re l a c i o n a l
c ienc ia
d e fi n e n
usuarios
enunc iados
Análisis consiste
d e s a rro l l a d a
especial
re c o m e n d a b l e fi g u ra s
anteriores
i n c u rs i o n a r
análisis
ac c es o e m p re s a ri a l e s a n te ri o rm e n te é n fa s i s
c entra
c olumna atención ev aluac ión
o p o rtu n i d a d e s
am plia
utiliz a v er fi j o
e s ta b l e c i m i eanntoa l i c e
d e te rm i n a d o s Tra z a b i l i d a d
data
redes
c o n tro l app b ri n d a re c o l e c ta n c ontrario
u s u a ri o
Hive página
hora años
negocios
c onoc e
Data
realiz an
m e j o ra almac enan etapa d i v e rs i d a d
media dec is ión
libro
base
Datosautor
piez as
explica
a p re c i a c onoz c a a u to ra
fijos
bloques él d i fe re n c i a s
nuevas es c ogerm o d e l a d o s re s p u e s ta s a d m i n i s tra d o r
Pre d i c ti v o lea es e Di c h o s
proc es os línea según
vez nac e
a g re g a
bases
lic enc iadas
añadió d e s c ri p ti v a
manera pers ona
conforman sitio
gran
es to
secciones
toma
referencia
a b a rc a
Sqoop
volúmenes
Có d i g o us e
a n a l íti c a s
bús quedas c ontinuación Son
figura
e s p e c ífi c o s preparar Ah o ra empres ario
c apas c orrec ta
anterior
1 .To d a s
marc a
e n e rg ía
texto
fuentes
Uti l i z a Ed i c i ó n as í
medios
e j e rc i c i o s
ejemplo
e s p a rc i d o s
elementos utilizar móvil
c inc o
c o n v e rti d o
claro
res umena d m i n i s tra c i ó n
mejores
semiestructurados
utiliz ando web re c o l e c c i ó n v is ibilidad
huella
empresa
patrones
c as os
av anz adas
Minería
d e s a rro l l a r
cuatro medio
Ap l i c a c i ó n merc ado a b i e rta
útil
sociales
e s p e c ífi c a s
u ti l i z a rá n g e n e ra l m e n te n a ti v a s s e rv i d o re s
rá p i d a
veracidad identific ac ión
c a ra c te rís ti c a
c anales
Vi a b i l i d a d Ca te g o ría s i n te rn o m i c ro b l o g s
dis tribuida div ers os
etapas
capítulo
analiz ado
s ec tores d i ri g i r
Co n c l u s i ó n
Av ro
d e s ta c a d a s
numerosas
lectura amplían
además
n o to ri o b ru to s
técnicas
d e c l a v e -v a l o r
luego e n c u e n tra n
aplicación
Pro l i fe ra c i ó n i d e n ti fi c a r
final
clasificar presentan
e s tu d i a n e c e s a ri o s
herramientas
aplic ar
Pérez
sistemas Visualización
temas i n c e rti d u m b re
obtener J o y a n e s ,2 0 1 9
s ec c ión
s is tema
Además
plataforma
i n n o v a d o ra n e c e s a ri a s e s p e c i fi c a c o
Téc nic as c ons ideradas
modelos
resultados
Luc ene
c e n te r c las es
a b s tra c c i ó n s uc ede
capítulos
Capítulo
c o o rd i n a c i ó n re c o l e c ta d o s
derec ha
Digital puedan ejemplific a
estructurados
presenta u ti l i z a d a s fá c i l e s
des arrollan tec nología
organización
p re s c ri b i r fu n d a m e n ta l
objetiv os
enunciado
importante
e fi c a z ra ti fi c a c i ó n
Datific ac ión oc ultos
Definición ac tiv idad
i n c re m e n ta n
As oc ie c o s to s De s c ri p ti v a
rendimiento infraestructura
Flume
organizaciones re l a c i o n a l e s
a m p l i a m e n te
dispositivos
Hadopp Co m p l e m e n te
i m p o rta n te s
dis tribuido
Se n ti m i e n to
54
¿Qué es big data?
Big data es uno más de los conceptos que han tomado fuerza en el mundo de la
tecnología en los años recientes, de forma simple, se puede decir que es un gran
volumen de datos digitales provenientes de diversas fuentes.
Guía de lectura
A continuación, se presentan los capítulos que debe leer para facilitar el logro de
los objetivos de aprendizaje del tema IV. Para empezar, lea esta guía de estudio
y luego cada uno de los capítulos. Al final de la lectura, proceda a resolver los
ejercicios de autoevaluación que se presentan para reforzar el aprendizaje.
Desarrollo temático
Esta sección se estructura según el orden de la lectura recomendada. Por lo tanto,
estudiaremos capítulo por capítulo, enfatizando aquellas partes destacadas que
detallaremos para facilitar la comprensión del texto.
55
• Definición
• Tipos de datos
• Fuentes de datos
• Datificación
• Datos en organizaciones y empresas
• Arquitectura
• Ecosistema Hadoop
• Herramientas más utilizadas de Hadoop en big data.
Esta definición se empleará a lo largo del tema, este concepto puede variar según
las características de las empresas.
Siguiendo la lectura del capítulo, el autor define los tipos de datos: estructurados,
no estructurados y semiestructurados. Es importante diferenciar cada uno de
ellos, en cuanto a su definición y los tipos que lo conforman.
En cuanto a la historia de big data, el autor explica las dos etapas en las que nace
el concepto y se expande entre 1984 y 2007, y luego, a partir del 2008, se
comienzan a desarrollar herramientas para sacar rendimiento a las empresas. Lo
relevante de esta información es que en esta época nace el nombre moderno.
Las fuentes de datos que alimentan los big data procederán de numerosas
fuentes, tanto tradicionales como nuevas. En la figura 5.4, se presentan diferentes
fuentes de big data de las cuales se abstrae la información necesaria para la toma
56
de decisiones. Es importante que pueda distinguir cada una y cómo se clasifican
en cinco grandes categorías.
Para la recolección de datos, se utilizarán los métodos por lote y en tiempo real.
Para el almacenamiento, los más empleados son Hadoop y Spark. En el
procesamiento por lotes, se recolecta la entrada para un intervalo específico de
tiempo y las transformaciones se ejecutan de un modo planificado; al contrario,
el procesamiento en tiempo real implica la ejecución de las transformaciones de
datos en el momento que estos son recolectados (Joyanes, 2019).
57
En el capítulo 10 del libro Inteligencia de negocios y analítica de datos (Joyanes, 2019),
se desarrollan diversos temas relacionados con analítica de datos, de los cuales
se deben leer con atención los siguientes:
• Analítica de negocios
• Categorías prácticas de analítica
• Analítica de big data
• Características de una plataforma de integración de analítica de big data
• Analítica digital
• Analítica web
• Proliferación de datos sociales
• Analítica social
• Analítica de sentimientos
• Analítica móvil
Es importante diferenciar los tipos para que, a la hora de clasificar las actividades,
se determine qué estrategia de analítica aplicar para obtener los mejores
resultados.
58
Para analizar grandes datos, se pueden emplear herramientas de software
tradicionales dentro de las técnicas de analítica avanzadas, como la minería de
datos o el análisis predictivo. Sin embargo, a veces, cuando se tienen datos no
estructurados en forma voluminosa, se requerirá de la aplicación de etapas de
tratamiento de big data como adquisición o ingesta de datos, procesamiento de
la información, análisis, decisión, resultados y visualización.
Una vez que se comprende la big data, se puede proceder a la analítica de big
data. Esta consiste en el uso de técnicas analíticas aplicadas a grupos de grandes
volúmenes de datos; en este proceso, se examinan numerosas cantidades de
datos, de distintos tipos para descubrir patrones ocultos, correlaciones
desconocidas y otra información útil. Una plataforma de analítica de big data
debe ser innovadora e integrada a la infraestructura de tecnologías de
información de la organización. Una opción es por medio del desarrollo de un
sistema completo de código abierto utilizando el marco de trabajo Hadoop
(Joyanes, 2019).
Repase los conceptos relacionados con la analítica digital, la cual se aplica cuando
se tratan datos de internet y de la web, se centra en analizar la actividad de un
sitio web a partir de los datos extraídos de la navegación de los usuarios; además,
estudia la presencia de una marca, persona u organización en internet. Tenga
claro que es una categoría de analítica digital que, a su vez, es una rama de la
analítica de datos y de la analítica empresarial.
59
microblogs, foros, medios de comunicación, wikis, etc.) como internas de la
empresa (Joyanes, 2019).
Posteriormente, Pérez (2015) desarrolla algunos campos donde las técnicas de big
data se aplican más como patrones de detección de fraude, patrones de social
media, patrones de modelado y gestión de riesgo, en el sector de energía y en los
call center. Reflexione: ¿cree que las técnicas de big data tendrán un mayor
impacto en estos sectores o incursionará en nuevos sectores, como los
relacionados con la ciberseguridad?
60
• Hadoop Distributed File System (HDFS) que se ejemplifica en la figura de la
página 23.
• Hadoop MapReduce cuyo flujo de datos se ejemplifica en la figura de la
página 24.
• Hadoop Common, mencionado brevemente en la página 24.
Por último, el autor explica algunos proyectos relacionados con Hadoop, entre
estos: Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Luzene, Oozie, Pig,
ZooKeeper. Como se aprecia, existen muchas herramientas, tanto de código
abierto como licenciadas, que pretenden convertirse en generadoras de
información para que la empresa tome las mejores decisiones con base en los
resultados que arrojan las aplicaciones cuando analizan los datos. Al tener una
gran variedad, el empresario podrá escoger la que mejor se adapte, en términos
de costos e infraestructura, a las necesidades de la industria.
Conclusiones
61
Ejercicios de autoevaluación
Selección única
Con base en el estudio de la información facilitada, lea los enunciados y marque con una
X la letra que antecede a la respuesta correcta.
62
3. Lea el siguiente enunciado:
Carecen de formatos fijos, sin embargo, poseen etiquetas y otros marcadores que
permiten separar los elementos en dato. Ejemplos típicos son el texto de etiquetas
de XML y HTML (Joyanes, 2019).
63
6. Lea el siguiente concepto:
Es una herramienta basada en la web para provisionar, gestionar y monitorear
conglomerados o clústeres de la plataforma de código abierto Hadoop. Incluyen
soporte para el sistema de archivos HDSFS y MapReduce, además Hive,
HCatalog, HBase, ZooKeeper, Oozie, Pig y Sqoop (Joyanes, 2019).
64
Pareo
Con base en las lecturas relacionadas con big data. Asocie los conceptos de la izquierda
con su respectiva definición en la columna la derecha.
Analítica Definición
a. Se analizan los datos que envían,
( ) Prescriptiva reciben o transitan desde los
dispositivos.
b. Se centra en analizar la actividad
de un sitio web partiendo de
datos extraídos de la navegación
( ) Predictiva que realizan los usuarios, así
como estudiar también la
presencia de una marca, persona
u organización.
c. Utiliza datos para prescribir
aquellas acciones que
( ) Web incrementan las posibilidades
para obtener los mejores
resultados.
d. Analítica de grandes volúmenes
( ) Social
de datos.
e. Disciplina que ayuda a las
organizaciones y empresas a
analizar, medir y explicar el
( ) móvil
rendimiento de las iniciativas y
proyectos sociales (Joyanes,
2019).
f. Permite descubrir patrones
( ) De big data ocultos en datos que el humano
experto no puede apreciar.
g. Usadas en servidores, PC y
laptops, que han formado los
( ) Digital componentes de los sistemas de
información tradicional (Joyanes,
2019).
65
Con base en las lecturas relacionadas con la plataforma de código abierto
Hadoop, asocie los conceptos de la izquierda con su respectiva definición en la
columna la derecha.
Aplicación Definición
( ) Avro a. Su principal tarea es dirigir los
datos de una localidad hacia
alguna otra.
( ) Cassandra b. Infraestructura de Data
Warehouse que facilita la
administración de grandes
grupos de datos que se
encuentran almacenados en un
ambiente distribuido.
( ) Oozie c. Es un proyecto de Apache que
provee servicios que permiten
seriar datos.
( ) Hive d. Proyecto Apache común y
notorio para realizar búsquedas
sobre textos.
( ) Lucene e. Base de datos no relacional
distribuida y fundamentada en un
modelo de almacenamiento de
clave-valor, desarrollada en Java.
( ) Flume f. Es un proyecto de código abierto
que simplifica los flujos de trabajo
y la coordinación entre cada uno
de los procesos (Joyanes, 2019).
Desarrollo
Con base en lo analizado en este tema, responda, de forma amplia, las preguntas que se le
presentan.
66
2. La gestión de grandes volúmenes de datos necesita de una arquitectura
específica, que se compone de cuatro capas o etapas consideradas en el
proceso de tratamiento de big data. Explique cada una de estas.
67
Respuesta a los ejercicios de autoevaluación
Selección única
Número
Respuesta
de pregunta
1 d Big data
2 b Datos estructurados
3 a Datos semiestructurados
4 a Datificación
5 a Hadoop
6 a Ambari
7 a Analítica de datos
8 a Analítica descriptiva
Pareo
Analítica
( C ) Prescriptiva
( F ) Predictiva
( B ) Web
Ejercicio 1
( E ) Social
( A ) Móvil
( D ) De big data
( B ) Digital
Aplicación
(C) Avro
( E ) Cassandra
Ejercicio 2 ( F ) Oozie
(B) Hive
(D) Lucene
(A) Flume
68
Desarrollo
1. La respuesta debe considerar la siguiente información en sus propias
palabras:
IBM planteó, como también hizo Gartner, que big data abarca tres grandes
dimensiones, conocidas como el “Modelo de las tres V” (3 V o V3): volumen,
velocidad y variedad. Posteriormente, en el 2015, agrega 2 V más al modelo;
define la característica de veracidad como “la incertidumbre de los datos”. La
veracidad hace referencia al nivel de fiabilidad asociado a ciertos tipos de
datos. El establecimiento de la veracidad o fiabilidad (truth) de big data
supone un gran reto a medida que la variedad y las fuentes de datos crecen.
69
Una vez que se almacenan todos los datos, se han de convertir en
conocimiento, por medio del procesamiento y análisis de toda la
información almacenada (Joyanes, 2019).
• Visualización de datos. Los resultados del análisis de datos es la etapa
de consumo de estos que debe permitir su exposición para la correcta
toma de decisiones por parte de quienes los requieren. Esta capa
muestra el beneficio del almacenamiento y procesamiento de la
información, cuyo resultado es la producción de conocimiento
(Joyanes, 2019).
70
Referencias
71