Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lenguajes de
programación y
usos de Big Data
Unidad Didáctica
Lenguajes de programación y usos de
Big Data
Autor
Norbey Mejía Chica
Fecha última
Fecha últimarevisión
versión
Abril 2022
Marzo de 2023
ESAP ha verificado, hasta donde es posible, que el contenido de los enlaces web citados y presentados en este curso sean
verídicos y que correspondan; sin embargo, y debido a la naturaleza dinámica de internet, ESAP no puede responsabilizarse
por el correcto y adecuado funcionamiento de los mismos.
La mayoría de las imágenes de este documento han sido compradas a través de: https://www.shutterstock.com
2
Unidad 2. Lenguajes de programación y usos de Big Data
Contenido
Objetivo 4
Resumen 4
Lenguajes de programación y usos de Big Data 5
Conceptos generales sobre lenguajes de programación 6
Lenguaje R 6
Lenguaje Python 8
Ejemplos de aplicaciones de la ciencia de datos y Big data en el mundo actual 10
Ciudades inteligentes y transporte 10
Educación 12
Salud 13
Industria automotriz 13
Agricultura y medioambiente 14
Procesos industriales 15
Compras 15
Usos gubernamentales 16
Grandes jugadores en el mercado de Big data 17
Seguridad y privacidad en los ambientes de Big Data 19
Seguridad 20
Privacidad en ambientes de Big data 21
Gobierno de Datos 21
Principio que deben regir el gobierno de datos 23
Beneficios para la entidad al estructurar gobierno de datos 24
Transformación digital en entornos del Gobierno 25
Referencias 27
Glosario 28
3
Objetivo
Identificar los usos actuales de los ambientes Big Data, con
el fin de comprender sus potenciales usos, los alcances del
machine learning, las ventajas de los servicios soportados en
analítica de datos y la importancia de la ciberseguridad.
Resumen
En este capítulo abordaremos aspectos relacionados con los
lenguajes típicos utilizados para hacer proyectos de analítica,
las múltiples aplicaciones de Big Data en el mundo actual, las
amenazas que tienen los datos y la mejor forma de entender
el proceso de gobierno de datos en una Entidad.
4
Lenguajes de
programación y
usos de Big Data
Conceptos generales sobre
lenguajes de programación
El desarrollo de la ciencia de datos ha estado favo-
recido por el uso de lenguajes de programación
orientados hacia la analítica y la inteligencia artifi-
cial, los cuales están caracterizados por ser lengua-
jes interpretados, es decir, no requieren ser compi-
lados para ser ejecutados. Es importante recordar
que existen lenguajes de programación que gene-
ran códigos “objeto” comúnmente los reconoce-
mos porque su extensión al nombrar los archivos es
“.exe”. Estos lenguajes normalmente se van ejecu-
tando al momento de irse escribiendo.
Lenguaje R
6
Unidad 2. Lenguajes de programación y usos de Big Data
7
Lenguaje Python
Al igual que “R”, este es un lenguaje de código • Aplicaciones de inteligencia artificial y Ma-
abierto, gratuito, simple y fácil de entender. Tam- chine learning, gracias a sus capacidades de
bién utiliza una sintaxis sencilla y dispone de una tratamiento de datos y reconocimiento de
amplia biblioteca de herramientas. Es un lenguaje imágenes.
de amplio uso por profesionales vinculados con la
inteligencia artificial. • Desarrollo de juegos (Capacitarte blog, s.f.).
8
Unidad 2. Lenguajes de programación y usos de Big Data
Figura 1.
¿Qué herramientas usar?
¿Que herramientas usar?
TRADICIONAL
ALMACENAMIENTO PROCESAMIENTO
HDFS Hive
No SQL Pig
Map Reduce
Spark
BIG DATA
9
Ejemplos de aplicaciones de la
ciencia de datos y Big data en el
mundo actual
La ciencia de datos hoy está inmersa en múltiples
aplicaciones que van desde estrictamente científi-
co, la investigación aplicada hasta aplicaciones co-
merciales que apoyan los procesos de crecimiento
y penetración de las empresas en sus mercados
objetivos. La conjugación de diversas tecnologías
emergentes tales como el Internet de las cosas
(IoT), la robotización mediante (RPA – Robotic Pro-
cessing Automation), la computación en la nube,
ha permitido la proliferación de códigos basados
en lenguajes de programación orientados a la in-
teligencia artificial, que están permitiendo avances
vertiginosos en diversos frentes de trabajo del ser
humano.
10
Unidad 2. Lenguajes de programación y usos de Big Data
11
Educación
12
Unidad 2. Lenguajes de programación y usos de Big Data
Uno de los sectores que producen mayores cau- Algoritmos que procesarán información del estado
dales de datos en un país, es el relacionado con los de salud de un paciente en tránsito en una ambu-
procesos de atención ciudadana relacionados con lancia, por ejemplo, facilitarán el desplazamiento
la salud. La integración de datos, previendo todos oportuno hacia los centros asistenciales que ten-
los esquemas de seguridad y protección a la infor- gan disponibles los especialistas, equipos o espa-
mación sensible y personal, que pueda hacerse de cios físicos de atención. Esto puede lograrse por la
las entidades prestadoras de salud, facilitará la toma interconexión e interoperabilidad que podrá hacer-
de decisiones oportunas en lo individual y en lo co- se y debe buscarse entre todas las empresas que
lectivo, para determinar acciones preventivas más prestan servicio de salud en un país.
que reactivas, que busquen preservar la vida de los
ciudadanos. Obtener perfiles de patologías, cua- Industria automotriz
dros clínicos, enfermedades comunes por regiones,
géneros, edades, niveles sociales, entre otros, facili-
tarán la creación de políticas públicas que promue- La revolución en la industria de los automóviles
van esta vez de manera real y sensata, procesos de generará también gran producción de datos rela-
promoción y prevención de la salud (PyP). cionados con el comportamiento en el funciona-
miento de los vehículos, como en los hábitos de
• Potenciando el uso del Internet de las conducción. Este sin número de variables que se
cosas. acumulan permanentemente en los computado-
res instalados en estos medios de transporte, están
La fabricación de sensores como parte del rápido gestando nuevos modelos operativos para diversas
crecimiento del (IoT) ha tenido para los procesos empresas.
de salud un alto impacto. Hoy existen y se siguen
produciendo masivamente, dispositivos que per- Tal es el caso de las industrias de los seguros para
miten detectar remotamente señales biométricas conductores, dado que los pagos de las primas por
sobre la salud de pacientes, que están en sus casas aseguramiento, que típicamente están tasadas por
o lugares de trabajo. Ya es común el uso de herra- la edad de los conductores y los porcentajes de re-
mientas conectadas a la piel u órganos del cuerpo clamación que evidencian, serán calculadas a partir
humano, las cuales permiten monitorear el estado de variables en tiempo real que entregan los siste-
de pacientes, permitiendo alertas tempranas so- mas de procesamiento a bordo de los vehículos.
bre su funcionamiento e incluso la dosificación de
medicación a través de Internet. En la mejora de
la calidad de la atención y la calidad de vida de los
pacientes, la inteligencia artificial está permitiendo
13
De esta manera, Big Data permitirá procesar gran-
des y disímiles cantidades de datos relacionados • Control de la velocidad del vehículo.
con las prácticas de conducción y manejo. Entonces
cifras relacionadas con variables tales como: formas • Vehículos autónomos, sin conductor, que
de frenado y aceleración, excesos de velocidad, si- funcionan a partir de servicios de la IoT.
tios de parqueo, horas y días de desplazamiento de
los conductores, áreas geográficas donde se movi- Agricultura y medioambiente
lizan; serán entre otras, variables que personalizan
las nuevas tarifas de los seguros, dado que la enti-
dad aseguradora podrá determinar para todos sus • Pronósticos sobre cambio en el clima
clientes actuales y potenciales, los niveles de riesgo
asociados a sus comportamientos seguidos online Hoy existen múltiples dispositivos que son insta-
como actuales conductores. lados en el campo y en las ciudades, estos buscan
tomar información sobre el estado del clima, tem-
A parte podemos decir que estos SmartCars, se en- peraturas, humedad, velocidad y dirección del vien-
tregan no solo al conductor, sino también a otras to, radiación lumínica, etc., los dispositivos captan y
entidades como talleres, dealers (concesionarios), transmiten streaming, los cuales son procesados en
fabricantes y aseguradores, información sobre con- centros de información utilizando plataformas de
sumos de combustible, estados de los neumáticos, Big Data.
aceleraciones, sensores de posición y proximidad
entre muchos otros datos. Otros datos que estarán Con esta información sumada a otros datos prove-
a la orden del día a partir de los computadores ins- nientes de satélites y de algunos drones, permitirá
talados en los vehículos son: establecer con muy alta precisión, los fenómenos
naturales que evidencian diversas zonas de la tie-
• Monitoreo y control de tráfico de las ciuda- rra. En el corto plazo, las labores agrícolas, la planea-
des. ción de siembras y cosechas entre otras actividades
campestres, podrán realizarse con altos niveles de
• dentificar información sobre lo que está des- certidumbre y bajos riesgos de pérdida. Esta aplica-
compuesto en un auto. ción tecnológica, es de alto valor para las personas y
empresas dedicadas al sector agropecuario.
• Monitoreo inalámbrico de presión de los
neumáticos. • De otra parte, el IoT permite recolectar datos
14
Unidad 2. Lenguajes de programación y usos de Big Data
15
te, entregarán en línea, información de inventarios
actuales, procedencia geográfica de productos,
vencimientos y control de calidad de los mismos.
Estos millones de datos para ser tratados y generar
los pronósticos que necesita la industria del retail,
están haciendo uso de arquitecturas de Big Data
para lograr sus objetivos.
Usos gubernamentales
Los estados podrán captar datos de cada uno de sus
ciudadanos aprovechando la masificación en el uso
de dispositivos móviles. En la mayoría de los países
incluyendo Colombia, hay más teléfonos celulares
que personas; y esos números están rebasados por
la cantidad de dispositivos de IoT que estarán dis-
persos en todas las ciudades. Las posibilidades de
interconexión para tales dispositivos móviles, harán
que se dispongan de diversos canales para que el
Estado pueda interactuar con el ciudadano. Podrán
entregarse al canal que más utilice un ciudadano,
las políticas públicas que el Gobierno considere les
sea de alto interés. Por ejemplo, dependiendo de
la región del país y la red social más usada, como
ejemplo es Facebook, TikTok, Instagram, etc., en-
tonces la data de interés puede ser publicada en
esos canales de mayor uso regionales.
16
Grandes jugadores
en el mercado de
Big data
En la unidad 1 al referirnos a la analítica y sus dife- La disyuntiva de las empresas entre utilizar centros
rentes presentaciones, se hace referencia a las “5Vs” de procesamiento propios (on premise), o utilizar
que caracterizan una infraestructura de este tipo, servicios en la nube está sobre la mesa, sin embar-
velocidad, volumen, variedad, valor y veracidad. Un go es de suponerse que paulatinamente se estarán
factor determinante es el flujo de datos (cantidad) moviendo las empresas hacia esta última, pues es
que una empresa utiliza para catalogarse como claro entender que las capacidades de almacena-
una entidad que necesita Big data. Algunos auto- miento procesamiento, backup y seguridad, son de
res mencionan que el volumen debe estar por enci- mayor garantía desde estos gigantes de tecnología.
ma de los 100 Terabytes, pero bien podría pasar que Factores que han promovido su rápido crecimiento
una organización tenga un rango inferior de volu- en los últimos años son varios, siendo uno de ellos,
men, pero tiene presión con las otras 4 variables la coyuntura pandémica que vivió el mundo desde
mencionadas. Empresas como Amazon, Microsoft, el año 2020 y que obligó a muchas empresas a uti-
Google con AWS, Azure y Google Cloud acaparan lizar los servicios de computación en la nube como
la atención, por no solo cumplir con creces las 5Vs, un recurso estratégico.
sino también por el rápido crecimiento en las capa-
cidades de almacenamiento de datos con informa- Es difícil establecer diferencias notables entre estas
ción de todos sus usuarios. plataformas de servicio hegemónicas, ya que los
niveles de desarrollo e inversión en nuevos perfor-
Estas organizaciones ofrecen a todas sus empresas mances tecnológicos son pan de cada día al interior
usuarias, capacidades de almacenamiento, proce- de estas organizaciones (Jones, 2021).
samiento en diferentes presentaciones, como son:
SaaS, software como servicio; IaaS, infraestructura
como servicio; PaaS, plataforma como servicio. Por
esa variedad, oportunidad y seguridad en los servi-
cios, cada vez son más las empresas que ingresan a
sus portafolios de clientes. De otro lado se encuen-
tra el software libre (open source), con desarrollos
de gran fortaleza y uso ampliado como “Hadoop”
y otros productos relacionados. Es claro entender
que hoy en día hay completa interoperabilidad en-
tre estas plataformas de modo que una compañía
puede tener ecosistemas en los cuales varios de los
proveedores le suministren los servicios.
18
Seguridad y privacidad
en los ambientes de
Big Data
Seguridad
• Spoofing: consiste en una suplantación de
El crecimiento superlativo en el número de dispo-
la identidad de alguien en la web. Se realiza
sitivos conectados a Internet, que se calcula en el
cuando un usuario recibe enlaces a través de
2025 llegue a los 100 billones conectados a la Red,
páginas falsas (fakes), haciéndose pasar por
el reconocimiento del trabajo virtual como una po-
otra entidad y a través de un “clic” aparen-
sibilidad para las organizaciones y centros de edu-
temente confiable e inofensivo, el atacante
cación, han promovido así mismo serios riesgos en
malicioso se hace a la información ajena,
la seguridad de la información.
para acceder a cuentas de correo electrónico,
ingresar a redes sociales u otra información
El desconocimiento significativo de los usuarios de
que sea de interés para sus fines indebidos.
computadores, en lo que respecta a los riesgos que
conlleva el descuidado uso que se haga de los me-
dios tecnológicos, ha facilitado la perpetración de • Spyware: los datos de un computador perso-
crímenes cibernéticos a pequeña, mediana y gran nal o un servidor quedan expuestos cuando
escala. se instala un software espía en el computa-
dor de la víctima. Este código recopila infor-
Los ataques pueden ser originados desde el interior mación sensible del computador o disposi-
de las mismas empresas (insiders) por parte de em- tivo del usuario y lo transmite a una entidad
pleados desleales o pueden provenir desde exterior externa, a partir de la cual se inician acciones
mediante las conexiones a Internet. fraudulentas relacionadas con estafas, ame-
nazas o extorsiones.
El observar noticias sobre grandes organizaciones,
entidades del estado y empresas de todo tipo, que • Ramsomware: esta actividad ilícita es de uso
han sido vulneradas por acciones de hackeo a la in- frecuente y expansivo y son bastantes las
formación, da cuenta que el riesgo es para todos y organizaciones y ciudadanos que se están
por ello la alfabetización en términos de la seguri- viendo afectados por este tipo de malware.
dad de la información se vuelve una herramienta Se caracteriza por una infección al sistema
de primer orden. Algunos riesgos típicos cuando operativo y los datos, de modo de que se
usamos Internet son los siguientes (Kaspersky, s.f.) encripta o cifran los archivos evitando que
el computador sea usado; y para facilitar de
• Phishing onsite: este riesgo consiste en la nuevo su uso, la víctima debe pagar un resca-
obtención de la información personal o te normalmente a través de criptomonedas.
corporativa a través de engaños a los que se Es conocido normalmente como secuestro
expone el usuario, de modo que el victimario de datos.
se gana la confianza de su víctima haciéndo-
se pasar por una persona, un servicio o una • Spamming: hace referencia al spam o co-
empresa de confianza. De esta manera lo rreo basura. Es usado para poblar las cuen-
conduce a efectuar actividades que exponen tas de correo de los usuarios con noticias,
su reputación, su moral o su estado financie- ofrecimientos, imágenes que nunca fueron
ro solicitadas por el dueño del dispositivo. Esta
información de tipo publicitario, es enviada
por los atacantes masivamente para lograr
que algunos usuarios desprevenidos, caigan
en la estrategia de engaño o promoción no
solicitada permanentemente.
20
Unidad 2. Lenguajes de programación y usos de Big Data
21
Datos
Unidad 2. Lenguajes de programación y usos de Big Data
23
Beneficios para la entidad al es-
tructurar gobierno de datos
24
Transformación
digital en entornos
del Gobierno
Es una realidad que los acontecimientos de impac- • La nueva visión empresarial que potencia
to mundial acontecidos desde el año 2020 con la el uso de tecnologías de información debe
pandemia removieron y revolucionaron las prácti- considerar la analítica de datos como un
cas laborales en todas las entidades independien- proyecto prioritario que conlleva a la imple-
temente de su misión institucional. Una de las con- mentación de ambientes de Big Data en la
clusiones de este episodio, es la necesidad urgente información.
de las organizaciones para modernizar sus procesos
productivos y administrativos. La transformación • La capacitación y venta efectiva de los pro-
digital se hace entonces una necesidad reconocida yectos de implementación tecnológica para
a todo nivel, razón por la cual debe ser entendida, todos los empleados y aliados estratégicos,
reconocida y puesta en marcha así sea en fases pre- es un factor clave de éxito en el alcance de
liminares. estos propósitos.
26
Referencias
formática física, ubicación, particionamiento, es- lo que realmente aprende es un algoritmo, el cual
calamiento, seguridad, copias de seguridad etc., supervisa los datos con la intención de poder pre-
entre otras. decir comportamientos futuros.
Inteligencia artificial: en computación se trata Open source: son programas informáticos que po-
de programas o bots diseñados para realizar de- nen a disposición de cualquier usuario el acceso a
terminadas operaciones que se consideran pro- su código de programación, para facilitar el trabajo
pias de la inteligencia humana. Se trata de hacer de otros programadores ajenos la modificación del
que estos sean tan inteligentes como un huma- mismo.
no. La idea es que perciban su entorno y actúen
en base a ello, centrado en el autoaprendizaje, PaaS, plataforma como servicio: es un servicio
sean capaces de reaccionar ante nuevas situacio- en la nube que permite a los clientes aprovisionar,
nes. crear instancias, ejecutar y administrar un paquete
modular que comprende una plataforma de com-
Internet of Things (IoT): concepto creado por putación y una o más aplicaciones. Obvia al cliente
Kevin Ashton y hace referencia al ecosistema en la complejidad de construir y mantener la infraes-
el que los objetos cotidianos están interconecta- tructura típicamente asociada con el desarrollo y
dos a través de Internet. lanzamiento de las aplicaciones.
Lenguaje C++: es un lenguaje de programación RFID: identificación por radiofrecuencia (Radio Fre-
orientado a objetos de gran poder que se usa quency ID) es un sistema de almacenamiento y re-
para realizar programación estructurada de alto cuperación de datos remotos que usa dispositivos
nivel y rendimiento, como sistemas operativos, vi- denominados etiquetas y tarjetas basadas en RFID.
deojuegos y aplicaciones en la nube.
SaaS, software como servicio: es un modelo de ser-
Lenguaje Perl: su sigla significa Practical Ex- vicio de distribución de software donde el soporte
traction and Report Languaje. Este lenguaje de lógico y los datos que requiere una empresa, se alo-
programación y de distribución gratuita está jan en servidores de una compañía de tecnologías
pensado para tratar un gran volumen de datos. de información y comunicación, a los que se acce-
Algunos de sus usos son el mercado de finanzas de vía Internet desde un cliente.
y de la bioinformática.
Small Data: mucho más pequeño que el Big Data,
Machine learning (aprendizaje automático): se refiere al análisis que se hace con pocas fuentes
este término hace referencia a la creación de sis- de datos.
temas a través de la inteligencia artificial, donde
29