Está en la página 1de 30

UNIDAD DIDÁCTICA 2

Lenguajes de
programación y
usos de Big Data

Subdirección Nacional de Proyección Institucional


Escuela Superior de Administración Pública
ESAP

Unidad Didáctica
Lenguajes de programación y usos de
Big Data

Autor
Norbey Mejía Chica

Equipo de producción de la Dirección de


Entornos y Servicios Virtuales-ESAP Corrección
de estilo, acompañamiento pedagógico, diseño
instruccional, diseño gráfico y virtualización.

Fecha última
Fecha últimarevisión
versión
Abril 2022
Marzo de 2023

ESAP ha verificado, hasta donde es posible, que el contenido de los enlaces web citados y presentados en este curso sean
verídicos y que correspondan; sin embargo, y debido a la naturaleza dinámica de internet, ESAP no puede responsabilizarse
por el correcto y adecuado funcionamiento de los mismos.

La mayoría de las imágenes de este documento han sido compradas a través de: https://www.shutterstock.com

2
Unidad 2. Lenguajes de programación y usos de Big Data

Contenido
Objetivo 4
Resumen 4
Lenguajes de programación y usos de Big Data 5
Conceptos generales sobre lenguajes de programación 6
Lenguaje R 6
Lenguaje Python 8
Ejemplos de aplicaciones de la ciencia de datos y Big data en el mundo actual 10
Ciudades inteligentes y transporte 10
Educación 12
Salud 13
Industria automotriz 13
Agricultura y medioambiente 14
Procesos industriales 15
Compras 15
Usos gubernamentales 16
Grandes jugadores en el mercado de Big data 17
Seguridad y privacidad en los ambientes de Big Data 19
Seguridad 20
Privacidad en ambientes de Big data 21
Gobierno de Datos 21
Principio que deben regir el gobierno de datos 23
Beneficios para la entidad al estructurar gobierno de datos 24
Transformación digital en entornos del Gobierno 25
Referencias 27
Glosario 28

3
Objetivo
Identificar los usos actuales de los ambientes Big Data, con
el fin de comprender sus potenciales usos, los alcances del
machine learning, las ventajas de los servicios soportados en
analítica de datos y la importancia de la ciberseguridad.

Resumen
En este capítulo abordaremos aspectos relacionados con los
lenguajes típicos utilizados para hacer proyectos de analítica,
las múltiples aplicaciones de Big Data en el mundo actual, las
amenazas que tienen los datos y la mejor forma de entender
el proceso de gobierno de datos en una Entidad.

Las temáticas que serán tratadas dan alcance a la revisión de


los lenguajes de programación R y Python y sus caracterís-
ticas, ejemplos de aplicaciones que hoy tienen la ciencia de
datos y Big Data, los grandes jugadores en el mercado de Big
Data, la seguridad y privacidad en los ambientes de Big Data
y el concepto sobre gobierno de datos.

4
Lenguajes de
programación y
usos de Big Data
Conceptos generales sobre
lenguajes de programación
El desarrollo de la ciencia de datos ha estado favo-
recido por el uso de lenguajes de programación
orientados hacia la analítica y la inteligencia artifi-
cial, los cuales están caracterizados por ser lengua-
jes interpretados, es decir, no requieren ser compi-
lados para ser ejecutados. Es importante recordar
que existen lenguajes de programación que gene-
ran códigos “objeto” comúnmente los reconoce-
mos porque su extensión al nombrar los archivos es
“.exe”. Estos lenguajes normalmente se van ejecu-
tando al momento de irse escribiendo.

Otros factores que los identifican están relaciona-


dos por tener estos lenguajes matemáticos y esta-
dísticos que facilitan sus usos para propósitos de
análisis complejos de datos. Dos lenguajes de uso
común por los profesionales que laboran en ciencia
de datos son el “R” y el “Python”. Revisemos las ca-
racterísticas de estos.

Lenguaje R

Como habíamos mencionado este lenguaje eje-


cuta instrucciones directamente sin necesidad de
ser compilado para llevar el lenguaje a la máquina.
Se utiliza principalmente para hacer computación
estadística y gráfica debido a su potencial usando
librerías de recursos matemáticos como modelos
lineales y no lineales. Variables estadísticas comu-
nes, métodos de agrupación, series de tiempo en-
tre otras (UNIR, 2019).

Este lenguaje al igual que Python se desarrolla a


partir de ambientes colaborativos y abiertos, quiere
decir esto, que son muchos los programadores que
trabajan libremente generando nuevos recursos de
programación y sus publicaciones se suman unas a
otras, para robustecer cada vez más este lenguaje
computacional.

6
Unidad 2. Lenguajes de programación y usos de Big Data

Características funcionales de “R”:


Áreas de uso de “R”:
• Gran capacidad para recolectar y aplicar Es usado en todo el ciclo de vida de uso de los
herramientas de análisis de datos. datos desde su recolección hasta su aplicación,
por ejemplo, en los siguientes escenarios:
• Buenas capacidades para visualizar datos a
través de representaciones gráficas. • Captura de datos, ya que puede manejar da-
tos de diversas fuentes como bases de datos
• Buen manejo y almacenamiento de datos a y archivos de texto, entre otros.
gran velocidad.
• En preparación de datos, pues facilita la re-
• Facilidades para documentar el código y fa- visión inicial de datos para determinar datos
cilitar su entendimiento por quienes lo leen. inconsistentes, nulos, duplicados, máximos y
mínimos entre otros.
• Integración fácil con otros lenguajes de pro-
gramación como C, C++, Perl y Python. • Presentación de resultados, ya que tiene
facilidad para elaborar informes de fácil en-
• Integración con diversas bases de datos. tendimiento y comprensión por parte de los
usuarios finales.
• Creación de informes automáticos conforme
a las necesidades de los usuarios. • Aplicación de los resultados obtenidos, usa-
do para análisis de series de datos históricos
• Disponibilidad de herramientas de análisis y modelos de predicción.
estadístico.
Empresas reconocidas que usan “R”:
Es usado en compañías tales como: IBM, Micro-
soft, Oracle, Google, Facebook, Twitter, Bank of
América entre otros.

7
Lenguaje Python

Al igual que “R”, este es un lenguaje de código • Aplicaciones de inteligencia artificial y Ma-
abierto, gratuito, simple y fácil de entender. Tam- chine learning, gracias a sus capacidades de
bién utiliza una sintaxis sencilla y dispone de una tratamiento de datos y reconocimiento de
amplia biblioteca de herramientas. Es un lenguaje imágenes.
de amplio uso por profesionales vinculados con la
inteligencia artificial. • Desarrollo de juegos (Capacitarte blog, s.f.).

Características funcionales de “Python”:


Empresas reconocidas que usan “Python”:
• Capacidades para usar herramientas diver-
sas de análisis de datos. Es usado por compañías tales como: Netflix, NASA,
Facebook, YouTube, Instagram entre otras.
• Recursos que facilitan la creación de páginas
web. ¿Qué lenguaje estudiar si estoy interesado en
ciencia de datos?
• Es “multiparadigma”, es decir, multipropósito
lo que facilita su aplicación para desarrollos Las preguntas claves que un interesado debe ha-
de modernos analíticos, creación de web si- cerse para seleccionar el lenguaje para estudiar
tes, así como creación de código para Machi- son las siguientes:
ne learning o Deep learning.
• ¿Qué perfil tengo? Tiene que ver con la
• Desarrollo permanente de nuevas librerías experiencia previa de que se disponga, si es
de software y aplicaciones. amplia como desarrollador de software o
como analista de datos.
• Funciona igual que “R” en diferentes siste-
mas operativos como Windows o Linux. • ¿En qué deseo trabajar? Está relacionado
este cuestionamiento con el conocer si el
Áreas de uso de “Python”: interesado tiene perfil muy técnico o si la ex-
periencia está asociada a decisiones típicas
• Desarrollo web, sus múltiples marcos de de- de un negocio.
sarrollo facilitan integrarse con otros protoco-
los de programación, reduciendo tiempos de A partir de resolver estos interrogantes puede de-
desarrollo. terminar qué lenguaje es el más recomendado.

• Uso en ciencia de datos.

• Usos en comercio electrónico.

• Facilidad en visualización de datos mediante


gráficas y tablas.

8
Unidad 2. Lenguajes de programación y usos de Big Data

Figura 1.
¿Qué herramientas usar?
¿Que herramientas usar?

TRADICIONAL

Bases de datos relacionales SAS


Archivos IBM
R
Phyton

ALMACENAMIENTO PROCESAMIENTO

HDFS Hive
No SQL Pig
Map Reduce
Spark

BIG DATA

Fuente: elaboración propia

Como lo vemos en la figura anterior si se tienen habilidades como desarrollador de


software y se mueve más en ámbitos de decisiones de negocio, ambos lenguajes pue-
do utilizarlos. Si el perfil es negocio y se tiene experiencia como analista de datos el
lenguaje “R” que es el recomendado. Si el perfil es técnico y la mayor experiencia es
como desarrollador, “Python” es una buena alternativa. Si se es un técnico que gusta
del análisis de datos ambos lenguajes son recomendados.

9
Ejemplos de aplicaciones de la
ciencia de datos y Big data en el
mundo actual
La ciencia de datos hoy está inmersa en múltiples
aplicaciones que van desde estrictamente científi-
co, la investigación aplicada hasta aplicaciones co-
merciales que apoyan los procesos de crecimiento
y penetración de las empresas en sus mercados
objetivos. La conjugación de diversas tecnologías
emergentes tales como el Internet de las cosas
(IoT), la robotización mediante (RPA – Robotic Pro-
cessing Automation), la computación en la nube,
ha permitido la proliferación de códigos basados
en lenguajes de programación orientados a la in-
teligencia artificial, que están permitiendo avances
vertiginosos en diversos frentes de trabajo del ser
humano.

Ciudades inteligentes y transporte

Las Smartcities o ciudades inteligentes están sien-


do un campo de acción de alto interés para la in-
dustria relacionada con Big Data y aplicaciones de
inteligencia artificial, debido a la necesidad de ana-
lizar grandes volúmenes de datos y generar repor-
tes en tiempo real. Algunos ejemplos en los cuales
se presenta un amplio espacio de aplicación son los
siguientes (Barclays Investment Bank, 2020):

10
Unidad 2. Lenguajes de programación y usos de Big Data

Análisis de servicios de seguridad ciudadana.


Optimización del flujo de transporte en las vías.
Es necesario usar Big Data para recolectar datos
que se conviertan en información oportuna reu- Obtener datos en línea de los flujos vehiculares en
niendo diversas fuentes de datos en una ciudad. las diferentes vías de la ciudad apoyados en sen-
Por ejemplo, el integrar datos provenientes de las sores, permitirán hacer análisis para determinar la
cámaras de seguridad instaladas en las calles, con programación de cambios en los semáforos viales.
los reportes que por diferentes medios hacen los De esta manera, se pasa de una programación de
ciudadanos de diversos incidentes; compilar, com- pasos en los cruces viales, a decisiones autónomas
parar y extraer información histórica de bases de de los semáforos producto de la aplicación de Ma-
datos de historial delictivo enlazando las unidades chine learning, lo cual generará la aplicación de
de reacción de los organismos de seguridad de una cambios automáticos, dependiendo de lo que real-
ciudad, son una necesidad que las administracio- mente suceda en el momento en las calles. Así mis-
nes de los municipios y ciudades tienen por hacer mo, los conductores dispondrán de información en
en el mundo actual. tiempo real del estado de las vías, para tener la ca-
pacidad de reacción y decidir sobre nuevas rutas.
El integrar en tiempo real y a través de streaming
toda la información disponible, promoverá mejores Servicios públicos inteligentes.
ejercicios de control y protección al ciudadano. Ciu-
dades como Londres, Singapur, Seattle son ejemplo Los millones de habitantes que pueblan las ciuda-
de estos procesos de fusión de diversas fuentes de des generan a través del uso de los servicios públi-
información con óptimos resultados. cos grandes volúmenes de datos. Así, por ejemplo,
los consumos de energía en los hogares y en las
Los ciudadanos por su parte, también se verán fa- industrias están produciendo múltiples datos per-
vorecidos al tomar decisiones respecto de su mo- manentemente. La aplicación de Big Data a los mi-
vilidad y sitios de destino dependiendo del estado llones de cifras relacionadas permitirá que sistemas
de seguridad que ofrecen tales sitios y el compor- autónomos decidan sobre los flujos energéticos
tamiento del tránsito vehicular hasta ellos, mientras que deben colocarse en diferentes partes de una
reciben información inmediata en sus dispositivos ciudad, pronosticar los flujos de entrega y determi-
móviles. nar la presencia de fallas o fraudes en los procesos
de consumo. Este tipo de análisis podrá hacerse
igualmente en otros servicios como el acueducto,
gas y telefonía por citar algunos.

11
Educación

El periodo pospandémico ha dejado muchas lec-


ciones en todas las naciones. Una de ellas es el cam-
bio en los paradigmas de los procesos educativos
relacionados con el tiempo y con el espacio para su
ejecución. Independientemente del nivel del desa-
rrollo de cada país, es claro que la virtualización es
una alternativa y la necesidad del uso de medios
computacionales para estudiantes y profesores po-
tencia los ejercicios de enseñanza y aprendizaje.

Ahora imaginen que todas las bibliotecas públicas


y privadas dispongan de medios que les faciliten ser
interoperables y que los estudiantes puedan acce-
der sin restricciones a todas las fuentes de consulta
disponibles. Ejercicios de Big Data soportados en
máquinas de aprendizaje automático, permitirán
determinar cuáles son las áreas de conocimiento
que más necesitan ser soportadas en determina-
das instituciones y para cuáles estudiantes en es-
pecífico.

Herramientas computacionales que le entreguen


y sugieran a los estudiantes libros, capítulos, te-
máticas donde encontrar información que les sea
oportuna y efectiva, esto asociado a los promedios
de notas que evidencian debilidades en el apren-
dizaje, sería una loable aplicación que promueva el
desarrollo en la educación de un país. Podemos así
mismo suponer el efecto positivo en la gestión de
asistencia de profesores, tutores y entes responsa-
bles de administrar decisiones en este sector.

12
Unidad 2. Lenguajes de programación y usos de Big Data

Salud decisiones relacionadas con terapéuticas que par-


ten del análisis automático de los datos de salud del
Una de las aplicaciones de mayor valor para el ser paciente. Administrar datos provenientes de pulse-
humano cuando se usan Tecnologías de la Infor- ras, cinturones y relojes inteligentes, podrán apoyar
mación y las Comunicaciones, tiene que ver con la el seguimiento individual de pacientes y de profe-
mejora en los sistemas de atención a la salud. Usar sionales de la salud, pudiéndose a través de estas
Big Data junto con las diversas tecnologías asocia- aplicaciones advertir el apego de los pacientes a las
das tal como el Cloud Computing y la analítica de recomendaciones que se le suministran. Así mis-
datos, permitirá lograr altas eficiencias en ese tipo mo, la analítica de datos permitirá a las empresas y
de servicios. Veamos algunos casos: a los mismos Gobiernos, conocer el perfil saludable
de las personas y en consecuencia tomar las accio-
• Seguimiento de enfermedades nes más ajustadas a la realidad existente.

Uno de los sectores que producen mayores cau- Algoritmos que procesarán información del estado
dales de datos en un país, es el relacionado con los de salud de un paciente en tránsito en una ambu-
procesos de atención ciudadana relacionados con lancia, por ejemplo, facilitarán el desplazamiento
la salud. La integración de datos, previendo todos oportuno hacia los centros asistenciales que ten-
los esquemas de seguridad y protección a la infor- gan disponibles los especialistas, equipos o espa-
mación sensible y personal, que pueda hacerse de cios físicos de atención. Esto puede lograrse por la
las entidades prestadoras de salud, facilitará la toma interconexión e interoperabilidad que podrá hacer-
de decisiones oportunas en lo individual y en lo co- se y debe buscarse entre todas las empresas que
lectivo, para determinar acciones preventivas más prestan servicio de salud en un país.
que reactivas, que busquen preservar la vida de los
ciudadanos. Obtener perfiles de patologías, cua- Industria automotriz
dros clínicos, enfermedades comunes por regiones,
géneros, edades, niveles sociales, entre otros, facili-
tarán la creación de políticas públicas que promue- La revolución en la industria de los automóviles
van esta vez de manera real y sensata, procesos de generará también gran producción de datos rela-
promoción y prevención de la salud (PyP). cionados con el comportamiento en el funciona-
miento de los vehículos, como en los hábitos de
• Potenciando el uso del Internet de las conducción. Este sin número de variables que se
cosas. acumulan permanentemente en los computado-
res instalados en estos medios de transporte, están
La fabricación de sensores como parte del rápido gestando nuevos modelos operativos para diversas
crecimiento del (IoT) ha tenido para los procesos empresas.
de salud un alto impacto. Hoy existen y se siguen
produciendo masivamente, dispositivos que per- Tal es el caso de las industrias de los seguros para
miten detectar remotamente señales biométricas conductores, dado que los pagos de las primas por
sobre la salud de pacientes, que están en sus casas aseguramiento, que típicamente están tasadas por
o lugares de trabajo. Ya es común el uso de herra- la edad de los conductores y los porcentajes de re-
mientas conectadas a la piel u órganos del cuerpo clamación que evidencian, serán calculadas a partir
humano, las cuales permiten monitorear el estado de variables en tiempo real que entregan los siste-
de pacientes, permitiendo alertas tempranas so- mas de procesamiento a bordo de los vehículos.
bre su funcionamiento e incluso la dosificación de
medicación a través de Internet. En la mejora de
la calidad de la atención y la calidad de vida de los
pacientes, la inteligencia artificial está permitiendo
13
De esta manera, Big Data permitirá procesar gran-
des y disímiles cantidades de datos relacionados • Control de la velocidad del vehículo.
con las prácticas de conducción y manejo. Entonces
cifras relacionadas con variables tales como: formas • Vehículos autónomos, sin conductor, que
de frenado y aceleración, excesos de velocidad, si- funcionan a partir de servicios de la IoT.
tios de parqueo, horas y días de desplazamiento de
los conductores, áreas geográficas donde se movi- Agricultura y medioambiente
lizan; serán entre otras, variables que personalizan
las nuevas tarifas de los seguros, dado que la enti-
dad aseguradora podrá determinar para todos sus • Pronósticos sobre cambio en el clima
clientes actuales y potenciales, los niveles de riesgo
asociados a sus comportamientos seguidos online Hoy existen múltiples dispositivos que son insta-
como actuales conductores. lados en el campo y en las ciudades, estos buscan
tomar información sobre el estado del clima, tem-
A parte podemos decir que estos SmartCars, se en- peraturas, humedad, velocidad y dirección del vien-
tregan no solo al conductor, sino también a otras to, radiación lumínica, etc., los dispositivos captan y
entidades como talleres, dealers (concesionarios), transmiten streaming, los cuales son procesados en
fabricantes y aseguradores, información sobre con- centros de información utilizando plataformas de
sumos de combustible, estados de los neumáticos, Big Data.
aceleraciones, sensores de posición y proximidad
entre muchos otros datos. Otros datos que estarán Con esta información sumada a otros datos prove-
a la orden del día a partir de los computadores ins- nientes de satélites y de algunos drones, permitirá
talados en los vehículos son: establecer con muy alta precisión, los fenómenos
naturales que evidencian diversas zonas de la tie-
• Monitoreo y control de tráfico de las ciuda- rra. En el corto plazo, las labores agrícolas, la planea-
des. ción de siembras y cosechas entre otras actividades
campestres, podrán realizarse con altos niveles de
• dentificar información sobre lo que está des- certidumbre y bajos riesgos de pérdida. Esta aplica-
compuesto en un auto. ción tecnológica, es de alto valor para las personas y
empresas dedicadas al sector agropecuario.
• Monitoreo inalámbrico de presión de los
neumáticos. • De otra parte, el IoT permite recolectar datos

• Gestión inteligente de la energía necesaria y


consumida.

• Autodiagnóstico, acelerómetros, sensores de


posición, de presencia y de proximidad.

• Análisis previo en tiempo real, sobre la mejor


ruta a seleccionar para desplazarse a un sitio.
• Localización por GPS.

14
Unidad 2. Lenguajes de programación y usos de Big Data

a través de sensores de elementos conta- de logística, producción, embalajes, empaques,


minantes presentes en el medioambiente, transporte de producto terminado y materia pri-
incluyendo las mediciones de ruido, la pre- ma. Podrán pronosticarse planes de producción y
sencia de CO2. Aplicando ciencia de datos, de entrega e incluso los costos relacionados con
se puede decidir oportunamente nuevas materias primas, para calcular existencias de los
rutas o desplazamientos de las personas y insumos, capacidades de almacenamiento y los
sus medios de transporte, para proteger la costos totales del proceso productivo.
salud de quienes ejercen labores en cam-
pos abiertos. Los datos de contaminación
ambiental, al ser enlazados con los organis-
Compras
mos responsables de administrar el tráfico
vehicular y peatonal, permitirán divulgar a Los ejercicios comerciales están logrando el mayor
través de dispositivos móviles, alertas tem- provecho de la ciencia de datos, la analítica y las
pranas sobre los riesgos relacionados. plataformas de Big data. Un claro ejemplo lo cons-
tituyen Amazon y Mercado libre. Estas organizacio-
Es ideal que las bases de datos e información nes usando algoritmos de alta, siguen de manera
analítica que se consolida en los diferentes países individual el comportamiento de compra de todos
puedan ser compartida así mismo con otros a fin sus clientes. Pueden predecir sus intenciones para
de establecer patrones asociados con los niveles adquirir mercadería, hacer sugerencias, recomen-
de contaminación a mayor escala y prever impac- dar productos y servicios afines y todo esto gracias
tos sobre otras regiones adyacentes a los países. al almacenamiento de cada uno de los clic aplica-
Con esto, las medidas de control de protección al dos y las rutas de navegación que hacen los ciber-
medioambiente serían aún más oportunas y con nautas a través de páginas web de estas empresas
un efecto extendido a todos los que potencial- o terceros relacionados. Amazon por citar un caso,
mente se vieran afectados. tiene en sus bases de datos información sobre lo
que compramos usando su plataforma, cantida-
Procesos industriales des adquiridas, fechas, horas, sitios de compra, di-
rección ip de donde se compró, páginas visitadas,
entre muchos otros datos.
Las plantas de producción pueden ser seguidas
y monitoreadas a través de la instalación de sen- Las capacidades de geolocalización que tienen
sores en diversos de sus componentes. Así, por los dispositivos móviles, les dan información per-
ejemplo, módulos de fabricación en serie pueden manente de nuestra ubicación. En el futuro próxi-
disponer de sensores inteligentes de movimien- mo, no será extraño que solamente escribas en tu
to, fuerza, carga, vibraciones, temperaturas, hu- móvil que necesitas y un vehículo de delivery te lo
medades e incluso con cámaras inteligentes que entregará en unos cuantos minutos, pues ellos sa-
hacen reconocimiento de la fisonomía y compor- brán con gran rapidez, exactamente qué es lo que
tamiento de las diferentes partes que constituyen deseamos adquirir.
la infraestructura de la planta de producción.
Los datos recopilados y procesados facilitan rea- Tecnologías relacionadas con RFID, etiquetas elec-
lizar mantenimientos predictivos, optimizando trónicas, lectores de códigos de barras por su par-
los costos y tiempos relacionados con estas. Los
robots hoy son usados para labores de logística,
facilitar la gestión de almacenes, varios de ellos
que, estando dotados de software de aprendizaje
automático, harán más eficientes las actividades

15
te, entregarán en línea, información de inventarios
actuales, procedencia geográfica de productos,
vencimientos y control de calidad de los mismos.
Estos millones de datos para ser tratados y generar
los pronósticos que necesita la industria del retail,
están haciendo uso de arquitecturas de Big Data
para lograr sus objetivos.

Usos gubernamentales
Los estados podrán captar datos de cada uno de sus
ciudadanos aprovechando la masificación en el uso
de dispositivos móviles. En la mayoría de los países
incluyendo Colombia, hay más teléfonos celulares
que personas; y esos números están rebasados por
la cantidad de dispositivos de IoT que estarán dis-
persos en todas las ciudades. Las posibilidades de
interconexión para tales dispositivos móviles, harán
que se dispongan de diversos canales para que el
Estado pueda interactuar con el ciudadano. Podrán
entregarse al canal que más utilice un ciudadano,
las políticas públicas que el Gobierno considere les
sea de alto interés. Por ejemplo, dependiendo de
la región del país y la red social más usada, como
ejemplo es Facebook, TikTok, Instagram, etc., en-
tonces la data de interés puede ser publicada en
esos canales de mayor uso regionales.

La masificación de los medios de pago electróni-


cos, llevará entonces a los países a repensar las po-
líticas de uso de dinero en efectivo, ya que cada día
es aún más creciente el uso del pago digital.

Un Estado tendrá la posibilidad incluso de ejercer


mucho más control, al poder saber si se lo permitie-
ran, no solo donde se encuentran los ciudadanos,
sino también los sitios que frecuenta, con quien se
reúne, cuánto dinero gasta y en qué lo gasta. Esto
conlleva a realizar sin objeciones, estudios asocia-
dos sobre la privacidad necesaria de todos los ciu-
dadanos y otros derechos que les asisten.

16
Grandes jugadores
en el mercado de
Big data
En la unidad 1 al referirnos a la analítica y sus dife- La disyuntiva de las empresas entre utilizar centros
rentes presentaciones, se hace referencia a las “5Vs” de procesamiento propios (on premise), o utilizar
que caracterizan una infraestructura de este tipo, servicios en la nube está sobre la mesa, sin embar-
velocidad, volumen, variedad, valor y veracidad. Un go es de suponerse que paulatinamente se estarán
factor determinante es el flujo de datos (cantidad) moviendo las empresas hacia esta última, pues es
que una empresa utiliza para catalogarse como claro entender que las capacidades de almacena-
una entidad que necesita Big data. Algunos auto- miento procesamiento, backup y seguridad, son de
res mencionan que el volumen debe estar por enci- mayor garantía desde estos gigantes de tecnología.
ma de los 100 Terabytes, pero bien podría pasar que Factores que han promovido su rápido crecimiento
una organización tenga un rango inferior de volu- en los últimos años son varios, siendo uno de ellos,
men, pero tiene presión con las otras 4 variables la coyuntura pandémica que vivió el mundo desde
mencionadas. Empresas como Amazon, Microsoft, el año 2020 y que obligó a muchas empresas a uti-
Google con AWS, Azure y Google Cloud acaparan lizar los servicios de computación en la nube como
la atención, por no solo cumplir con creces las 5Vs, un recurso estratégico.
sino también por el rápido crecimiento en las capa-
cidades de almacenamiento de datos con informa- Es difícil establecer diferencias notables entre estas
ción de todos sus usuarios. plataformas de servicio hegemónicas, ya que los
niveles de desarrollo e inversión en nuevos perfor-
Estas organizaciones ofrecen a todas sus empresas mances tecnológicos son pan de cada día al interior
usuarias, capacidades de almacenamiento, proce- de estas organizaciones (Jones, 2021).
samiento en diferentes presentaciones, como son:
SaaS, software como servicio; IaaS, infraestructura
como servicio; PaaS, plataforma como servicio. Por
esa variedad, oportunidad y seguridad en los servi-
cios, cada vez son más las empresas que ingresan a
sus portafolios de clientes. De otro lado se encuen-
tra el software libre (open source), con desarrollos
de gran fortaleza y uso ampliado como “Hadoop”
y otros productos relacionados. Es claro entender
que hoy en día hay completa interoperabilidad en-
tre estas plataformas de modo que una compañía
puede tener ecosistemas en los cuales varios de los
proveedores le suministren los servicios.

18
Seguridad y privacidad
en los ambientes de
Big Data
Seguridad
• Spoofing: consiste en una suplantación de
El crecimiento superlativo en el número de dispo-
la identidad de alguien en la web. Se realiza
sitivos conectados a Internet, que se calcula en el
cuando un usuario recibe enlaces a través de
2025 llegue a los 100 billones conectados a la Red,
páginas falsas (fakes), haciéndose pasar por
el reconocimiento del trabajo virtual como una po-
otra entidad y a través de un “clic” aparen-
sibilidad para las organizaciones y centros de edu-
temente confiable e inofensivo, el atacante
cación, han promovido así mismo serios riesgos en
malicioso se hace a la información ajena,
la seguridad de la información.
para acceder a cuentas de correo electrónico,
ingresar a redes sociales u otra información
El desconocimiento significativo de los usuarios de
que sea de interés para sus fines indebidos.
computadores, en lo que respecta a los riesgos que
conlleva el descuidado uso que se haga de los me-
dios tecnológicos, ha facilitado la perpetración de • Spyware: los datos de un computador perso-
crímenes cibernéticos a pequeña, mediana y gran nal o un servidor quedan expuestos cuando
escala. se instala un software espía en el computa-
dor de la víctima. Este código recopila infor-
Los ataques pueden ser originados desde el interior mación sensible del computador o disposi-
de las mismas empresas (insiders) por parte de em- tivo del usuario y lo transmite a una entidad
pleados desleales o pueden provenir desde exterior externa, a partir de la cual se inician acciones
mediante las conexiones a Internet. fraudulentas relacionadas con estafas, ame-
nazas o extorsiones.
El observar noticias sobre grandes organizaciones,
entidades del estado y empresas de todo tipo, que • Ramsomware: esta actividad ilícita es de uso
han sido vulneradas por acciones de hackeo a la in- frecuente y expansivo y son bastantes las
formación, da cuenta que el riesgo es para todos y organizaciones y ciudadanos que se están
por ello la alfabetización en términos de la seguri- viendo afectados por este tipo de malware.
dad de la información se vuelve una herramienta Se caracteriza por una infección al sistema
de primer orden. Algunos riesgos típicos cuando operativo y los datos, de modo de que se
usamos Internet son los siguientes (Kaspersky, s.f.) encripta o cifran los archivos evitando que
el computador sea usado; y para facilitar de
• Phishing onsite: este riesgo consiste en la nuevo su uso, la víctima debe pagar un resca-
obtención de la información personal o te normalmente a través de criptomonedas.
corporativa a través de engaños a los que se Es conocido normalmente como secuestro
expone el usuario, de modo que el victimario de datos.
se gana la confianza de su víctima haciéndo-
se pasar por una persona, un servicio o una • Spamming: hace referencia al spam o co-
empresa de confianza. De esta manera lo rreo basura. Es usado para poblar las cuen-
conduce a efectuar actividades que exponen tas de correo de los usuarios con noticias,
su reputación, su moral o su estado financie- ofrecimientos, imágenes que nunca fueron
ro solicitadas por el dueño del dispositivo. Esta
información de tipo publicitario, es enviada
por los atacantes masivamente para lograr
que algunos usuarios desprevenidos, caigan
en la estrategia de engaño o promoción no
solicitada permanentemente.
20
Unidad 2. Lenguajes de programación y usos de Big Data

Es fácil deducir que son muchas las organizaciones


• Wardriving: esta técnica fraudulenta con- interesadas en el perfilamiento que los grandes ju-
siste en detectar redes de wifi que estén gadores de Big Data, que tienen de los usuarios que
ausentes de seguridad, para que el atacan- hacen uso de sus servicios informáticos. Ocasional-
te pueda conectarse y utilizar los servicios mente escuchamos y leemos noticias relacionadas
de datos que son propiedad de la víctima. con afectaciones a la dignidad de personas, repu-
El wardriving toma su punto más álgido tación de empresas e incluso inestabilidad de esta-
cuando se logran penetrar a los sistemas mentos gubernamentales por divulgaciones inde-
informáticos de la persona o de la empre- bidas a datos de carácter sensible. La legislación de
sa, conocer y copiar información sensible los Estados deberá promover y actualizar acciones
y utilizarla para defraudar a estos usuarios preventivas, normas y sanciones afines con estas si-
afectados. tuaciones. En Colombia la Ley 1581 de 2012 busca
proteger los datos personales de sus ciudadanos.
Son aún más los riesgos a los que estamos ex-
puestos al usar Internet, los cuales no serán de- La dependencia de plataformas digitales, el uso de
tallados en esta unidad. Cada día seremos aún dispositivos móviles, los servicios de corporaciones
más dependientes de esta Red y por ello debe- a través de medios digitales, hacen que los usuarios
mos estar atentos, conociendo nuevos riesgos, cada vez más entreguen datos personales, familia-
informándonos de las prácticas de ataque y esto res y empresariales para que puedan ser visibles los
poder protegernos. servicios que necesitan. Por ello la insistencia en
promulgar nuevas y permanente leyes, con actua-
Privacidad en ambientes de Big lizaciones frecuentes, orientadas a la protección de
los datos de los individuos, donde nadie está en po-
data testad para usar mal la información de la que no es
propietario, ni tiene autorización para usarla.
La transformación digital está moviendo a las
empresas hacia ambientes digitales cada vez ma- Se hace definitivo entonces que los estados y las
yores. Podemos advertir que son ya infrecuentes entidades públicas o privadas gestionen progra-
procesos de una organización que no estén im- mas permanentes de capacitación orientadas a la
pactados por las tecnologías de la información y seguridad de la información, al cuidado de los da-
las comunicaciones. La proliferación de datos y el tos y a las mejores prácticas para consérvalos y pro-
uso masivo de redes sociales genera diariamente tegerlos. No hay nada más dinámico que los riesgos
grandes caudales de datos. De acuerdo con es- en el uso de Internet y de los recursos tecnológicos
timaciones de revistas especializadas se estima asociados. Cada día emergen nuevos riesgos y nue-
que para el 2025 serán creados 463 exabytes cada vas amenazas, lo que debe conllevar a permanen-
día en todo el mundo, que por efectos de com- tes acciones de actualización en los conocimientos
paración es como si se llenaran con datos diaria- pertinentes en los usuarios de computadores.
mente más de 210.000.000 de DVD, la pregunta
es, ¿quién y cómo se protegen estos datos?; ¿qué
garantías le ofrecen a los ciudadanos que los da-
tos no serán mal usados, negociados o inadecua-
damente almacenados?
Gobierno de

21
Datos
Unidad 2. Lenguajes de programación y usos de Big Data

Se ha estado analizando sobre la necesidad de


Principio que deben regir el gobier-
las entidades para evaluar sus procesos de pene- no de datos
tración paulatina a los ámbitos de Big Data, esto
por los altos volúmenes de información que tienen La decisión de una corporación de establecer un
recopiladas, como producto de la gestión que de- gobierno de datos para allanar el camino hacia
sarrollan, resultado de su función natural desde el una futura incrementación de Big Data, debe ser
momento que fueron creadas. Ahora bien, no se una decisión asumida como proyecto estratégico
puede pensar en Big Data sin antes no concebir de la organización a través de una estructura me-
“small data”. Con ello hacemos referencia a iden- todológica que facilite y garantice su adecuada
tificar cuáles son aquellos primeros ejercicios, que implementación. Se recomienda entonces tener
permiten conocer las tendencias de los ciudada- en cuenta varios principios que deben ser de total
nos o clientes de una corporación privada o enti- conocimiento por parte de los funcionarios y áreas
dad pública, mostrados a partir de sus hábitos de participantes, entonces:
consulta o sus hábitos de consumo. Esas pistas son
con seguridad precursores de las tendencias que a • Identificar quienes son los responsables de
futuro orientarán las decisiones de los clientes. los datos, quienes los usuarios y el tipo de uso que
debe darse.
Es poco probable hacerse a esos patrones iniciales
de comportamiento, cuando no hay una clara y es- • Implementar un lenguaje único sobre los
tratégica organización de los datos al interior de la datos de modo que adopten nemotecnias y codi-
entidad y de los stakeholders relacionados, a saber, ficaciones estándares de fácil entendimiento de to-
los proveedores, clientes, propietarios, comunidad dos en la organización.
impactada, aliados entre otros.
• Promover el aseguramiento de los datos a
Surge entonces la necesidad de las entidades reco- través de la declaración de normas relacionadas
nozcan el estado de madurez que tienen sus datos, con confidencialidad, disponibilidad e integridad.
de forma que se identifiquen las debilidades y for-
talezas de la arquitectura de datos, la cual es heren- • Tener solamente determinados los datos
cia de los sistemas de información ya implantados, como activos de información los cuales deben ser
de las metodologías de desarrollo utilizadas, de las compartidos con todas las dependencias que llega-
políticas de TI y de las políticas propias de la organi- ron a necesitar.
zación. El camino hacia Big Data debe estar prece-
dido por decisiones sobre la estructura, tipificación, • Adquirir o desarrollar herramientas que fa-
uso y almacenamiento de los datos. Estas reglas de ciliten hacer seguimiento a los datos haciéndolo fá-
manejar eficientemente datos bajo un marco for- cilmente trazables.
mal del trabajo constituyen un gobierno de datos.
El gobierno de datos consiste en la capacidad de • Crear una estrategia para la implementa-
una organización para gestionar el conocimien- ción de analítica de datos, de modo que sean ex-
to que tiene sobre sus datos, de forma que pueda plotables fácilmente a partir de las funciones del
responder a preguntas tales como: ¿qué sabemos negocio, haciendo uso de estructuras estándares y
sobre nuestra información?, ¿de dónde provienen simples.
esos datos?, ¿están estos datos alineados con la po-
lítica de la entidad? (Decreto 1008, 2018).

23
Beneficios para la entidad al es-
tructurar gobierno de datos

Actualmente las expresiones gobierno corporativo


y el gobierno TI son parte de la agenda directiva
de las organizaciones. El “gobierno de datos” debe
estar incluido y ocupar un sitio privilegiado en los
proyectos relacionados como parte de la transfor-
mación digital de las organizaciones. Gobierno de
datos significa usar datos efectivos para dar cumpli-
miento a los objetivos estratégicos, significa organi-
zación y dirección y al asumirse en el compromiso
institucional promueve los siguientes beneficios:

• Facilitar y fortalecer la toma de decisiones


corporativas.

• Facilitar la comunicación y entendimiento


entre los procesos internos que son proveedores y
clientes de datos.

• Privilegiar los requerimientos de datos que


demandan las áreas y sus funcionarios.

• Facilitar la construcción de procesos y pro-


cedimientos estándares.

• Reducir costos en la generación de informa-


ción.
• Promover la transparencia y la eficacia entre
los diferentes procesos que intercambian datos.

• Facilitar la interacción con otras entidades y


gremios afines en el uso de información específica
.

24
Transformación
digital en entornos
del Gobierno
Es una realidad que los acontecimientos de impac- • La nueva visión empresarial que potencia
to mundial acontecidos desde el año 2020 con la el uso de tecnologías de información debe
pandemia removieron y revolucionaron las prácti- considerar la analítica de datos como un
cas laborales en todas las entidades independien- proyecto prioritario que conlleva a la imple-
temente de su misión institucional. Una de las con- mentación de ambientes de Big Data en la
clusiones de este episodio, es la necesidad urgente información.
de las organizaciones para modernizar sus procesos
productivos y administrativos. La transformación • La capacitación y venta efectiva de los pro-
digital se hace entonces una necesidad reconocida yectos de implementación tecnológica para
a todo nivel, razón por la cual debe ser entendida, todos los empleados y aliados estratégicos,
reconocida y puesta en marcha así sea en fases pre- es un factor clave de éxito en el alcance de
liminares. estos propósitos.

La transformación digital es un proceso que afecta • La seguridad de la información y en parti-


a todos los entes institucionales desde los recursos cular la ciberseguridad, son aspectos que
humanos, administración, producción, ventas, mar- deben tener espacios de análisis y recursos
keting y la alta dirección. Implica una nueva forma presupuestales acordes con los proyectos.
de estructurar los modelos de servicio, de modo
que se atiendan oportunamente y con calidad las • La privacidad propia de los datos personales
nuevas necesidades de los consumidores, del ciu- deberá ser privilegiada en cualquier decisión
dadano actual, el cual está caracterizado por el de uso de datos propios y de terceros.
consumo de servicios digitales caracterizados por
la rapidez, transparencia y facilidad para tomar de- • La interoperabilidad garantizará el compartir
cisiones. recursos y servicios garantizando la partici-
pación de todos los usuarios de datos intere-
Este propósito no será propio de una entidad es- sados.
pecífica, ni de ciertos sectores en especial, pues se
convive entre ecosistemas empresariales donde • La estandarización en los modelos de datos
la adopción de procesos digitales será un común debe ser una práctica que compartan todas
denominador. Por ello es recomendable tener en las entidades, para determinar las responsa-
cuenta los siguientes aspectos, cuando la empre- bilidades en la creación, modificación, uso y
sa declare iniciar procesos de cambio tecnológico custodia sobre los datos.
que involucren la instauración de la analítica en los
servicios ciudadanos y el uso de marketing digital, • La promoción y fomento de las nuevas habi-
para garantizar que la información de servicios y las lidades digitales para todos los funcionarios
políticas públicas lleguen efectivamente a los des- de las entidades, es una condición que pro-
tinatarios. Algunos aspectos a tener en cuenta son: mueve la inclusión y el uso democrático de
todos los recursos computacionales disponi-
• La transformación digital es un cambio de bles.
cultura corporativa, no un cambio de piezas
de hardware y software.

26
Referencias

Barclays Investment Bank. (2020). The future of


Smart Cities. Recuperado de https://acortar.link/
HLoRjY

Hipervínculo:Capacitarte blog (s.f.). ¿Qué es y para


qué sirve Python? Recuperado de https://acortar.
link/rERhW0Hipervínculo:

Hipervínculo:Jones, E. (2021). AWS vs Azure en 2021


(Comparación de los gigantes de la computación
en la nube). Recuperado de Hipervínculo: https://
kinsta.com/es/blog/aws-vs-azure/

Kaspersky. (s.f.). Consejos para protegerse contra


el cibercrimen. Recuperado de Hipervínculo: ht-
tps://latam.kaspersky.com/resource-center/threats/
what-is-cybercrime

Ministerio de Tecnologías de la Información y las Co-


municaciones. (14 de junio de 2018) Manual de go-
bierno digital Implementación de la Política de Go-
bierno Digital. [Decreto 1008 de 2018]. D.O.: 50.624.
UNIR (2019). Lenguaje R, ¿qué es y por qué es tan
usado en Big Data? Recuperado de Hipervíncu-
lo: https://www.unir.net/ingenieria/revista/lengua-
je-r-big-data/
Glosario

Algoritmo: en ciencias de la computación, un al- Data scientist: el data scientist es un experto en la


goritmo es una secuencia lógica, finita y con ins- ciencia de datos (Data science). Su trabajo se cen-
trucciones que forman una fórmula matemática o tra en extraer conocimiento a partir de grandes vo-
estadística para realizar el análisis de datos. lúmenes de datos (Big Data) extraídos de diversas
fuentes y múltiples formatos para dar respuesta a
Análisis Predictivo (AP): el análisis predictivo per- las cuestiones que se planteen.
tenece al área de la analítica empresarial y trata de
utilizar los datos para determinar qué puede pasar Deep learning: o aprendizaje profundo es una téc-
en el futuro. La AP permite determinar la probabili- nica dentro del Machine learning basado en arqui-
dad asociada a eventos futuros a partir del análisis tecturas neuronales. Un modelo basado en Deep
de la información disponible (presente y pasada). learning puede aprender a realizar tareas de clasi-
También permite descubrir relaciones entre los da- ficación directamente a partir de imágenes, texto o
tos que normalmente no son detectadas con un sonido, etc. Sin necesidad de intervención humana
análisis menos sofisticado. Técnicas como la mine- para la selección de características, esto se puede
ría de datos (data mining) y los modelos predictivos considerar la principal característica y ventaja del
son utilizados. Deep learning, llamada “feature discovering”. Pue-
de poseer una precisión que supera al ser humano.
Analytics: es la forma de capturar informaciones,
procesarlas y analizarlas para que se conviertan en Deep web: Internet profunda, Internet invisible o
insights. Internet oculta. Es el contenido de la Red que no
está indexado por los motores de búsqueda con-
BI (Business intelligence): es el método que trans- vencionales y por ello es difícil rastrear a quienes las
forma informaciones almacenadas y analizadas en usan.
datos que son estratégicos para una empresa y que
se convierten en ganancia para el negocio. Exabyte (EB): un exabyte es una unidad de medi-
da de almacenamiento de datos cuyo símbolo es el
Big Data: es la expresión utilizada para designar un EB. Equivale a 10¹⁸ bytes 8 bytes.
conjunto de datos tan grande que es difícil trabajar
con los medios habituales (bases de datos). Se suele Gigabyte (GB): un gigabyte es una unidad de al-
decir que el Big Data responde a las cinco V: volu- macenamiento de información cuyo símbolo es el
men de datos importante, variedad de datos, velo- GB, equivalente a 10⁹ de bytes.
cidad a la que llegan, valor de los datos y veracidad
de los datos. Hadoop: framework de aplicaciones distribuidas
de Java de código abierto, destinado a procesar vo-
Data science (ciencia de datos): la oportunidad lúmenes de datos de varios petabytes y con miles
que los datos ofrecen para generar nuevo conoci- de nodos.
miento requiere de técnicas sofisticadas de prepa-
ración de estos datos (estructuración) y análisis de Insider: es una persona que labora dentro de una
los mismos. Así en Internet, sistemas de recomen- compañía y que tiene acceso a información de esta
dación, traducción automática y otros sistemas de ya sea comercial, legal, financiera e institucional.
inteligencia artificial se basan en técnicas de Data
science. IaaS: infraestructura como servicio; son servicios
en línea ofrecidos desde la nube, que proporcionan
apoyo en la infraestructura, a saber: recursos de in-
28
Unidad 2. Lenguajes de programación y usos de Big Data

formática física, ubicación, particionamiento, es- lo que realmente aprende es un algoritmo, el cual
calamiento, seguridad, copias de seguridad etc., supervisa los datos con la intención de poder pre-
entre otras. decir comportamientos futuros.

Inteligencia artificial: en computación se trata Open source: son programas informáticos que po-
de programas o bots diseñados para realizar de- nen a disposición de cualquier usuario el acceso a
terminadas operaciones que se consideran pro- su código de programación, para facilitar el trabajo
pias de la inteligencia humana. Se trata de hacer de otros programadores ajenos la modificación del
que estos sean tan inteligentes como un huma- mismo.
no. La idea es que perciban su entorno y actúen
en base a ello, centrado en el autoaprendizaje, PaaS, plataforma como servicio: es un servicio
sean capaces de reaccionar ante nuevas situacio- en la nube que permite a los clientes aprovisionar,
nes. crear instancias, ejecutar y administrar un paquete
modular que comprende una plataforma de com-
Internet of Things (IoT): concepto creado por putación y una o más aplicaciones. Obvia al cliente
Kevin Ashton y hace referencia al ecosistema en la complejidad de construir y mantener la infraes-
el que los objetos cotidianos están interconecta- tructura típicamente asociada con el desarrollo y
dos a través de Internet. lanzamiento de las aplicaciones.

Lenguaje C: lenguaje de programación de pro- Predictive analytics: el análisis predictivo es la uti-


pósito general orientado a la implementación de lización de datos para predecir tendencias o even-
sistemas operativos, en especial Unix. tos futuros.

Lenguaje C++: es un lenguaje de programación RFID: identificación por radiofrecuencia (Radio Fre-
orientado a objetos de gran poder que se usa quency ID) es un sistema de almacenamiento y re-
para realizar programación estructurada de alto cuperación de datos remotos que usa dispositivos
nivel y rendimiento, como sistemas operativos, vi- denominados etiquetas y tarjetas basadas en RFID.
deojuegos y aplicaciones en la nube.
SaaS, software como servicio: es un modelo de ser-
Lenguaje Perl: su sigla significa Practical Ex- vicio de distribución de software donde el soporte
traction and Report Languaje. Este lenguaje de lógico y los datos que requiere una empresa, se alo-
programación y de distribución gratuita está jan en servidores de una compañía de tecnologías
pensado para tratar un gran volumen de datos. de información y comunicación, a los que se acce-
Algunos de sus usos son el mercado de finanzas de vía Internet desde un cliente.
y de la bioinformática.
Small Data: mucho más pequeño que el Big Data,
Machine learning (aprendizaje automático): se refiere al análisis que se hace con pocas fuentes
este término hace referencia a la creación de sis- de datos.
temas a través de la inteligencia artificial, donde

29

También podría gustarte