Está en la página 1de 10

El origen moderno del Big Data.

EL ORIGEN MODERNO DE BIG DATA El término “Big data” suele aplicarse a


conjuntos de datos que superan la capacidad del software habitual para ser
capturados, gestionados y procesados en un tiempo razonable y por los medios
habituales de procesamiento de la información.
Este término suele referirse a los siguientes tipos de datos:
Datos de la empresa tradicional: incluye información de los clientes en sistemas de
CRM, datos transaccionales ERP, las transacciones de tienda web, los datos
contables, etcétera.
Machine-generated /sensor data: incluye registros de detalles de llamadas (“Cali
Detail Records, CDR”), los weblogs, los medidores inteligentes, los sensores de
fabricación, registros de equipos, datos de sistemas comerciales, etc.
Datos de medios sociales: Incluye datos sobre blogs, Twiter, plataformas de Social
Media como Facebook, etc.
Grandes bases de datos: con información multidimensional, relacional  y no
relacional.
Grandes conjuntos de datos no estructurados con mezcla de fuentes de origen y
tipos de datos: numéricos, textuales, gráficos, etc.
Tipos de fuentes del Big Data
Las fuentes de datos origen de los Big Data pueden ser clasificadas en diferentes
categorías, cada una de las cuales contiene a su vez un buen número de fuentes
diversas que recolectan, almacenan, procesan y analizan. Recurriremos a una
clasificación muy referenciada en la documentación (Soares, 2012),
• Web y social media
Incluye contenido Web e información que es obtenida de los medios sociales
como Facebook, Twitter, LinkedIn, Foursquare, Tuenti; blogs como
Technorati, de periódicos y televisiones; wikis como MediaWiki, Wikipedia;
marcadores sociales como Del.icio.us, Stumbleupon; agregadores de
contenidos como Digg, Meneame.

Los datos de la Web y de los medios sociales se analizan con herramientas


de analítica Web y analítica social mediante el uso de métricas y de
indicadores KPI. (KPI son las siglas de Key Performance Indicators, que
puede traducirse al castellano como “Indicadores Clave de Desempeño”.
Estos indicadores se componen de variables, factores o unidades de medida
que sirven para generar estrategias dentro de los departamentos de una
empresa.)
• Máquina-a-Máquina (M2M)/ Internet de las cosas
M2M se refiere a las tecnologías que permiten conectarse a otros diferentes
dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores
que capturan algún evento en particular (humedad, velocidad, temperatura,
presión, variables meteorológicas, variables químicas como la salinidad), los
cuales transmiten a través de redes cableadas, inalámbricas y móviles a
otras aplicaciones, que traducen estos eventos en información significativa.

• Transacciones de grandes datos


Son los grandes datos transaccionales procedentes de operaciones
normales de transacciones de todo tipo. Incluye registros de facturación, en
telecomunicaciones y registros detallados de las llamadas (CDR), entre otros

• Biometría
La biometría o reconocimiento biométrico3 se refiere a la identificación
automática de una persona basada en sus características anatómicas o
trazos personales. Los datos anatómicos se crean a partir del aspecto físico
de una persona, incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, genética, ADN, reconocimiento de voz, incluso olor
corporal. Los datos de comportamiento incluyen análisis de pulsaciones y
escritura a mano.

• Datos generados por las personas


Las personas generan enormes y diversas cantidades de datos como la
información que guarda un centro de llamadas telefónicas (call center) al
establecer una llamada telefónica, notas de voz, correos electrónicos,
documentos electrónicos, estudios y registros médicos electrónicos, recetas
médicas, documentos papel, faxes.

• Definición de Inteligencia artificial


Según, según (Gutiérrez, 2006, p.11) la inteligencia artificial es una de las
áreas más fascinantes y con más retos de las ciencias de la Computación ya
que ha tomado a la inteligencia como la característica universalmente
aceptada para diferenciar a los humanos de otras criaturas ya sean vivas o
inanimadas, para construir programas o computadoras inteligentes.
(Bourcier, 2003, p.56) dice que la inteligencia artificial es una rama de la
informática que intenta reproducir las funciones cognitivas humanas como el
razonamiento, la memoria, el juicio o la decisión y, después, confiar una parte
de esas facultades, que se consideramos signos de inteligencia, a los
ordenadores.
En general se puede decir que la inteligencia artificial es aquella disciplina
que tiene como objetivo el estudio de la conducta humana, mediante el
análisis del comportamiento inteligente del ser humano, mismo que se puede
denominar análisis de los procesos cognoscitivos, debido a que estos se
enfocan en el estudio de los procesos internos que conducen al aprendizaje.

• Machine learning
Machine Learning es uno de los subcampos de la Inteligencia Artificial y
puede ser definido como: “Machine Learning es la ciencia que permite que
las computadoras aprendan y actúen como lo hacen los humanos, mejorando
su aprendizaje a lo largo del tiempo de una forma autónoma, alimentándolas
con datos e información en forma de observaciones e interacciones con el
mundo real.” — Dan Fagella
• Tipos de Machine Learning
Los tipos de Machine Learning que se tratarán en esta serie son:
o Aprendizaje supervisado
o Aprendizaje no supervisado
o Aprendizaje profundo

• Aprendizaje Supervisado
Se refiere a un tipo de modelos de Machine Learning que se entrenan con un
conjunto de ejemplos en los que los resultados de salida son conocidos. Los
modelos aprenden de esos resultados conocidos y realizan ajustes en sus
parámetros interiores para adaptarse a los datos de entrada. Una vez el
modelo es entrenado adecuadamente, y los parámetros internos son
coherentes con los datos de entrada y los resultados de la batería de datos
de entrenamiento, el modelo podrá realizar predicciones adecuadas ante
nuevos datos no procesados previamente.
Hay dos aplicaciones principales de aprendizaje supervisado:  clasificación
y regresión.

Clasificación es una sub-categoría de aprendizaje supervisado en la que el


objetivo es predecir las clases categóricas (valores discretos, no ordenados,
pertenencia a grupos). El ejemplo típico es la detección de correo spam, que
es una clasificación binaria (un email es spam — valor “1”- o no lo es — valor
“0” -).

La regresión se utiliza para asignar categorías a datos sin etiquetar. En este


tipo de aprendizaje tenemos un número de variables predictoras
(explicativas) y una variable de respuesta continua (resultado), y se tratará
de encontrar una relación entre dichas variables que nos proporciones un
resultado continuo.

• Aprendizaje No Supervisado
En el aprendizaje no supervisado, trataremos con datos sin etiquetar cuya
estructura es desconocida. El objetivo será la extracción de información
significativa, sin la referencia de variables de salida conocidas, y mediante la
exploración de la estructura de dichos datos sin etiquetar.
Hay dos categorías principales: agrupamiento y reducción dimensional

o Agrupamiento ó Clustering:
El agrupamiento es una técnica exploratoria de análisis de datos, que
se usa para organizar información en grupos con significado sin tener
conocimiento previo de su estructura. Cada grupo es un conjunto de
objetos similares que se diferencia de los objetos de otros grupos. El
objetivo es obtener un numero de grupos de características similares.
Un ejemplo de aplicación de este tipo de algoritmos puede ser para
establecer tipos de consumidores en función de sus hábitos de
compra, para poder realizar técnicas de marketing efectivas y
“personalizadas”.
o Reducción dimensional:
Es común trabajar con datos en los que cada observación se presenta
con alto número de características, en otras palabras, que tienen alta
dimensionalidad. Este hecho es un reto para la capacidad de
procesamiento y el rendimiento computacional de los algoritmos de
Machine Learning. La reducción dimensional es una de las técnicas
usadas para mitigar este efecto. La reducción dimensional funciona
encontrando correlaciones entre las características, lo que implica que
existe información redundante, ya que alguna característica puede
explicarse parcialmente con otras (por ejemplo, puede existir
dependencia lineal). Estas técnicas eliminan “ruido” de los datos (que
puede también empeorar el comportamiento del modelo), y comprimen
los datos en un sub-espacio más reducido, al tiempo que retienen la
mayoría de la información relevante.
• Deep Learning
El aprendizaje profundo ó Deep Learning, es un subcampo de Machine
Learning, que usa una estructura jerárquica de redes neuronales artificiales,
que se construyen de una forma similar a la estructura neuronal del cerebro
humano, con los nodos de neuronas conectadas como una tela de araña.
Esta arquitectura permite abordar el análisis de datos de forma no lineal.
La primera capa de la red neuronal toma datos en bruto como entrada, los
procesa, extrae información y la transfiere a la siguiente capa como salida.
Este proceso se repite en las siguientes capas, cada capa procesa la
información proporcionada por la capa anterior, y así sucesivamente hasta
que los datos llegan a la capa final, que es donde se obtiene la predicción.
Esta predicción se compara con el resultado conocido, y así por análisis
inverso el modelo es capaz de aprender los factores que conducen a salidas
adecuadas
Aprendizaje reforzado
El aprendizaje reforzado es una de las ramas más importantes del
aprendizaje profundo.
El objetivo es construir un modelo con un agente que mejora su rendimiento,
basándose en la recompensa obtenida del entorno con cada interacción que
se realiza. La recompensa es una medida de lo correcta que ha sido una
acción para obtener un objetivo determinado. El agente utiliza esta
recompensa para ajustar su comportamiento futuro, con el objetivo de
obtener la recompensa máxima.
Un ejemplo común es una máquina de ajedrez, donde el agente decide entre
una serie de posibles acciones, dependiendo de la disposición del tablero
(que es el estado del entorno) y la recompensa se recibe según el resultado
de la partida.

Preprocesamiento:
Este es uno de los pasos más importantes en cualquier aplicación de
Machine Learning. Usualmente los datos se presentan en formatos no
óptimos (o incluso inadecuados) para ser procesados por el modelo. En estos
casos el preprocesamiento de datos es una tarea que se debe realizar de
manera obligatoria
Muchos algoritmos requieren que las características estén en la misma
escala (por ejemplo, en el rango [0,1]) para optimizar su rendimiento, lo que
se realiza frecuentemente aplicando técnicas de normalización o
estandarización en los datos.

Entrenando y seleccionando un modelo


Es esencial comparar los diferentes algoritmos de un grupo para entrenar y
seleccionar el de mejor rendimiento. Para realizar esto, es necesario
seleccionar una métrica para medir el rendimiento del modelo.

1.2. Tipos de aplicaciones de IA y big data.


Tipos de inteligencia artificial.
El funcionamiento de la Inteligencia Artificial depende en gran medida de los
algoritmos y proceso empleados para desarrollarla o de los objetivos que se
persiguen con ella, por ello podemos hablar de diferentes tipos de IA.
Una primera diferencia la podemos hacer entre los sistemas de IA débil e IA fuerte.
Los primeros, también conocidos como IA estrecha, son sistemas diseñados y
entrenados para realizar una única tarea. Mientras que los segundos, también
llamados como inteligencia general artificial, son sistemas que cuentan con
habilidades cognitivas humanas generalizadas, de manera que tienen la capacidad
de encontrar por sí mismas la solución a una tarea planteada.
Una segunda forma de distinguir entre tipos de IA la encontramos en la
categorización que hizo Arend Hintze, profesor de biología integradora e ingeniería
y ciencias de la computación en la Universidad Estatal de Michigan. Hintze distingue
entre 4 tipos de IA, tanto existentes hoy en día como todavía por desarrollarse.

Máquinas reactivas.
Las máquinas reactivas son el tipo más básico de Inteligencia Artificial; se basan en
decisiones sobre el presente, es decir, no tienen memoria y, por lo tanto, no pueden
mirar al pasado para aprender de experiencias pasadas y son incapaces de
evolucionar. Un ejemplo de este tipo de IA lo encontramos en Deep Blue, el
ordenador que ganó al ajedrez al campeón Kasparov. Este ordenador era capaz de
reconocer las figuras en el tablero y procesar 200 millones de movimientos en un
segundo, pero ese era su único objetivo, procesar la información y los datos en
busca del mejor movimiento en tiempo real en función a las jugadas de su oponente.
Las máquinas de IA de memoria limitada son capaces de mirar al pasado, pero de
una forma limitada y temporal. De esta manera, pueden almacenar la información
que recogen durante cierto tiempo y añadirla a su programación para crear nuevos
patrones de comportamiento y respuesta para un futuro no lejano. Es decir, que no
son capaces de realizar representaciones completas y perdurables en el tiempo.

Teoría de la mente
La teoría de la mente presenta sistemas o máquinas cuya IA les permite entender
cómo funciona su entorno, es decir, las personas, objetos y otros sistemas que les
rodean. Son sistemas capaces de aprender en base a nuestros comportamientos y
deducir y saber cuáles son nuestros gustos, necesidades, deseos o hasta cómo
esperamos ser tratados.

Autoconciencia
Hemos llegado a lo que todavía es terreno de la ciencia ficción, porque actualmente
no existe ningún tipo de IA con autoconciencia. Se trataría de una Inteligencia
Artificial que ha desarrollado conciencia de sí misma y es capaz de reconocerse
como una entidad independiente, que puede tomar sus propias decisiones,
diferenciando entre ella y los objetos, personas y sistemas que la rodean. Sería el
primer paso en lo que ha denominado la singularidad de la tecnológica.
Aplicaciones de la inteligencia artificial.
La Inteligencia Artificial se emplea en muchos ámbitos actuales y sin duda son
muchas las aplicaciones de la misma que pueden aprovechar las empresas para
mejorar sus procesos de ventas, reclutamiento o en sus servicios de atención al
cliente.
Marketing y ventas
En un mercado cada vez más competitivo, donde se hace necesario ofrecer
productos o servicios con un valor añadido para poder diferenciarse de la
competencia, el análisis de datos y la elaboración de perfiles de consumidores son
clave y es aquí donde entra la Inteligencia Artificial aplicada al marketing y las
ventas, puesto que permite automatizar procesos como la minería y análisis de la
información extraída. La IA aplicada al marketing permite predecir futuras
necesidades a través del empleo de herramientas capaces de analizar conductas y
elaborar patrones de comportamiento en base a la huella que los usuarios dejan en
Internet. Así, pueden elaborar perfiles de usuarios, segmentar la audiencia y poder
así ofrecerles productos según sus necesidades y deseos.
Ejemplos:
• Publicidad Programática
• Creación de contenido
• Curación de Contenido
• Email Marketing

Atención al cliente
Los departamentos de atención al cliente también pueden beneficiarse del empleo
de sistemas de Inteligencia Artificial, puesto que pueden delegar algunas tareas en
asistentes virtuales. Pero no solo eso, como en el caso del marketing, pueden
analizar el comportamiento de los usuarios y poder ofrecerles la ayuda que buscan
prácticamente en tiempo real.

Recursos humanos
Los departamentos de recursos humanos también pueden servirse de los sistemas
de Inteligencia Virtual para llevar a cabo los procesos de selección y reclutamiento
de trabajadores o llevar a cabo otras tareas relacionadas con el análisis y la gestión
de los datos de la empresa, de manera que la IA agrupe estos datos y proporcione
diferentes resultados respecto a diferentes áreas, como la evolución del talento, la
productividad o los conflictos.
Ventajas y desventajas de la inteligencia artificial
• Aumenta la eficacia de los procesos y los lleva a cabo de forma más rápida.
• Permite automatizar procesos repetitivos.
• Al estar basada en procedimientos computacionales, no comete errores
humanos.  Es incansable, puede trabajar todos los días a todas horas.
• Puede facilitar el día a día de las personas con herramientas como los
asistentes virtuales.
• Es capaz de analizar enormes cantidades de datos, extraer información
relevante y crear perfiles o modelos predictivos en muchos ámbitos
(medicina, comportamiento social, medioambiente, etc.).
• Puede realizar tareas que para los humanos serían peligrosas o imposibles.

desventajas o peligros que puede entrañar la IA encontramos


• Cuanto más sofisticados y complejos se vuelven los sistemas de Inteligencia
Artificial, más probable se hace que puedan sustituir a los trabajadores
humanos, impactando negativamente en el mercado laboral.
• Puesto que aún carecen de creatividad y capacidad de improvisación, sus
soluciones y respuestas están basadas en algoritmos y análisis de
información preexistente, lo que limita su capacidad de tomar decisiones más
allá de los datos.
• Su carencia de empatía o sentimientos la hace «inútil» para desempeñar
tareas en las que el factor humano es fundamental.
• Se puede emplear con fines ilegales, como la creación y distribución de
malware o la suplantación de identidad.
• Plantea dudas éticas en cuanto a su evolución hacia IA autoconscientes.
Aplicaciones del machine learning
• Detección de rostro
• Gmail
• Anti-virus detectando softwares maliciosos.
• Importante en la Genética para la clasificación de secuencias de ADN.
• Comprensión de textos
• Vehículos autónomos y robots:
• Análisis de imágenes de alta calidad
• Diagnósticos médicos basado en síntomas del paciente
• Detectar fraudes en transacciones
• Predecir fallos de maquinaria.
• En el área de los Recursos Humanos para saber si un trabajador será
rentable el año que viene.
• Predecir el tráfico en las ciudades.
• Seleccionar clientes potenciales basándose en las redes sociales
• Modificar una app móvil basándose en los comportamientos de los usuarios
• Decidir cuál es la mejor hora para llamar a un cliente
• Posicionamiento en buscadores
• Reconocimeitno de voz

1.3. Procesamiento de datos


7 tipos de algoritmos del machine learning
1. Algoritmos de regresión
En las tareas de regresión, el programa de aprendizaje automático debe
estimar y comprender las relaciones entre las variables. El análisis de
regresión se enfoca en una variable dependiente y una serie de otras
variables cambiantes, lo que lo hace particularmente útil para la predicción y
el pronóstico.
2. Algoritmos bayesianos
Este tipo de algoritmos por clasificación están basados en el teorema de
Bayes y clasifican cada valor como independiente de cualquier otro. Lo que
permite predecir una clase o categoría en función de un conjunto dado de
características, utilizando la probabilidad.
A pesar de su simplicidad, el clasificador funciona sorprendentemente bien y
se usa a menudo porque supera a los métodos de clasificación más
sofisticados.
3. Algoritmos de agrupación
Se utilizan en el aprendizaje no supervisado, y sirven para categorizar datos
no etiquetados, es decir, datos sin categorías o grupos definidos.
El algoritmo funciona mediante la búsqueda de grupos dentro de los datos,
con el número de grupos representados por la variable K. A continuación,
funciona de manera iterativa para asignar cada punto de datos a uno de los
K grupos según las características proporcionadas.
4. Algoritmos de árbol de decisión
Un árbol de decisión es una estructura de árbol similar a un diagrama de flujo
que utiliza un método de bifurcación para ilustrar cada resultado posible de
una decisión. Cada nodo dentro del árbol representa una prueba en una
variable específica, y cada rama es el resultado de esa prueba.
5. Algoritmos de redes neuronales
Una red neuronal artificial (RNA) comprende unidades dispuestas en una
serie de capas, cada una de las cuales se conecta a las capas anexas. Las
RNA se inspiran en los sistemas biológicos, como el cerebro, y en cómo
procesan la información.
6. Algoritmos de reducción de dimensión
7. Algoritmos de Aprendizaje Profundo
Los algoritmos de aprendizaje profundo ejecutan datos a través de varias
capas de algoritmos de redes neuronales, las cuales pasan a una
representación simplificada de los datos a la siguiente capa

1.4. Análisis y procesamiento de datos.

Los elementos típicos de cualquier lenguaje son los siguientes:


• Identificadores.
• Tipos de datos.
• Palabras reservadas.
• Sentencias.
• Bloques de código.
• Comentarios.
• Expresiones.
• Operadores

También podría gustarte