ENyD Inteligencia Artificial - F. Doral

LA INTELIGENCIA
ARTIFICIAL Y SUS
APLICACIONES
Material original de ENyD BUSINESS SCHOOL. Permitido su uso en
programas de postgrado durante el presente curso.
Autor: Fernando Doral Fábregas
1
Índice de contenido
1. INTRODUCCIÓN 3
2. EL ANÁLISIS DE DATOS 8
2.1. Proceso de un proyecto de análisis de datos 13
3. TIPOS DE PROYECTOS DE ANÁLISIS DE DATOS 16
3.1. Proyectos de aprendizaje supervisado 16

3.2. Proyectos de aprendizaje no supervisado 18
Original de ENyD BUSINESS SCHOOL. Permitido su uso en programas de postgrado durante el presente curso.
4. CONCLUSIONES 20
Prohibida su reproducción total o parcial sin la autorización expresa de ENyD BUSINESS SCHOOL.
5. BIBLIOGRAFÍA 21
2
1. INTRODUCCIÓN
El mundo empresarial ha cambiado tanto como el mundo en que vivimos,

completamente inmerso en la era del big data. Diariamente se recogen millones de
datos por medio de cualquier entorno cotidiano: teléfonos móviles, páginas web,
dispositivos electrónicos, aparatos de domótica… De hecho cualquier acción que lleve a
cabo una persona a día de hoy puede generar millares de rastros; así, los registros de
llamadas de teléfono, mensajes de texto, asistencia a lugares, historiales de compras
o uso de aparatos electrónicos, pueden generar valiosa información que podría ser
utilizada por las empresas para mejorar o adaptar su oferta de valor, mejorando con
ello la experiencia de uso de los consumidores.
Esta explosión de información ha motivado la existencia de nuevas profesiones y

disciplinas técnicas, como la minería de datos o las técnicas de tratamiento de grandes

volúmenes de información (“big data”). La minería de datos o “data mining” es
una disciplina que combina distintas áreas como la estadística, la computación gráfica
o la inteligencia artificial, con el objetivo de explotar los datos y transformarlos en
información entendible para la gestión empresarial. Las técnicas de explotación de
grandes volúmenes de información- big data surgen como evolución de la
ingeniería informática y las matemáticas tradicionales aplicadas al tratamiento de
datos, ya adaptadas a la nueva era. Y en esta nueva realidad se ha pasado de
sistemas de bases de datos que contenían información en escala de gibabytes, y que
podían ser gestionados mediante bases de datos relacionales, al momento actual en el
que los volúmenes dimensionan terabytes o petabytes de datos, y por tanto se
requieren otros tipos de estructuras de datos. Además se ha pasado a una
multiplicación de las fuentes de datos: ya no se limitan a sistemas de información
cuya dificultad radicaba en integrar datos proporcionados por distintos sistemas
informáticos (Caballero Roldán y Martín Martín, 2015). A día de hoy se recibe multitud
de información proveniente de fuentes muy diversas y heterogéneas, tales como el
Internet de las cosas (Internet of things, IoT), los teléfonos móviles, las redes
sociales, los rastros de navegación por Internet, o los historiales de compras; en
definitiva un sinfín de fuentes que crecen exponencialmente (Raj et al., 2020).
En muchos casos, es muy probable que toda la información, o al menos la clave para
la gestión y mejora de la empresa, ya se encuentre en poder de ésta. De hecho una
de las particularidades del big data es que se hace un uso de información que no
3
necesariamente se planificó cuando ésta se recopiló (Mayer-Schönberger y Cukier,
2014). La explotación de dicha información se revela por tanto como uno de los
grandes potenciales de optimización de las compañías.
Las empresas necesitan, por una parte profesionales capaces de integrar y recopilar
toda esa información: científicos de datos (“data scientitst”) que generarán
volúmenes ingentes de datos que deberán ser explotados. Pero además, al nivel de la
gestión empresarial, será necesario contar con personas que, en primer lugar
conozcan las herramientas de tratamiento de datos para saber las posibilidades que
ofrecen y las limitaciones que tienen. En segundo lugar, sean capaces de utilizar esa
información para apoyar decisiones empresariales sólidas y bien fundamentadas.
La inteligencia de negocio o business intelligence es esa disciplina que combina

ambos perfiles: el conocedor de las fuentes de los datos y el gestor empresarial capaz
de tomar decisiones basadas en datos.
Un caso de éxito.
El director de una de las tiendas Target, la cadena estadounidense de grandes

almacenes, recibió una llamada telefónica de un cliente enfurecido. Al parecer, la
marca estaba enviando propaganda específica para mujeres embarazadas a su
hija adolescente. Ello era consecuencia de los algoritmos estadísticos que se
encargaban de caracterizar y diagnosticar si una mujer estaba embarazada, a
partir de sus patrones de compra. Los estadísticos habían invertido un gran
esfuerzo en analizar qué compras podrían ser un indicador de embarazo, y
habían descubierto que las mujeres en los primeros meses de gestación
adquirían por ejemplo grandes cantidades de jabones sin perfume,
complementos vitamínicos y esferas de jabón. Así que cuando la compra de
estos productos se disparaba por parte de una consumidora, el sistema
consideraba que se había quedado embarazada. El incidente se resolvió con una
disculpa por parte del director del establecimiento.
Dos semanas más tarde, el director volvió a llamar al hombre para disculparse
nuevamente. Y para su sorpresa, el padre de la adolescente le notificó que “en
su casa estaban ocurriendo cosas que él desconocía”, y fue él quien se disculpó
con el director de la tienda. Target había acertado en el diagnóstico, incluso
antes de que el padre de la joven tuviera noticia del embarazo.
El exceso de información. Uno de los problemas a los que se enfrenta la sociedad, y

también los profesionales de la gestión de grandes volúmenes de datos es la
infoxicación. Se trata de un término acuñado por Alfons Cornellá (2004), que sirve
para expresar los problemas que conlleva gestionar las ingentes cantidades de
información que se manejan actualmente. Este exceso de información dificulta su
4
entendimiento, hace que los usuarios y los gestores empresariales se vean abrumados
por multitud de datos, no siempre fundamentales para el desarrollo. El control de este
exceso de información es por tanto otro de los factores clave en una correcta gestión
de los datos, dado que obviamente van a seguir en aumento y afectando a todas las
áreas de la empresa.
Para gestionar correctamente la información en el seno de la empresa, se necesitará

trabajar en varias áreas, resumidas en el siguiente proceso:
1. Extracción de los datos. El primer paso será identificar las fuentes de datos
que puedan servir para tomar conclusiones válidas. En el ejemplo de la
empresa Target, incluso tan enfocados en una única fuente (los hábitos de
consumo) el hecho de identificar las variables que permitían decidir si una
mujer estaba o no embarazada, fue un hito relevante y no al alcance de
cualquier estadístico. Con ello se deben componer las estructuras que
alberguen los datos que se tomarán como base para la toma de decisiones. La
disciplina fundamental que aplica en esta fase es el big data.
2. Tratamiento de los datos. Los datos almacenados carecen por completo de

valor, hasta que se procesan y estructuran, para convertirlos en fuente de
información en el tiempo y la forma adecuados. En esta fase los datos son
gestionados utilizando herramientas informáticas, para convertirlos en
información más fácilmente analizable por las áreas de negocio. En esta
segunda fase se enclava la inteligencia de negocio o “business intelligence”.
3. Analítica de negocio. En la siguiente fase, estos datos procesados y

presentados para su estudio son analizados en profundidad para proporcionar
la base de la toma de decisiones. Se trata de la disciplina del “business
analytics” o analítica de negocios, que exige una combinación de aptitudes
relacionadas con el tratamiento de la información con las de gestión
empresarial.
4. Dirección empresarial. En el último peldaño se sitúan las decisiones

estratégicas de la empresa, tomando como base la información vertida en las
fases anteriores
5
Ilustración 1. Áreas de aplicación de la ciencia de datos
Fuente: elaboración propia.
Los perfiles para las cuatro fases van variando con respecto a su exigencia en cuanto
a conocimientos técnicos y de estrategia empresarial. Las primeras fases
corresponden a un perfil eminentemente técnico. Las fases tercera y cuarta serían

compatibles con un perfil muy estratégico en la gestión empresarial, que a la vez

contara con conocimientos de explotación de datos suficiente para solicitar y entender
los resultados de distintos informes.
Continuando con el caso anterior de la enseña Target, el proceso podría haber

respondido a la siguiente propuesta:
1. El equipo gestor de la compañía decide buscar nuevos segmentos de

consumidores, que sea interesante explotar.
2. Se lleva a cabo una segmentación del mercado y se identifica el segmento de

mujeres embarazadas como de alto potencial.
3. El equipo de mandos intermedios solicita al equipo de tratamiento de datos,

que analicen los factores que permitan clasificar quiénes pertenecen al
segmento objetivo.
4. El equipo de extracción de datos selecciona y combina las distintas fuentes de

datos (tales como el histórico de compras efectuadas), genera un modelo de
predicción y clasificación y proporciona los datos obtenidos.
5. Los datos son procesados y presentados para su análisis estratégico.
6. Tras analizarlos y validar que son consistentes y que el modelo es correcto, se

diseñan estrategias de ataque para ese segmento.
6
Como vemos, el funcionamiento ideal del proceso se basa en un constante y óptimo
flujo de comunicación y coordinación entre las distintas disciplinas.
A continuación se profundiza en los conceptos involucrados en los proyectos de

análisis de datos.
7
2. EL ANÁLISIS DE DATOS
El estudio, análisis y explotación de los datos es una disciplina en constante evolución.

Abarca una serie de conceptos que pueden complementarse con el objetivo de
desarrollar proyectos complejos de análisis de datos. A continuación se recogen
algunos de ellos.
Ilustración 2. Conceptos relacionados con la ciencia de datos

 Inteligencia artificial (IA). Sistemas informáticos que tienen como objetivo

emular (y en su caso mejorar) el comportamiento del cerebro humano.
 Aprendizaje automático. Sistemas avanzados que no funcionan únicamente

bajo la lógica programada, sino que además consiguen aprender y mejorar en
su rendimiento.
 Aprendizaje profundo. Es un grado más avanzado que el aprendizaje

automático, en el que se introducen más niveles para mejorar el aprendizaje y
hacerlo mucho más potente.
8
 Ciencia de datos. En los orígenes de la informática, los datos se almacenaban
en estructuras jerárquicas y perfectamente estructuradas. En la actualidad, con
la proliferación de distintas fuentes que deben combinarse, los datos raramente
se encuentran estructurados. La ciencia de datos se encarga de gestionar el
almacenamiento de los datos hasta conseguir ofrecerlos de manera que sea
factible analizarlos.
 Big data. En la actualidad no sólo nos encontramos datos heterogéneos y

desestructurados, sino además en ingentes cantidades. El big data se ocupa de
gestión de estos grandes volúmenes de datos.
 Analítica de datos. Toma como entrada los datos proporcionados por los
científicos de datos y los transforman en información. Esta información se
pone a disposición de las personas que toman las decisiones en las empresas y
organizaciones, para que sirva de soporte a sus decisiones.
Los sistemas han evolucionado hasta imitar no sólo la forma en que actúan los
humanos, sino también el modo en que razonan. Los sistemas que emulan el
comportamiento del cerebro humano se estudian en la siguiente matriz.
Ilustración 3. Los sistemas vs. el cerebro humano
La matriz se divide en dos ejes. Por un lado el modo en que proceden los sistemas: si
se limitan a razonar de manera lógica o van un paso más allá emulando el
9
comportamiento del cerebro humano, incluso sobrepasando el nivel estrictamente
lógico. Por otro la actividad en la que se enfocan: pensar o actuar.
1. Sistemas que piensan como el cerebro humano / Enfocados en el

razonamiento. Se trata de actividades lógicas que hasta la irrupción de las
computadoras estaban reservadas al cerebro humano, tales como las
operaciones matemáticas, los cálculos, las previsiones, etc. La diferencia entre
los sistemas de computadoras y el cerebro humano, estriba en que los
ordenadores tienen más dificultades en interpretar los resultados. Así, por
ejemplo, se podría generar un modelo que predijera sin dudar que una mujer
tendrá ciento cincuenta hijos o que una mesita soporta varias toneladas de
peso. Este tipo de información, que un humano inmediatamente interpreta
como errónea, escapa en principio de los sistemas de razonamiento lógico de
los ordenadores.
2. Sistemas que actúan como el cerebro humano / Enfocados en el razonamiento.

Se trata de los sistemas que trabajan como las personas, en forma de estímulo
reacción. En este caso es sencillo que los sistemas se comporten como
humanos ante los estímulos programados.
3. Sistemas que piensan como el cerebro humano / Enfocados en cómo se

comporta el cerebro humano. Los sistemas como las redes neuronales se basan
en imitar el funcionamiento de los cerebros humanos. Así, constan de una serie
de núcleos (neuronas) a las que entra una conexión y salen distintas opciones
hacia otras neuronas (conexiones sinápticas) dependiendo de las experiencias
previas. Estas experiencias premian los comportamientos que hayan sido de
éxito y penalizan los que hayan fracasado.
4. Sistemas que actúan como el cerebro humano / Enfocados en cómo se

comporta el cerebro humano. Se trata de sistemas informáticos que son
capaces de pasar el test de Turing. Dicho test fue ideado por Turing a
mediados del siglo pasado para analizar la capacidad de un ordenador para
pasar por humano. Consistía en un usuario que formulaba una pregunta, a la
que respondían indistintamente una máquina o una persona. La máquina
pasaría el test de Turing si en la mayoría de los casos, el usuario no había sido
capaz de distinguir si la respuesta provenía del ordenador o de la persona
10
Ilustración 4. El test de Turing
La inteligencia artificial se desarrolla principalmente en torno a siete áreas.
1. Procesamiento de lenguaje natural. La comunicación máquina- persona es

una de las tecnologías que más y más eficientemente han evolucionado en los
últimos tiempos. Así, actualmente es normal encontrar dispositivos electrónicos
tan cotidianos como un teléfono móvil, un GPS o un aparato de control
domótico, que sean capaces de comprender y procesar el lenguaje natural sin
demasiados problemas. Esto ha constituido una importante evolución, dado
que las funciones básicas del razonamiento humano son las que más se ha
tardado en reproducir, mientras que las más complejas como el cálculo
matemático fueron muy rápidamente mejoradas.
2. Sistemas de lógica difusa. Son los sistemas capaces de manejar grados de

certeza e incertidumbre. Esto es debido a que los sistemas primigenios de
computación, no podían gestionar la incertidumbre, hasta el punto de que todo
comando y toda respuesta que producían tenía necesariamente que ser
inequívoca. La definición de conceptos como “una persona pobre” o un
“producto de una calidad bastante buena” eran inaccesibles para un sistema
informático de primera era. La gestión de esos matices entra dentro de la
lógica difusa, actualmente mucho más eficientemente desarrollada.
11
3. Robots inteligentes. Es una de las áreas en las que los sistemas
computerizados han tenido mayor aportación, dado que la sustitución de
personas por robots para algunas tareas, han mejorado al eliminar factores
indeseables como el cansancio, el aburrimiento o la falta de precisión. Así, han
resultado ideales para llevar a cabo tareas repetitivas, muy exigentes en
cuanto a precisión, o que entrañen peligro.
4. Sistemas expertos. Son sistemas que emulan el procedimiento de

razonamiento humano, pero enfocado en algunas áreas especializadas. Por
ejemplo, un sistema experto ideal sería capaz de diagnosticar una enfermedad
a partir de pruebas y preguntas formuladas a un enfermo, y procesado en
forma de árboles de decisión, de una manera parecida al proceso mental que
seguiría un médico.
5. Visión artificial. Se trata de un área que trabaja el procesamiento de

imágenes estáticas o de vídeo. El estado de evolución es tal que actualmente

no es un reto insalvable por ejemplo reconocer rostros o identificar patrones

en imágenes.
6. Resolución de problemas complejos. Es otra de las áreas en las que los

sistemas informáticos ofrecen ventajas con respecto al cerebro humano, ya que
en problemas complejos que requieren procesos de razonamiento lógicos sin
errores, los sistemas son más fiables y robustos.
7. Representación del conocimiento y razonamiento. Es una de las áreas

que más se ha desarrollado en el entorno empresarial. Dado que las compañías
y entidades se enfrentan cada día a un exceso de información, se antoja
imprescindible que la presentación de los datos se haga de manera completa y
óptima. Así, una parte de la inteligencia de negocio se ha desarrollado en torno
a la mejora de herramientas de análisis y presentación de información.
La inteligencia artificial se basa fuertemente en el big data, que ha supuesto una

evolución en la gestión de la información, en virtud de lo recogido en la siguiente tabla
comparativa.
12
Ilustración 5. Características de la era del big data
2.1. Proceso de un proyecto de análisis de

datos
A la hora de abordar un proyecto complejo de análisis de datos, se debe llevar a cabo

una serie de actividades que se recogen a continuación.
1- Definir el problema. La primera fase es la más importante, dado que marca

el éxito o el fracaso del proyecto completo. Si no se define correctamente el
problema que se necesita resolver, aunque todo el resto de las fases se lleven
a cabo con éxito, tendremos una solución perfecta para un problema que no es
el nuestro. Por eso es de capital importancia definir qué información se espera
obtener como resultado del trabajo de investigación y análisis de datos.
2- Seleccionar los datos. Una vez se tenga claro el problema que se quiere
resolver, se procederá a seleccionar los datos que se pueden explotar para
conseguir la información requerida. Ello conlleva definir cuáles son las variables
13
que se pretenden analizar, así como el modo de conseguir los valores de dichas
variables.
3- Elegir las herramientas de trabajo. Los datos probablemente surgirán de la

combinación de distintas fuentes, con frecuencia de distinta índole. De acuerdo
con ello, se deben especificar las herramientas que se utilizarán para la
explotación de los datos.
4- Exploratory data analysis- EDA. Se trata de un análisis exploratorio previo

al tratamiento real de la información, es decir, anterior a la aplicación de las
herramientas que se hayan especificado en la fase anterior. Con ello se
pretende detectar alores anómalos, identificar posibles fuentes de error de los
datos y adquirir una visión global de su conjunto. Por ejemplo se pueden
aplicar algoritmos que detecten la existencia de valores nulos, repetidos o
inconsistentes.
5- Pre-proceso y limpiado. Se trata de la fase que acumulará la mayor parte

del esfuerzo y del tiempo del proyecto, dado que con frecuencia los datos en
bruto no son directamente explotables. Habitualmente se requerirá un trabajo
dirigido a eliminar o gestionar los registros anómalos que se hayan detectado.
6- Aplicación de algoritmos. Existen diversos tipos de algoritmos que pueden

aplicarse, dependiendo del objetivo de la investigación:
 Algoritmos de regresión. Buscan la relación entre distintas variables,

de manera que se puede estimar el valor de una a partir de las otras.
 Algoritmos bayesianos. Analizan las distintas probabilidades de

pertenencia de un elemento a distintos grupos.
 Algoritmos de agrupación. Se ocupan de encontrar similitudes entre

elementos, proponiendo agrupaciones de individuos homogéneos entre
sí, y heterogéneos con respecto a otros grupos.
 Algoritmos de árboles de decisión. Sirven para decidir el modo de

clasificar o etiquetar un elemento, como consecuencia de seguir un
proceso en el que en cada paso se decidía qué camino seguir.
 Algoritmos de reducción de dimensiones. Cuando se tienen muchos

factores para analizar, algunos métodos como los análisis de
componentes principales se encargan de buscar similitudes entre
factores, con el fin de agruparlos y tratarlos de manera conjunta.
14
 Algoritmos de redes neuronales. Como se dijo anteriormente, se
trata de algoritmos que emulan el comportamiento de la red de
neuronas del cerebro humano, reproduciendo de manera artificial el
entramado de elementos y conexiones.
 Algoritmos de aprendizaje profundo o deep learning. También

mencionado anteriormente, proporcionan un paso más en el aprendizaje
de los sistemas, completando las redes neuronales con otros estratos.
7- Diagnóstico y análisis. La fase final es en la que se procede a analizar los

resultados obtenidos de la aplicación de los algoritmos. Se trata de la
culminación y finalidad de todo el proceso.
15
3. TIPOS DE PROYECTOS DE
ANÁLISIS DE DATOS
Existen distintas maneras de clasificar los tipos de proyectos que se pueden llevar a
cabo en el área del análisis de datos. La más frecuente es por el funcionamiento, que
divide los proyectos en supervisados o no supervisados. A continuación analizamos
ambos tipos de proyectos.
3.1. Proyectos de aprendizaje supervisado

Los proyectos de aprendizaje supervisado son aquéllos en los que los modelos se
entrenan con conjuntos de datos cuya clasificación como “correctos” o “incorrectos” se
conoce de antemano. El siguiente ejemplo muestra un esquema de cómo podría
trabajar un sistema de aprendizaje supervisado para una empresa de seguros.
Ilustración 6. Ejemplo de proyecto de aprendizaje supervisado
16
En el ejemplo, la empresa aseguradora desea ajustar la prima que cargará a un
cliente, o decidir si admite o no su cobertura. Para ello, previamente necesitará
calcular cuál es el índice de riesgo que comporta ese cliente específico. Para resolver
este problema, probablemente utilizará un modelo que tome como entrada los datos
de otros clientes con relación a una serie de datos (denominadas variables
independientes) y su correspondiente clasificación como cliente potencial. El sistema
aprenderá a partir de los datos proporcionados, cuya puntuación se conoce, para en
adelante ser capaz de puntuar a los nuevos clientes que se presenten.
Como hemos visto en el ejemplo, para entrenar un modelo, en primer lugar es

necesario disponer de un conjunto de datos (dataset) de entrenamiento. El dataset
de entrenamiento debe contener los factores que se vayan a tener en consideración, y
el resultado que el modelo debería asignarles si su funcionamiento fuera el óptimo.
Con esos datos, el sistema será entrenado para que en el momento de trabajar con
datos desconocidos, sea capaz de diagnosticar el resultado que coincida, o al menos
se aproxime al que debería ofrecer. Estos sistemas estarán implementados mediante

algoritmos como regresiones lineales, redes neuronales, algoritmos de aprendizaje

profundo, etc. Y como resultado pueden devolver datos en varias direcciones:
 Regresión. Con los datos de entrenamiento, el sistema hace una proyección,

de modo que puede estimar el comportamiento de los datos.
En nuestro ejemplo el sistema habría tomado como referencia tres variables

independientes (Edad, Número_siniestros y Años_conduciendo) y con ellas
buscará el modo de combinarlas para calcular la variable dependiente
(Puntuación). Si el algoritmo es una regresión lineal, tomaría la forma
siguiente:
Puntuación = K + A·Edad + B·Número_siniestros + C·Años_conduciendo
Así pues, el proceso de entrenamiento se encargaría de averiguar cuáles son

los valores de los cuatro parámetros (la constante K y los tres factores
multiplicadores de cada variable, A, B y C), para calcular de la mejor manera la
Puntuación a partir de las otras tres variables.
 Clasificación. Se trata de métodos cuyo objetivo es clasificar los elementos

según unos criterios establecidos. Normalmente toman como punto de partida
los resultados de una regresión.
Así en nuestro ejemplo, si la empresa de seguros quisiera clasificar a los

clientes potenciales como admisibles o no admisibles, probablemente tomaría
17
los resultados de la regresión y establecería un umbral mínimo. Por ejemplo
podría establecer como umbral mínimo una puntuación de 50, en cuyo caso el
elemento propuesto como ejemplo resultaría clasificado como “aceptable”.
Hay dos tipos básicos de problemas de clasificación: clasificación binaria o

multiclase. Los de clasificación binaria dividen los elementos en sólo dos
categorías. Es el caso de nuestro ejemplo, dado que la clasificación se hace en
torno al estado de “aceptable” o “no aceptable”. De este tipo son también por
ejemplo los sistemas que evalúan imágenes de manchas en la piel y
diagnostican si puede tratarse o no de un tumor, o los que deciden si una
fotografía corresponde o no a un gato. Los multiclase dividen los elementos en
más de dos clases.
Por ejemplo en nuestro caso, la empresa aseguradora podría estar interesada

en establecer cuatro niveles: 1- No aceptable, 2- Aceptable con reservas, 3-
Aceptable, 4- Cliente Premium.

 Ordenación. Se trata de un tipo de problemas que ofrecen como resultado

una lista ordenada. En algunos casos de nuevo toman como entrada los
resultados de una regresión, pero en todos los casos lo que devuelven es un
listado de opciones, ordenadas por prioridad. Es por ejemplo el caso de los
buscadores, que ordenan las opciones de acuerdo con una serie de criterios.
3.2. Proyectos de aprendizaje no supervisado
A diferencia de los problemas de aprendizaje supervisado, en éstos no se entrena el

sistema, dado que no se conocen datos a priori. El sistema utiliza una serie de pautas
-reglas matemáticas- para procesar la información, ofreciendo los resultados de lo que
el sistema entiende como correcto.
La orientación es por tanto contraria a los problemas de aprendizaje supervisado:

mientras aquéllos se utilizan para elaborar modelos y hacer predicciones, los no
supervisados se utilizan para descubrir información.
Uno de los usos más frecuentes es el clustering. Se trata de una técnica que recibe
como entrada una serie de elementos con distintos valores en diferentes
características. A partir de esos datos, el sistema busca similitudes y diferencias, y con
ello agrupa los elementos buscando que cada grupo o cluster contenga individuos que
18
se parezcan al máximo entre sí, y sean lo más diferente posible con los integrantes de
los demás grupos.
El clustering es una técnica muy utilizada en marketing y gestión empresarial, dado

que permite segmentar el mercado, identificando clientes que se comportan de
manera parecida (Nettleton, 2003).
Ilustración 7. Ejemplo de proyecto de clustering

Por ejemplo si una cadena de supermercados efectúa un clustering para analizar el

comportamiento de sus clientes, podría incluir variables como la edad, el tipo de
población en el que habita o los días en los que suele hacer la compra. Así podría por
ejemplo descubrir que existe un grupo importante de consumidores de una edad de
más de 60 años que hacen la compra los viernes. Con esa información podría ajustar
las campañas de publicidad para que sean más efectivas, incidiendo en ese grupo
particular de consumidores precisamente los viernes.
19
4. CONCLUSIONES
Los sistemas de inteligencia artificial se han convertido en la actualidad en

herramientas fundamentales para apoyar cualquier área y sector. Esto es así porque,
partiendo del estudio de los procedimientos de razonamiento del cerebro humano, han
conseguido emularlos y en muchos casos superarlos, al eliminar factores indeseables
como la inexactitud, el cansancio, el aburrimiento o el sesgo subjetivo.
Para ello hay dos tipos básicos de proyectos: de aprendizaje supervisado o no

supervisado. Con frecuencia ambos se complementan. Así, en algunas empresas de
seguros consideran que uno de los factores que identifican a los conductores con
menos riesgo de accidente, es que tengan un nivel bajo de morosidad. Este factor,
que teóricamente no habría sido tenido en cuenta como determinante para calcular el
riesgo, se desveló en un análisis clustering, que como resultado produjo una

inequívoca caracterización de los clientes con pocos siniestros: eran además muy poco
morosos.
La combinación de distintas técnicas, métodos y algoritmos son, no sólo una realidad

en la solución de problemas de casi cualquier ámbito, sino el futuro de gran parte de
ellos.
20
5. BIBLIOGRAFÍA
Caballero Roldán, Rafael; Martín Martín, Enrique (2015). Las bases del big data.
Madrid, Catarata.
Cornellá, Alfons (2004). Infoxicación. Buscando un orden en la información. Barcelona,

Zero Factory.
Mayer-Schönberger, Viktor; Cukier, Kenneth (2014). Aprender con big data. Madrid,
Turner Publicaciones.
Nettleton, David F. (2003). Análisis de datos comerciales. Madrid, Díaz de Santos.
Raj, Pethuru; Poongodi, T.; Balamurugan, Balusamy; Khari, Manju (2020). The
Internet of Things and Big Data. Boca Raton (FL), CRC Press.
21

ENyD Inteligencia Artificial - F. Doral

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ENyD Inteligencia Artificial - F. Doral

Cargado por

Copyright:

Formatos disponibles

LA INTELIGENCIA

2.1. Proceso de un proyecto de análisis de datos 13

3. TIPOS DE PROYECTOS DE ANÁLISIS DE DATOS 16

3.1. Proyectos de aprendizaje supervisado 16

El mundo empresarial ha cambiado tanto como el mundo en que vivimos,

Esta explosión de información ha motivado la existencia de nuevas profesiones y

disciplinas técnicas, como la minería de datos o las técnicas de tratamiento de grandes

La inteligencia de negocio o business intelligence es esa disciplina que combina

El director de una de las tiendas Target, la cadena estadounidense de grandes

El exceso de información. Uno de los problemas a los que se enfrenta la sociedad, y

Para gestionar correctamente la información en el seno de la empresa, se necesitará

disciplina fundamental que aplica en esta fase es el big data.

2. Tratamiento de los datos. Los datos almacenados carecen por completo de

3. Analítica de negocio. En la siguiente fase, estos datos procesados y

4. Dirección empresarial. En el último peldaño se sitúan las decisiones

Fuente: elaboración propia.

corresponden a un perfil eminentemente técnico. Las fases tercera y cuarta serían

compatibles con un perfil muy estratégico en la gestión empresarial, que a la vez

Continuando con el caso anterior de la enseña Target, el proceso podría haber

1. El equipo gestor de la compañía decide buscar nuevos segmentos de

2. Se lleva a cabo una segmentación del mercado y se identifica el segmento de

3. El equipo de mandos intermedios solicita al equipo de tratamiento de datos,

4. El equipo de extracción de datos selecciona y combina las distintas fuentes de

5. Los datos son procesados y presentados para su análisis estratégico.

6. Tras analizarlos y validar que son consistentes y que el modelo es correcto, se

A continuación se profundiza en los conceptos involucrados en los proyectos de

El estudio, análisis y explotación de los datos es una disciplina en constante evolución.

Ilustración 2. Conceptos relacionados con la ciencia de datos

Fuente: elaboración propia.

 Inteligencia artificial (IA). Sistemas informáticos que tienen como objetivo

 Aprendizaje automático. Sistemas avanzados que no funcionan únicamente

 Aprendizaje profundo. Es un grado más avanzado que el aprendizaje

 Big data. En la actualidad no sólo nos encontramos datos heterogéneos y

Ilustración 3. Los sistemas vs. el cerebro humano

Fuente: elaboración propia.

1. Sistemas que piensan como el cerebro humano / Enfocados en el

2. Sistemas que actúan como el cerebro humano / Enfocados en el razonamiento.

3. Sistemas que piensan como el cerebro humano / Enfocados en cómo se

4. Sistemas que actúan como el cerebro humano / Enfocados en cómo se

Fuente: elaboración propia.

La inteligencia artificial se desarrolla principalmente en torno a siete áreas.

1. Procesamiento de lenguaje natural. La comunicación máquina- persona es

2. Sistemas de lógica difusa. Son los sistemas capaces de manejar grados de

4. Sistemas expertos. Son sistemas que emulan el procedimiento de

5. Visión artificial. Se trata de un área que trabaja el procesamiento de

imágenes estáticas o de vídeo. El estado de evolución es tal que actualmente

no es un reto insalvable por ejemplo reconocer rostros o identificar patrones

6. Resolución de problemas complejos. Es otra de las áreas en las que los

7. Representación del conocimiento y razonamiento. Es una de las áreas

La inteligencia artificial se basa fuertemente en el big data, que ha supuesto una

Fuente: elaboración propia.

2.1. Proceso de un proyecto de análisis de

A la hora de abordar un proyecto complejo de análisis de datos, se debe llevar a cabo

1- Definir el problema. La primera fase es la más importante, dado que marca

3- Elegir las herramientas de trabajo. Los datos probablemente surgirán de la

4- Exploratory data analysis- EDA. Se trata de un análisis exploratorio previo

5- Pre-proceso y limpiado. Se trata de la fase que acumulará la mayor parte

6- Aplicación de algoritmos. Existen diversos tipos de algoritmos que pueden

 Algoritmos de regresión. Buscan la relación entre distintas variables,

 Algoritmos bayesianos. Analizan las distintas probabilidades de

 Algoritmos de agrupación. Se ocupan de encontrar similitudes entre

 Algoritmos de árboles de decisión. Sirven para decidir el modo de

 Algoritmos de reducción de dimensiones. Cuando se tienen muchos