Está en la página 1de 61

Conocimiento avanzado de

Machine Learning &


Artificial Intelligence
Índice de contenidos
Introducción y objetivos........................................................................................................................................... 4
Introducción ..................................................................................................................................................... 4
Objetivos........................................................................................................................................................... 4
Aproximación a la modelización ............................................................................................................................. 5
Introducción ..................................................................................................................................................... 5
Introducción a la modelización...................................................................................................................... 5
Tipos de modelos ............................................................................................................................................ 7
Identificación de los modelos de regresión........................................................................................................... 8
Introducción ..................................................................................................................................................... 8
Modelos de regresión simple......................................................................................................................... 9
Modelos de regresión múltiple .................................................................................................................... 11
Modelos de regresión generalizado............................................................................................................ 12
Clasificación de los distintos modelos de Árboles .............................................................................................. 12
Introducción ................................................................................................................................................... 12
Modelos de inferencia de árboles de decisión y regresión...................................................................... 13
Modelos de inferencia de árboles de decisión: clasificadores multiclase.............................................. 14
Modelos avanzados de árboles ................................................................................................................... 15
Conocimientos de algoritmos alternativos de clasificación .............................................................................. 16
Conocimientos de Eager y Lazy classifiers........................................................................................................... 22
Utilización de Clustering......................................................................................................................................... 22
Introducción ................................................................................................................................................... 22
Introducción a los modelos no supervisados ............................................................................................ 23
Análisis clúster ............................................................................................................................................... 27
Aproximación al método científico ....................................................................................................................... 33
Evaluación de modelos ................................................................................................................................. 33
Evaluación y optimización de modelos ................................................................................................................ 33
Introducción ................................................................................................................................................... 33
Control de outliers y análisis de residuos .................................................................................................. 36
Creación de Ingeniería de variables ..................................................................................................................... 36
Principios de la ingeniería de variables en la creación de variables ....................................................... 36
La dimensionalidad ....................................................................................................................................... 38
Técnicas: PCA y SVD....................................................................................................................................... 40
Ensamblado de modelos ....................................................................................................................................... 40
Definición de Model Ensembles .................................................................................................................. 40
Modelos débiles y modelos fuertes ............................................................................................................ 42
Creación de pipelines para crear modelos ensamblados ........................................................................ 42
Gestión del ciclo de vida de los modelos ............................................................................................................. 43
Interpretabilidad ..................................................................................................................................................... 44
Aproximación a modelos heurísticos de optimización ...................................................................................... 45
Conocimiento de los algoritmos genéticos.......................................................................................................... 46
Principios de optimización basada en heurísticos .................................................................................... 46
Gradiente descendente ................................................................................................................................ 46
Modelos basados en comportamientos animales .................................................................................... 47
El algoritmo genético .................................................................................................................................... 48
Aplicaciones de los algoritmos genéticos................................................................................................... 50
Cromosoma y función de fitness................................................................................................................. 51
Resolución de un problema usando algoritmos genéticos...................................................................... 52
Utilización de series temporales y Forecasting ................................................................................................... 52
Introducción ................................................................................................................................................... 52
Bases sobre componentes de las series temporales: tendencia, ciclo y estacionalidad...................... 54
Series estacionarias y no estacionarias ...................................................................................................... 56
Análisis de anomalías.................................................................................................................................... 57
Suavizado exponencial ................................................................................................................................. 58
Página 2 de 61
Modelos autoregresivos ............................................................................................................................... 58
Modelos univariantes y multivariantes....................................................................................................... 59
Modelos ARIMA.............................................................................................................................................. 59
Modelos con parametrización automática................................................................................................. 59
Gestión de proyectos de Data Science ................................................................................................................. 60

Página 3 de 61
Introducción y objetivos

Introducción

Objetivos

Explorar y entender los datos para poder enfocar correctamente un problema, combinando diferentes
modelos y, así, crear el que se requiera para dar solución al problema identificado y evaluar su funcionamiento
para conseguir su optimización. Habilidades de gestión, personales y sociales.

Inteligencia emocional

Habilidad humana de comprender y gestionar las emociones en el ámbito profesional.

Trabajo en equipo

Las claves del mejor trabajo en equipo:

• Confianza: cada colaborador debe confiar en los demás tanto como en sí mismo. El apoyo mutuo es
imprescindible para garantizar la fluidez en los procesos.

• Equilibrio: dentro de cada equipo, cada persona tiene su propio rol y debe ser capaz de desarrollarlo de
forma individual, en coherencia con los objetivos comunes.

• Pertenencia: sentirse involucrado con el equipo incentiva una mayor implicación, las ganas de hacer
aportaciones valiosas y ver crecer cada proyecto.

Adaptabilidad

El talento más flexible, que mejor se adapta a los nuevos escenarios es el más capacitado para materializar las
soluciones más novedosas y originales.

Pensamiento crítico

Es una competencia clave para complementar la lógica pura, detectar otras variables que pueden afectar a la
toma de decisiones y no dar siempre por válida la primera opción.

Resolución de problemas

Si la inteligencia artificial es una tecnología orientada a la inmediatez en los resultados, las personas deben ser
capaces de crear las estrategias más adecuadas a cada situación para lograr obtener las mejores soluciones.

Página 4 de 61
Aproximación a la modelización

Introducción

Los algoritmos de aprendizaje automático, aunque no lo creas así, los utilizamos constantemente a diario y
es tan habitual su uso que pasan desapercibidos.

Los correos electrónicos son uno de los ejemplos básicos a la hora de introducirnos en el Machine Learning.

Fue la primera aplicación de uso masivo, cuyo funcionamiento estaba basado en los algoritmos de aprendizaje
automático. El hecho de detectar si los correos recibidos son Spam o por contra de nuestro interés, es una
clasificación basada en un algoritmo de clasificación en base a parámetros preestablecidos como son el
asunto o contenido del correo, y si estas están dentro de las palabras prohibidas, por el propio servicio de
correos.

Así también, la propia aplicación aprende de quien los usa a través del registro manual que haga en relación
a los correos recibidos.
Otra aplicación basada en la modelización de aprendizaje automático, es la del reconocimiento facial.
En diversas redes sociales, con el simple hecho de subir una fotografía, la propia aplicación es capaz de
reconocer quien aparece a través del sistema de etiquetado. El algoritmo implementado ha ido aprendiendo
a reconocer el rostro de personas e identificar a quién pertenece gracias a la amplia base de datos que es
la propia red social.

En unidades posteriores nos centraremos en tipificar dichos modelos y algoritmos en base a su utilización,
así como sus características.

Introducción a la modelización

Comenzaremos recordando cuál era la definición de Machine Learning o aprendizaje automático, a saber,
como la utilización de algoritmos para que puedan darnos una información de interés a partir de un conjunto
de datos sin el empleo de ningún código en relación a dicha información.

Pongamos el ejemplo del correo electrónico anterior: sabemos que recibimos un correo y que este es
registrado por un algoritmo basado en aprendizaje automático, a su vez dicho algoritmo se nutre de una
base de datos y de las elecciones aprendidas. El objetivo del proceso es darnos la información de si el correo
es deseado o no.

Pero, retrocedamos un poco y antes de adentrarnos en los modelos específicos de aprendizaje automático,
vamos a definir qué es exactamente un modelo. Y es es que un modelo es la implementación de una serie
de relaciones matemáticas entre diferentes variables.

El aprendizaje automático sería un método de análisis de datos, con la característica que automatiza tanto la
creación como la aplicación de modelos estadísticos. Dando a la máquina, la capacidad de aprender de los
datos: identificación de patrones o toma de decisiones.

Cabe recordar también de qué hablamos cuando nos referimos a modelos estadísticos. Los modelos
mecánicos y estadísticos son aquellos en los que se busca analizar o explicar aquellos procesos que
producen determinado estado a partir de inducir correlaciones o regularidades.

Una característica de los modelos orientados hacia el Machine Learning es su fuerte aspecto iterativo. Esto es
así, ya que cuanto mayor sea la exposición de los modelos a nuevos conjuntos de datos mejor será la capacidad
de adaptación y aprendizaje del mismo.

Página 5 de 61
Etapas en la creación de un modelo

Definición de un problema

Saber qué problema vamos a resolver y determinar el objetivo

Recopilación de Datos

Cantidad y la calidad de los mismos es muy importante

Preparación de Datos

Como vimos en unidades anteriores hay que realizar tareas de limpieza en los datos y preprocesamiento de
los mismos

Elección del tipo de modelo

Como veremos a continuación existen varios modelos en función de su aplicación, así como una serie de
algoritmos específicos, los cuales nos pueden resultar más útiles que otros en determinadas situaciones

Entrenamiento del modelo

Uso regular del propio modelo

Elaboración

De predicciones

Evaluación

Sobreajuste / Falta de ajuste

Página 6 de 61
Tipos de modelos

Una vez definido qué es un modelo, en esta unidad vamos a tratar acerca de la clasificación de los distintos
modelos que componen el aprendizaje automático.

Empezaremos por el modelo de aprendizaje supervisado para finalizar con los modelos no supervisados así
como con los de refuerzo y los de procesamiento del lenguaje natural:

Supervisados
Estos modelos se producen cuando un algoritmo aprende a partir de un conjunto de datos, así como a partir de
un conjunto de respuestas establecidas. Estas respuestas pueden ser tanto valores numéricos, como también
etiquetas o clases. A continuación, el modelo elabora una serie de soluciones que se adecúan a situaciones o
problemas nuevos de los cuales no había un registro previo. Podría decirse metafóricamente que es como el
aprendizaje de un alumno junto a su maestro.

No supervisados
En esta ocasión, el modelo aprenderá a partir de datos simples sin ninguna respuesta asociada. Es decir, el
modelo es el que determina qué patrones en los datos son relevantes. Esto opera de forma que el modelo
reestructura un conjunto de datos en otra cosa, como podrían ser una serie de características asignadas a una
clase o serie de valores de los que no se tenía conocimiento de su correlación. Tienen una gran utilidad para
revelarnos aquellos significados dentro de un conjunto de datos, así como para mejorar los algoritmos del
modelo supervisado.

De refuerzo
En esta tipología no hay un registro de respuestas adecuadas, el propio modelo debe decidir cómo responder/
actuar. Estos modelos aprenden de su propia experiencia, ante la ausencia de datos clasificados, es decir, estos
modelos se autoevalúan en su proceso de entrenamiento, esto es, realizan pruebas de ensayo y error mientras
realizan su tarea. A estos modelos se les estipula un sistema de recompensas que premian los aciertos.

Procesamiento del lenguaje natural


Estos modelos se suelen asociar a los de la Inteligencia Artificial, aunque en el fondo son evoluciones de
los modelos del aprendizaje automático. Este modelo tiene un objetivo muy limitado ya que se aplica para
la mejora de la comunicación entre personas y máquinas. Los mecanismos de procesamiento del lenguaje
natural son el propio lenguaje.

Página 7 de 61
Identificación de los modelos de regresión

Introducción

Dentro de los modelos que componen el universo del Machine Learning, de los más sencillos son los de la
algorítmica denominada como regresión lineal. La regresión lineal, se enmarca dentro de los modelos de
aprendizaje supervisado.

Definición
Dentro de un modelo matemático es el establecimiento de una relación entre una variable dependiente y un
conjunto de variables independientes o explicativas. La definición de estas variables como hemos visto serían:

“Las variables dependientes representan el resultado cuya variación se está estudiando. Las variables
independientes, también conocidas en un contexto estadístico como explicativas, representan causas, es decir,
razones potenciales de variación. En un experimento, cualquier variable que el experimentador manipula puede
denominarse variable independiente. Modelos y experimentos prueban los efectos que las variables independientes
tienen sobre las variables dependientes”

Este modelo tiene como objetivo el ser usado para predecir problemas que contengan alguna variable
continua: es aplicado en el registro de visitas de páginas web o en el tiempo de permanencia en un servicio en
línea.

Ventajas modelos de regresión


• Fácil de entender y explicar. Están muy extendidos en el ámbito empresarial.

• Modelado rápido y útil cuando la relación a modelar no es compleja Es menos propenso al sobreajuste.

Desventajas modelos de regresión


• Los parámetros del modelo son difíciles de interpretar. Requiere memoria significativa y poder de
procesamiento

Usos
• Clasificación de texto e imágenes.

• Reconocimiento de escritura a mano.

Página 8 de 61
Modelos de regresión simple

Ejemplo práctico de un modelo de regresión simple

Variable dependiente → Años de trabajo


Variable independiente → Salario

El algoritmo de regresión lineal, al introducir los datos del ejemplo, entrenará al modelo que nos devolverá
como resultado la predicción del salario con solo introducir los años trabajados.

El modelo usado para realizar la predicción, se refiere a la línea recta que recorre los datos. La recta es
construida en base a una serie de ecuaciones matemáticas y los datos registrados.

El modelo, es decir, la línea debe ajustarse lo máximo posible a los datos entregados. En este ejemplo
hablamos de una regresión lineal simple ya que solo tenemos una variable independiente.

Características que deben tener las variables, si no se ajustan a estas características los resultados pueden
ser incorrectos:

Existencia de una relación lineal entre las variables.

Variables sin ruido: es conveniente realizar limpieza de datos en el preprocesado.

Cuanta más correlación entre las variables mejor ajuste del modelo a los datos.

Página 9 de 61
Modelo de predicción orientado principalmente a las variables con una distribución normal.

Vamos a profundizar ahora en el modelo de regresión simple. Como ya hemos estipulado este modelo
relaciona dos variables de forma lineal:

Yi = α + βXi + ui i = 1, . . . , N

Donde:

es la variable a explicar, esto es, la variable dependiente.

es la variable independiente.

αyβ

La ordenada α y la pendiente β del modelo son los coeficientes de la regresión.

u es la variable aleatoria o término de error

El subındice se refiere a la observación. Por regla general, el subíndice i se emplea cuando la muestra tenga
datos de sección cruzada y el subındice t cuando nos encontramos con observaciones que refieren a series
temporales.

es el tamaño muestral, esto es, el número de datos disponibles de las variables de estudio (Y, X).

El error ui se contempla por diferentes motivos, como son:

• Efectos no previsibles, que surgen por las características del contexto analítico.

• Errores de medida.

• Errores por las posibles no linealidades en la relación entre X e Y .

Dados el modelo y una muestra, debemos decidir cómo obtener la función de regresión muestral, es decir,
cómo calcular las estimaciones ˆα y βˆ a partir de los datos.

Un método muy utilizado por su sencillez y buenas propiedades es el método de mínimos cuadrados
ordinarios. El estimador de mínimos cuadrados ordinarios, o MCO, de los parámetros α y β se obtiene de

Página 10 de 61
Modelos de regresión múltiple

Hablamos de una regresión lineal múltiple cuando tenemos varias variables independientes en relación
a una dependiente, pero el funcionamiento es igual al modelo simple.

Hemos visto la relación entre dos variables, esto es los modelos simples, para ello analizamos la correlación
entre dos variables que son aleatorias en busca de una medida su dependencia, que está representado por
el coeficiente de correlación de Pearson y el análisis de regresión, donde sólo una de las variables Y
era aleatoria (la dependiente, esto es, la que queremos explicar), mientras que X era fija y manejable por el
investigador.

Para ampliar el modelo de regresión, tendremos en cuenta la posibilidad de explicar una variable Y (variable
dependiente) a partir de diferentes variables explicativas X2 , ..., XK (variables independientes). Ciertamente,
este enfoque nos acerca más a la realidad que se quiere modelizar.
Como en los modelos simples tenemos que tener en cuenta que debemos estar ante datos distribuidos
linealmente o que sean de fácil transformación.

Así también, hay que contemplar el término de error u, este es como un cajón de sastre donde va a parar
todo aquello nos ayude a explicar el modelo, y que hemos excluido como errores de medida u otras variables
aleatorias. Así pues, u es el apartado no determinista del modelo que afirma el carácter aleatorio de la
variable dependiente.
El modelo de regresión lineal múltiple sería una generalización del modelo de regresión simple. En este
caso relacionamos la variable a explicar Y (variable dependiente) con las K-1 variables explicativas X2 , X3 , ... ,
XK (variables independientes) por medio de:

Y = b1 + b2 X2 + b3 X3 + ... + bK XK + u

Donde u es la perturbación del modelo. Al desarrollar la ecuación para cada observación de la muestra,
obtendremos lo siguiente:

Y1 = b1 + b2 X21 + b3 X31 + ... + bK XK1 + u1


Y2 = b1 + b2 X22 + b3 X32 + ... + bK XK2 + u2
(...)
Yn = b1 + b2 X2n + b3 X3n + ... + bK XKn + un

Estas ecuaciones, pueden ser expresadas como matrices, para así facilitar el tratamiento operativo del
modelo.

Generalización del modelo

Página 11 de 61
Modelos de regresión generalizado

Como vimos en las unidades anteriores, la regresión de las variables era aplicadas a aquellas con una
distribución normal. Sin embargo, el modelo de regresión generalizado es una flexibilización del modelo de
regresión lineal ya que permite variables con una distribución que no sea la normal.

John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar
otros modelos estadísticos, como la regresión lineal, la regresión logística y la regresión de Poisson.
Propusieron un método de mínimos cuadrados iterativamente ponderados para la estimación de
máxima verosimilitud de los parámetros del modelo. La estimación de máxima verosimilitud sigue siendo
popular y es el método predeterminado en muchos paquetes de computación estadística”

Los modelos de regresión lineal generalizados para respuestas continuas son especiales respecto a los
modelos simples o múltiples.

Estos modelos se llaman así ya que generalizan la regresión ordinaria de dos modos:

1.
Permitiendo que la variable dependiente Y tenga distribuciones diferentes a la normal.

2.
Incluye distintas funciones de enlace de la media. Siendo de gran utilidad para datos categóricos.

Los modelos lineales generalizados, permiten trabajar junto a una gran variedad de métodos estadísticos,
como veremos: los modelos ANOVA y de datos categóricos.

Clasificación de los distintos modelos de Árboles

Introducción

En este epígrafe y en los siguientes, vamos a tratar una aproximación diferente al análisis tradicional de
regresión lineal. Del modelo de árboles podemos decir que se divide en dos clases:

• Son árboles de regresión cuando la variable dependiente es continua.

• Y serían árboles de clasificación cuando la variable dependiente es nominativa / cualitativa.

Los modelos basados en árboles se caracterizan, a su vez, por ser un esquema de muchas bifurcaciones,
enlazadas en forma de árbol, que al recorrerlas obtengamos al final bien una predicción acerca de la
pertenencia a una clase (clasificación), bien el valor (regresión) de la unidades que lo componen.

Ventajas modelos árboles de decisión regresión


• Fáciles de interpretar.

• Rápidos

Página 12 de 61
• Resistentes al ruido y valores perdidos.

• Precisión.

• Muy adecuado para entender relaciones matemáticas complejas, altamente no lineales.

Desventajas
• Los árboles complejos tienen una interpretación difícil.

Elementos que componen un árbol


• Nodo Raíz

• Nodo Interno

• Nodo Terminal.

Modelos de inferencia de árboles de decisión y regresión

Los modelos de árboles son una forma de modelado de tipo supervisado. Como hemos visto, es usado
tanto en problemas de regresión como de clasificación. Comenzaremos con el funcionamiento
inferencial, orientado a la clasificación.

Este algoritmo sería la evaluación de todas las variables de entrada para seleccionar la mejor división.
Este algoritmo comienza a partir de lo que se conoce como un nodo raíz (o condición) del cual surgen dos
respuestas: cumple o no la condición.

Así sucesivamente en función del volumen de datos concreto, los nodos internos serían todas aquellas
pruebas realizadas para llegar a obtener un resultado (nodo decisión).

Como ya establecimos, al ser un modelo de aprendizaje supervisado, es necesario la introducción de


antemano del conjunto de variables (independientes y dependientes). Cuando el conjunto de estas variables
está distribuido aleatoriamente y no podemos identificar ningún patrón claro, se comienza por agrupar los
datos de manera aleatoria y sin patrón. Podemos agruparlos las veces que nos sea conveniente. Cada una
de estas separaciones será una de las condiciones de prueba.

Página 13 de 61
Como ya tratamos, los árboles de decisión operan al dividir las variables en varias regiones rectangulares
aleatorias. El objetivo es elaborar una predicción, para ello se utiliza la media de las variables a entrenar,
dentro de cada región.

La función matemática del árbol de decisión es tal que así:

Wm = Respuesta media
Vm = división variable

El principal contratiempo de un árbol de decisión es su propensión al sobreajuste. Hay dos aproximaciones


para evitar esto en los árboles de decisión: detener el crecimiento del árbol antes de que sea demasiado
grande o podar el árbol.

Clasificadores binarios

Como ya hemos tratado, el objetivo de los algoritmos de clasificación es útil para hallar soluciones
etiquetadas, es decir, la solución está dentro de un conjunto finito de soluciones posibles.

Cuando el entrenamiento del modelo está orientado a predecir dos estados de los objetivos, esto es verdadero
o falso, sí o no; estamos ante un modelo de clasificación binaria.

A su vez, como veremos en posteriores unidades, si necesitamos predecir más de dos estados dentro de un
problema, nos encontraremos ante un modelo de clasificación multicategoría.
Regresión

Por contra, los modelos de regresión son empleados para predecir soluciones que son continuas. Esto
quiere decir que las soluciones son presentadas en una cantidad que puede determinarse con una mayor
flexibilidad, ya que están basadas en las variables de entrada del modelo y no a un conjunto de estados. Como
vimos, en algunos casos puede establecerse la relación lineal y en otro la no lineal.

Modelos de inferencia de árboles de decisión: clasificadores multiclase

Los clasificadores multiclase se encuadran como un tipo específico de modelo dentro de los denominados
árboles de decisión.

Este modelo de aprendizaje conjunto, usado para la clasificación, se diferencia de los árboles de decisión al
uso en que, tras cada subdivisión del conjunto, se “vota” el resultado más popular.

Se entiende por votar a la suma de los histogramas de cada ramificación. “El proceso de agregación suma

Página 14 de 61
estos histogramas y normaliza el resultado para obtener las "probabilidades" de cada etiqueta”.

Aquellos conjuntos de árboles con un mayor nivel de confianza, pesan más en la decisión final para la
predicción. Este modelo de árbol de decisión se caracteriza por admitir varias distribuciones.

Ventajas árboles de decisión


• Pueden representar distribuciones no lineales.

• Son eficientes tanto en el cálculo como en la utilización de la memoria durante el entrenamiento y la


predicción.

• Realizan la selección y clasificación de características integradas.

• Son resistentes a los datos con ruido.

Modelos avanzados de árboles

Boosting

A los árboles de decisión potenciados o Boosting también se les aplica la idea de un “ensamble” de árboles.
La diferencia con los bosques aleatorios ensamblados, es que la sucesión de árboles de boosting “se ‘adapta’
al comportamiento del predictor a lo largo de las iteraciones, haciendo ponderaciones de los datos de entrenamiento
para que el algoritmo se concentre en las predicciones más pobres”.

Los árboles potenciados, además, operan mejor con árboles pequeños, mientras que los bosques aleatorios
funcionan con árboles grandes donde el sesgo es mejor. La disminución del sesgo en los árboles
potenciados viene del uso de varios árboles distintos.

“El segundo árbol corrige al primero, el tercero al primero y del segundo y así sucesivamente”.

Random forest

Dentro de los modelos basados en árboles, nos encontramos con lo que se denomina como bosques
aleatorios. Los random forest son algoritmos de aprendizaje supervisado que ensamblan de forma
aleatoria un conjunto variable de árboles para formar un bosque. Cuanto mayor sea el número de ellos,
más robusto será el modelo.

Algo a tener en cuenta al usar estos modelos es la adicción de la aleatoriedad. El funcionamiento de estos
bosques aleatorios sería: mientras se ramifican los nodos, en lugar de buscar la respuesta o característica más
adecuada, busca la mejor característica entre un subconjunto aleatorio de características. Produciendo una
mayor diversidad en el modelo.

Puedes incluso introducir una mayor aleatoriedad en los árboles, mediante la aplicación de umbrales
aleatorios para cada función, en vez de buscar el umbral óptimo como haría un árbol de decisión.

Diferencia entre árboles de decisión y bosques aleatorio


• Son una colección de árboles de decisión.

• Un bosque aleatorio selecciona al azar las observaciones y características para sus árboles de decisión y
luego promedia los resultados. A diferencia de los árboles de decisión normales en los que el conjunto de
reglas es recopiladas e introducidas.

• Los árboles de decisión cuando son muy profundos pueden sufrir de sobreajuste. A su vez, los bosques

Página 15 de 61
aleatorios evitan esa profundidad, creando subconjuntos aleatorios de las características y construyendo
árboles más pequeños utilizando estos subconjuntos, posteriormente combina los subárboles.

Ventajas y desventajas de los bosques aleatorios


• Mayor tolerancia al sobreajuste.

• Sencillos de usar.

• Muy limitado para realizar predicciones en tiempo real.

• Rapidez de entrenamiento, pero no de resultados, la precisión va ligada al número de árboles.

Conocimientos de algoritmos alternativos de clasificación

A la hora de seleccionar un algoritmo, también es importante que tengamos en cuenta el tipo de


aprendizaje se esta usando en Machine Learning, es decir, si estamos hablando de aprendizaje
supervisado o no supervisado.

Aprendizaje Supervisado

En el aprendizaje supervisado, la máquina se enseña con el ejemplo. De este modo, el operador proporciona
al algoritmo de aprendizaje automático un conjunto de datos conocidos que incluye las entradas y salidas
deseadas, y el algoritmo debe encontrar un método para determinar cómo llegar a esas entradas y salidas.

Página 16 de 61
Mientras que el operador debe de conocer las respuestas correctas al problema, el algoritmo identifica
los patrones en los datos, aprende de las observaciones y hace predicciones. El algoritmo realiza las
predicciones y este a su vez es corregido por el operador, y este proceso sigue hasta que el algoritmo alcanza
un alto nivel de precisión y rendimiento.

Aprendizaje sin supervisión

Aquí, el algoritmo de aprendizaje es automático y estudia los datos el mismo para identificar todos
los patrones que estén presentes. En este caso no hay una clave de respuesta o un operador para
proporcionarle instrucciones. En cambio,la máquina determina las correlaciones y las relaciones mediante el
análisis de los datos disponibles.

En un proceso de aprendizaje no supervisado, se deja que el algoritmo de aprendizaje automático intérprete


grandes conjuntos de datos y dirija esos mismos datos en su consecuencia. Así mismo, el algoritmo
intenta organizar los datos de alguna manera para describir su estructura. Esto podría significar la necesidad
de agrupar los datos en grupos u organizarlos de manera que se vean más organizados.

A medida que se evalúan más datos, su capacidad para tomar decisiones sobre los mismos mejora
gradualmente haciéndose cada vez más eficaz y se vuelve más refinada.

Otro tipo de aprendizaje que podemos encontrar, es el aprendizaje por refuerzo.

Página 17 de 61
Aprendizaje por refuerzo

El aprendizaje por refuerzo, se centra en los procesos de aprendizaje reglamentado, en los que se
proporcionan algoritmos de aprendizaje automático con un conjunto de acciones, parámetros y valores
finales.

Cuando definamos las reglas, el algoritmo de aprendizaje automático intenta explorar las diferentes
opciones y posibilidades, monitorizando y evaluando cada uno de los resultados para determinar cuál es el
óptimo y eficiente.

En consecuencia, este sistema enseña a la máquina a través del proceso de ensayo y error. Aprende
de experiencias pasadas y comienza a adaptar su enfoque en respuesta a la situación para lograr el mejor
resultado posible.

Los algoritmos de clasificación se utilizan cuando el resultado deseado es una etiqueta discreta. Es
decir, son útiles cuando la respuesta a la pregunta sobre la empresa se aloja dentro de un conjunto finito de
resultados posibles. Como, ejemplo, si tenemos un correo deseado o no deseado, en dicho caso solo se tienen
dos opciones y se conoce como clasificación binaria.

Por otro lado, la clasificación de múltiples categorías logra capturar todo lo demás. Es muy útil para
segmentar al cliente, categoriza las imágenes, audios y analiza el texto para optimizar el sentimiento
del cliente.

Los algoritmos enfocados a la clasificación, trabajan generalmente sobre la información entregada por un
conjunto de muestras, patrones o prototipos de entrenamiento que son tomados como representación
de las clases y estos mismos se conservan una etiqueta de clase correcta.

A estos conjuntos de prototipos correctos, se les denomina conjunto de entrenamiento y es el conocimiento


disponible para la clasificación de nuevas muestras de la clase supervisada determina dentro de las muestras
que información se puede extraer y utilizar.
Por otro lado, también debemos de considerar los 7 tipos de algoritmos de aprendizaje automático más
comunes y populares.

Algoritmos de regresión
En las tareas de regresión, los programas usados para el aprendizaje automático estiman y comprenden las
relaciones entre las variables. El análisis de la regresión se enfoca en una variable dependiente y una serie de
otras variables cambiantes, lo que la hace particularmente útil para la predicción y el pronóstico.

Página 18 de 61
Algoritmos Bayesianos
Este tipo de algoritmos por clasificación están basados en el teorema de Bayes y clasifican cada valor como un
independiente de cualquier otro. Lo que nos permite predecir una clase o categoría en función de un conjunto
que nos da características, utilizando la probabilidad.

A pesar de ser tan simple, su clasificador funciona muy bien y se utiliza mucho y muy a menudo porque supera
a los métodos de clasificación más sofisticados.

Página 19 de 61
Algoritmos de agrupación
Se utilizan en el aprendizaje no supervisado, y los utilizamos para categorizar datos no etiquetados, es decir,
datos que no tiene una categoría o un grupo ya definido.

Este algoritmo funciona mediante una búsqueda de grupos de datos, con el número de grupos representados
por variables K, es decir, que funciona de manera iterativa para asignarnos cada punto de datos a unos de los
grupos K según las características proporcionadas.

Algoritmo de árbol de decisión


Un árbol de decisiones es una estructura muy similar a un diagrama de flujo que utiliza un método de
bifurcación para ilustrar cada resultado posible de una decisión. Cada nodo dentro de este árbol representa
una prueba variable específica y cada rama es el resultado de esa misma prueba.

Página 20 de 61
Algoritmos de redes neuronales
Una red neuronal artificial (RNA) comprende unidades dispuestas en una serie de capas, una de las cuales se
conecta a través de otras capas anexas. Las RNA se inspiran en los sistemas biológicos como el cerebro y como
este procesa la información.

Por lo tanto, son esencialmente un gran número de elementos de procesamiento interconectados, que
trabajan al unísono para resolver problemas específicos.

También aprenden con el ejemplo y la experiencia, son muchísimo más útiles para modelar relaciones no
lineales en datos de grandes dimensiones, o donde la relación entre las variables de entrada sea difícil de
entender.

Algoritmos de reducción de dimensión


La reducción de dimensión reduce el número de todas las variables que considera para encontrar y extraer la
información exacta que requerimos.

Algoritmos de aprendizaje profundo


Los algoritmos de aprendizaje profundo, se ejecutan datos a través de varias capas de algoritmos de redes
neuronales, las cuales pasan a una presentación más simplificada de los datos que pasan a la siguiente capa.

La mayoría funciona correctamente en un conjunto de datos que tienen ciento de características o columnas.
Sin embargo, un conjunto de datos no estructurados, como el de las imágenes, tiene una cantidad tan grande
de características que este proceso en sí se vuelve engorroso o completamente inviable.

Página 21 de 61
Conocimientos de Eager y Lazy classifiers
Lazy

Un Lazy leaner retrasa la abstracción de los datos hasta que se le pide que haga una predicción, mientras
que un alumno entusiasta, se abstrae de los datos durante el entrenamiento y usa esta abstracción para hacer
predicciones en lugar de comparar directamente las consultas con instancias en el conjunto de datos.

Es un método de aprendizaje en el que, en teoría, la generalización de los datos de entrenamiento se


retrasa hasta que se realiza una consulta al sistema, a diferencia del aprendizaje entusiasta, en el que el
sistema intenta
generalizar los datos de entrenamiento antes de recibir consultas.

Un algoritmo de aprendizaje Lazy es simplemente un algoritmo que generaliza los datos después de
realizar una consulta. El mejor ejemplo de esto es KNN. K-Nearest Neighbors básicamente almacena todos
los puntos, luego usa esos datos cuando realiza una consulta.

Eager

El aprendizaje Eager es un método en el que el sistema intenta construir una función de destino general
e independiente de la entrada durante el entrenamiento del sistema, a diferencia del aprendizaje Lazy,
donde la generalización más allá de los datos de entrenamiento se retrasa hasta que se realiza una consulta al
sistema.

Eager classifiers construyen un modelo de clasificación basado en los datos de capacitación


proporcionados antes de recibir los datos para la clasificación. Debe poder comprometerse con una sola
hipótesis que cubra todo el espacio de la instancia. Debido a la construcción del modelo, los Eager learning
tardan más en entrenarse y menos tiempo en predecir.

Responde a la siguiente pregunta:

¿Cómo es el algoritmo en el aprendizaje sin supervisión?


Aquí, el algoritmo de aprendizaje es automático y estudia los datos el mismo para identificar todos los
patrones que estén presentes. En este caso no hay una clave de respuesta o un operador para proporcionarle
instrucciones. En cambio,la máquina determina las correlaciones y las relaciones mediante el análisis de los
datos disponibles.

Utilización de Clustering

Introducción

El algoritmo de agrupamiento o clustering (en inglés), es una técnica de Machine Learning que implica la
agrupación de puntos de datos. Dado un conjunto de puntos de datos, podemos usarlos como algoritmo de
agrupación para clasificar cada punto de datos en un cluster específico.

Los puntos de datos que están en el mismo cluster deben de tener propiedades y/o características muy
parecidas, por no decir similares, mientras que los puntos que son diferentes clústeres, deben de tener
propiedades características muy diferentes.

Página 22 de 61
Esta agrupación es un método de aprendizaje no supervisado y es una técnica común para el análisis de
datos estadísticos utilizado en muchos campos.

En esta ciencia de los datos, podemos utilizar el análisis de los clústeres para obtener la información más
valiosa de nuestros datos al ver en qué clústeres caen los puntos de los datos que aplicamos a un algoritmo
de clústeres.

Introducción a los modelos no supervisados

El algoritmo más conocido dentro del clustering, es conocido como agrupamientos de K Means, es muy
fácil de comprender e implementar dentro del sistema.

1.
Se selecciona un número de clusters para usarlos, e inicializamos aleatoriamente sus respectivos puntos
centrales.

2.
Cada punto de estos datos se clasifica calculando la distancia entre ese punto y cada centro del cluster, y luego
clasificamos el punto que estará en el cluster cuyo centro está más cerca de él.

3.
Basándonos en estos puntos clasificados, calculamos el centro del cluster tomando la media de todos los
vectores del cluster.

4.
Repetimos estos pasos para un número determinado de iteraciones o hasta que los centros de clusters no
cambian mucho entre iteraciones.

Aunque debemos antes decir que el uso de este algoritmo tiene tanto sus ventajas como sus desventajas.

Ventajas
Es bastante rápido, ya que todo lo que estamos haciendo es calcular las distancias entre puntos y centros de
grupo, por lo tanto, son muy pocos cálculos.

Desventajas
Tenemos que seleccionar cuantos clusters hay. Esto no siempre es intrascendente e idealmente con un
algoritmo de clustering nos gustaría que lo resolviera por nosotros porque el objetivo es obtener alguna
información de los datos.

Página 23 de 61
Comenzamos con una selección aleatoria de centros de clusters y, por eso mismo, puede producir diferentes
resultados de clusters en diferentes ejecuciones del algoritmo.

Dentro de este tenemos también los Agrupamiento Mean Shift.

Es un algoritmo, que se basa en el centroide, es decir, que su objetivo es localizar los puntos centrales de
cada clúster, lo que funciona actualizando a los candidatos para que estos puntos centrales sean la medida
de los puntos dentro de la ventana que se desliza.

Estas ventanas candidatas son filtradas en una etapa de post procesamiento para eliminar, los duplicados,
cercanos, formando en sí un conjunto final de puntos centrales y sus correspondientes grupos.

1.
Para explicar el agrupamiento Mean Shift consideramos un conjunto de datos en un espacio bidimensional.

2.
En cada iteración, la ventana deslizante se desplaza hacia regiones de mayor densidad desplazando el punto
que está en el centro a la media de los puntos dentro de la ventana.

3.
Seguimos desplazando la ventana corrediza de acuerdo con la media hasta que no hay dirección en la que un
desplazamiento pueda acomodar más puntos dentro del núcleo.

4.
Estos procesos del paso 1 al 3 se realizan con muchas ventanas hasta que todos los puntos estén dentro de una
ventana, cuando varias ventanas se superponen, se conserva aquella con mayor cantidad de puntos, después,
los puntos se agrupan según la ventana deslizante en la que residen.

A diferencia de la agrupación K Means, no es necesario seleccionar el número de clusters, ya que el


desplazamiento medio se descubre de manera automática, es una gran ventaja, el hecho de que estos
clusters se converjan hacia los puntos con mayor densidad es muy deseable, ya que es bastante intuitivo de
entender y encaja bien en un sentido natural dentro de lo basado de los datos.

El inconveniente es que la selección del tamaño/radio de la ventana puede que no sea intrascendente.

DBSCAN

Este es un algoritmo de agrupamiento basado en la densidad parecida a la que trabaja Mean Shift, pero
con un par de ventajas notables. Las siglas DBSCAN significan agrupamiento espacial basado en densidad
de aplicaciones con ruido.

1.
DBSCAN comienza con un punto de datos de inicio inocuo que no ha sido visitado. El vecindario de este punto
se extrae usando la distancia epsilon, todos estos puntos que están dentro de la distancia de epsilon son un
punto de vecindario.

Página 24 de 61
2.
Si hay un número suficiente de puntos dentro del vecindario, entonces el proceso de agrupación empieza, y el
punto de datos actual se convierte en el primer punto del nuevo grupo. De lo contrario el punto se etiqueta
como ruido, más tarde este mismo punto de ruido, luego ese punto de ruido se convierte en parte del cluster.

3.
Para este punto en el nuevo cluster, los puntos dentro de su vecindario distante de Epsilon también pasan
a formar parte del mismo cluster. Este procedimiento hace que todos los los nuevos cluster se agreguen al
cluster del grupo.

4.
Los pasos 2 y 3, se repiten hasta que todos los puntos en el cluster hayan sido visitados y etiquetados.

5.
Una vez finalizado el cluster actual, se recupera y procesa un nuevo punto no visitado, lo que nos conduce y
procesa un nuevo punto no visitado, lo que conduce al descubrimiento de otro cluster.

DBSCAN nos presenta algunas ventajas sobre otros algoritmos de agrupación del clúster. Primero, no
se precisa de un número determinado de clusters. También identifica valores atípicos como ruidos, a
diferencia de su desplazamiento medio, se puede encontrar en un grupo, incluso si ese punto es muy diferente,
además se pueden encontrar clusters de tamaños y formas inocuas.

Su principal desventaja es que no funciona tan bien como otros clústeres, su densidad varía. Esto se debe
a su configuración de distancia epsilon para identificar otros puntos, estos varían de un cluster a otro cuando
su densidad varía, esta desventaja también se aplica a los datos de grandes dimensiones, ya que un nuevo
umbral de distancia epsilon se vuelve difícil de estimar.

Algoritmo de mezcla gaussiana

Estos de la mezcla gaussiana (GMM en inglés) dan más flexibilidad que los k Means. Con los GMM
suponemos que los puntos de datos están distribuidos por Gauss, es decir, que son circulares usando la
media, de esta misma manera se tienen dos parámetros, la media y la desviación estándar. Esto significa que
los clústeres pueden tomar cualquier forma elíptica.

Para encontrar estos parámetros para cada clúster, la media y la desviación estándar, usamos un algoritmo
llamado maximización de expectativas (EM). Entonces proceder con el proceso de agrupación de
maximización de expectativas usando el GMM.

Primero se selecciona el número de cluster, como se hace en K Means e inicializamos aleatoriamente los
parámetros de distribución gaussiana para cada cluster. puede intentar proporcionarnos unos parámetros
iniciales mirando los datos, aunque se debe de tener en cuenta, que no es del todo necesario, ya que el
gaussianos empieza muy mal, pero se optimiza rápidamente.

Página 25 de 61
Dadas estas distribuciones para cada cluster, se debe de calcular la probabilidad de que cada cluster
pertenezca a un cluster en particular, cuando más cercano al centro gaussiano más pertenece a ese grupo.
Esto es intuitivo ya que con una distribución Gaussiana estamos asumiendo que la mayoría de los datos se
encuentran más cercas del centro del cluster.

Basándose en esta probabilidad, calculamos un nuevo conjunto de parámetros para las distribuciones
gaussianas de manera que maximizamos las probabilidades de los puntos de datos que se encuentran dentro
de los clústeres. Calculamos estos parámetros nuevos usando la suma equilibrada de las posiciones de los
puntos de datos, donde estos puntos pertenecen a un cluster en particular.

Los pasos 2 y 3 se repiten de manera iterativa hasta que se converja, donde la distribución no cambia mucho
de iteración en iteración.

El uso de los modelos de mezcla gaussiana presenta dos ventajas clave. En primer lugar, son mucho
más flexibles en términos de covarianza (término matemático) de cluster que los K Means, debido a su
parámetro de desviación estándar, los clústeres pueden adoptar cualquier forma de elipse.

En segundo lugar, estos modelos utilizan las probabilidades, pueden tener conglomerados múltiples por punto
de datos, es decir, si un punto de datos está en medio de dos grupos superpuestos, podemos definirlos
simplemente diciendo quien pertenece a X y quien pertenece a Y, es decir, que se apoyan en composición
mixta.

Agrupamiento Jerárquico

Los algoritmos de agrupación jerárquica se dividen en dos categorías, los que van de arriba a abajo, y
abajo a arriba. Estos algoritmos ascendentes tratan cada punto de datos, como uno solo y luego se fusionan
sucesivamente se aglomeran en pares, hasta que todos se han fusionado a un único cluster que contiene
todos los puntos de datos. Por eso mismo, la agrupación jerárquica ascendente se denomina aglomerativa
jerárquica. Esta se presenta como un árbol o dendrograma. La raíz de este árbol es el único cluster que
recoge todas las muestras.

Comenzamos tratando cada punto de datos como uno solo, es decir, si hay varios puntos de datos en un
conjunto de datos, entonces tendremos una cantidad determinada de clústeres. Luego seleccionamos una
métrica de distancia que mide la distancia entre dos clústeres.

En cada repetición, se combinan dos grupos en uno. Los dos grupos se combinados se seleccionan como los
que tienen una vinculación más pequeña, es decir, estos dos cluster tiene menos distancia entre sí, y por eso
mismo son más similares y deben de ser combinados.

El paso 2 se repite, hasta la raíz del árbol, es decir, hasta tener un solo cluster que contiene todos los puntos de
datos. De esta manera podemos seleccionar cuantos clusters queremos al final, solo debemos elegir cuando
deben de dejar de combinarse, o para ser más exactos cuando se deja de construir el árbol.

La agrupación jerárquica no requiere que se especifique el número de clusters e incluso seleccionemos


qué número se ve mejor ya que construimos un árbol. Además de que este algoritmo no es sensible
a métrica de distancia, todos ellos tienden a funcionar igualmente bien, mientras que en agrupamiento su
distancia métrica es más bien critica, un caso particular es cuando los métodos de agrupamiento de jerárquica
es cuando los datos subyacentes tienen una estructura jerárquica, otros grupos de algoritmos no pueden
hacer esto, mas específicamente los de agrupación.

Estas ventajas, vienen a costa de una menor eficiencia.

Página 26 de 61
Análisis clúster

El análisis de clúster es un conjunto de técnicas multivariantes usadas para clasificar a un conjunto de


individuos en grupos homogéneos.

Del mismo modo que otras tipologías, el análisis discriminante es al conjunto de estas técnicas, tiene como
objetivo la clasificación de individuos.

La diferencia principal entre estos dos, es que en el análisis de clúster, los grupos que los conforman son
desconocidos entre sí, y es lo que precisamente se quiere determinar mientras que el análisis discriminante,
son los grupos conocidos lo cual lo único que se pretende es saber en qué medida las variables disponibles
nos discriminan esos grupos y nos pueden ayudar a determinar que variables no discriminan esos grupos
y nos ayudan a clasificar los individuos en los grupos que nos proporcionan.

Debemos de tener en cuenta los métodos usados del análisis de clúster se pueden clasificar como:

Aglomerativo o divisivo
Será aglomerativa o ascendente si se parte inicialmente de los individuos que se van, progresivamente
fusionando, formando en grupos, que forman parte de las particiones. En caso contrario si somos divisiva
o descendente, si empezamos que todo el grupo es un conglomerado y se va subdividiendo en grupos más
pequeños.

Jerárquica o no jerárquica
En una clasificación no jerárquica se formarán grupos homogéneos sin establecer relaciones entre ellos. En
una clasificación jerárquica los grupos se fusionan de manera sucesiva, siendo una prelación o jerarquía,
decreciendo la homogeneidad conforme se hace más amplio.

Monotética o politética
Una clasificación monotética se basa en una sola característica, procede de manera divisiva, separando entre
quien lo tiene y quien no lo tiene.

Una clasificación politética se basa en una gran cantidad de características y no exige que todos los que
conforman el conglomerado, posean todas las características (aunque sí que tengan cierta homogeneidad en
ellas), de manera bastante usual se puede proceder de manera aglomerativa.

Los distintos métodos de análisis de clúster se considera como perteneciente como a las siguiente 5
categorías:

Método jerárquico

Método de optimización

Método de densidad

Método “clumping”

Página 27 de 61
Y otros métodos que no se pueden clasificar en los 4 anteriores.

Los métodos jerárquicos son los que se han desarrollado más, y serán los que se va a dedicar una mayor
atención. Mientras tanto, daremos un vistazo general a las otras técnicas.

Los métodos de optimización tienen como característica fundamental porque se admite en ellos la
“reasignación” de un solo individuo. Esto es, una vez se considera un individuo como un miembro del clúster,
en el siguiente paso del análisis, puede salir de este clúster e integrarse a otro, de esta manera se optimiza la
partición. Esto permite que se mejores de manera continua desde la partición inicial.

Al principio, estos clusters asumen un número de clusters a formar. Se llaman de esta manera porque
pretenden obtener la partición que optimice una cierta medida numérica definida. Los distintos métodos
de optimizar se diferencian entre sí en la manera de obtener la partición inicial y en la medida a optimizar el
proceso.

Los criterios de optimizar son los siguiente:

La minimización de la traza de la matriz de varianzas intra-grupos.

La minimización del determinante de la matriz de varianzas intra-grupos.

La maximización de la traza de la matriz (BW) donde B es la matriz de varianzas inter-grupos y W es la matriz


de varianzas intra-grupos, presentando cierta conexión con la discriminación factorial.

Utilizando medidas de información o de estabilidad

Los métodos de densidad se basan en la idea de construir (cluster naturales) partiendo de la mayor o menor
densidad de puntos de las distintas zonas del espacio (de la variable) en el que están los individuos.

Y para finalizar los metod clumping son usados en estudios lingüísticos, permiten solapar los grupos.

Métodos Jerárquicos

En este método, los individuos no se particionan en clusters de una sola vez, sino que se van haciendo
particiones sucesivas a distintos niveles de agrupamiento.

Estos métodos suelen subdividirse en métodos aglomerativos, que van sucesivamente fusionando grupos,
y métodos divisivos, que se van desglosando en grupos cada vez más pequeños en el conjunto total de datos.

Cabe decir, que la clusterización jerárquica produce taxones o clusters de diferentes niveles y
estructurado de forma ordenada, estableciendo así una jerarquía.

Página 28 de 61
Establecer una clasificación jerárquica, supone realizar una serie de particiones del conjunto de individuos
totales W={ i1 , i2 , ...,iN } de esta manera que existen particiones a distintos niveles que vayan agregando a las
particiones de los niveles inferiores.

La representación de esta jerarquía, se hace mediante un diagrama de árbol invertido denominado


dendograma, en el que varias fusiones de las distintas ramas nos informan de las sucesivas fusiones de los
grupos en grupos de superior nivel sucesivamente.

Por cada fusión viene dado por un indicador denominado “valor cofenético”, que debe de ser proporcional
a la distancia considerada en la fusión. Esta distancia o también llamada disimilaridad considera que cada
fusión se define, entre individuos y entre otros clusters; razón por la cual, será necesario ampliar el concepto
de distancia de acuerdo, con algún criterio que nos permita realizar este algoritmo de clasificación.

Una vez totalmente definido, la distancia de clúster, individuo y cluster-individuo, se lleva a cabo mediante
un algoritmo general:

Paso 1
Formamos la partición inicial:

P = { i1},{ i2 },...{ iN }

considerando cada individuo como un cluster.

Paso 2
Determinamos los dos clusters más próximos (de menor distancia) ii ,ij , y los agrupamos en uno solo.

Paso 3
Formamos la partición:

P = { i1},{ i2 },...{ ii u ij },...,{ iN }

Paso 4
Repetimos los pasos 2 y 3 hasta obtener la partición final Pr= {W}

Este algoritmo es igual para todos los métodos de clasificación jerárquica, las diferencias residen como ya
se ha apuntado y se verá con más detalles el criterio para definir la distancia entre estos.

Método de la distancia mínima (nearest neighbour o single linkage)

En este método se procede con el algoritmo general considerando la distancia entre clusters, como la
distancia mínima entre los individuos más próximos.

Este método es espacio-contractivo, es decir, que tiende a aproximar a los individuos sus distancias
similares.

Página 29 de 61
Método de la distancia máxima (furthest neighbour o complete linkage)

Este método utiliza un algoritmo general para obtener una clasificación jerárquica ascendente, pero
considerando la distancia entre clusters con la distancia entre los individuos más alejados.

Por modificar la métrica en sentido inverso que el método anterior, este método es espacio-dilatante, en el
sentido en que tiende a separar a mayor distancia que la indicada por sus disimilaridades iniciales.

El método de la distancia máxima se encuentra, como el anterior, en franca decadencia, ya que como
desventaja presenta el inconveniente de alargar mucho el proceso y dar como resultado agrupaciones
encadenadas.

Mientras el método de la distancia mínima se asegura que la distancia entre los individuos más próximos de
un clúster ser siempre menor que la distancia entre elementos de distintos clusters, el de la distancia máxima
va a asegurar que la distancia máxima dentro de un cluster será menor que la distancia entre cualquiera de
sus elementos, y los elementos estarán más alejados de los clusters.

Método de la media (U.P.G.M.A.)

Los dos métodos usados anteriormente a pesar de poseer buenas propiedades teóricas tienen el
inconveniente de distorsionar las medidas iniciales de disimilaridad, construyendo o dilatando,
respectivamente, la métrica. Una solución a esto fue este método. donde nos proponen la distancia entre un
grupo como I y un individuo J la media de las distancias entre los individuos del grupo I y el individuo J:

D (I,j) = 1/NI S D (i , j)

Posteriormente se extendió la definición a la distancia entre dos grupos como la media de todas las
distancias.

Este método es espacio-conservativo,es decir , que no hace variar demasiado la métrica inicial, y resulta ser
uno de los más utilizados, resolviendo de forma más aceptable la presencia de ruido.

Método del centroide

Utiliza como distancia entre grupos la distancia entre los mismos centroides de cada grupo. Este método
es un espacio-conservativo, pero presenta un inconveniente de dejarse influir excesivamente por los grupos
de mayor tamaño. Esto hace que sea menos utilizado que el anterior.

Página 30 de 61
Método de la mediana

La mayor desventaja del método del centroide es que si fusiona dos grupos de diferentes tamaños, el centroide
se queda más cerca del grupo de mayor tamaño y más lejos del grupo de menor tamaño, en proporción a
sus diferentes tamaños. Esto trae como consecuencia que durante el proceso aglomerativo de fusión se vayan
perdiendo las propiedades y características del grupo pequeño. Para poder evitar esto se puede suponer, que
independiente del tamaño que tengan en realidad, los dos grupos son del mismo tamaño. Teniendo en cuenta
esta misma estrategia, la distancia entre un individuo o grupo K de centroide k y el grupo formado por la fusión
de los grupos I y J de centroide, i y j viene dado por la mediana del triángulo i,j, k razón por la cual Gower
propuso el nombre de método de la mediana.

Este método es como el del centroide, es decir, espacio-conservativo, aunque también como él, no resulta
ser invariante ante transformaciones monótona de la distancia empleada, eso sí ocurre en los tres
primeros métodos.

Método de Ward

Este método propone que la pérdida de información se produce al integrar los distinto individuos en
el cluster, se puede medir, a través de la suma total de los cuadrados de las desviaciones entre cada
punto, y la media del cluster en el que se integra. Para que el proceso de clusterización resulte óptimo, en
el sentido de que los grupos formados no distorsionen los datos originales, se propone lo siguiente:

En cada paso del análisis, consideramos la posibilidad de la unión de cada par de grupos y optar por la
fusión de aquellos grupos que menos incrementan a la suma de los cuadrados de las desviaciones al unirse.

Este método es uno de los más usados en la práctica; posee casi todas las ventajas del método de la media y
suele ser más discriminativo en la determinación de los niveles de agrupación.

Método flexible

Las distintas distancias entre grupos definidos en los métodos anteriores se pueden expresar a través
de una única fórmula, para los distintos valores de estos se generan las distintas distancias. En efecto, si
consideramos el grupo formado por la fusión de los grupos I,J, (I,J) y el grupo que está en el exterior K, la
distancia ent (I,J) y K se puede expresar como:

D((I,J),K) = aI D(I,K)+ aJ D(J,K)+ b D(I,J)+ g |D(I,K)-D(J,K)|

En el caso del método del mínimo


aI = aJ = 1/2 ;; b = 0 ;; g = - 1/2

En el caso del método del máximo


aI = aJ = 1/2 ;; b = 0 ;; g = 1/2

En el caso del método de la media

Página 31 de 61
En el caso del método del centroide

En el caso del método de la mediana


aI = aJ = 1/2 ;; b = - 1/4 ;; g = 0

Y en el caso del método de Ward

Página 32 de 61
Aproximación al método científico

Evaluación de modelos

La etapa final de cualquier proyecto basado en modelos de aprendizaje automático, así como de cualquier
aproximación basada en modelos, es la evaluación del mismo. Por recapitular; tras el preprocesado de datos,
la elección de los algoritmos, la implementación del modelo y la obtención de resultado; finalizamos con la
evaluación del mismo basándose en métricas.

Para los modelos de clasificación la matriz de confusión es la base de todo, las métricas que miden y
comparan el rendimiento de los algoritmos son:

Exactitud
Entendida como el número de predicciones correctas partidas por el número total de entradas. A tener en
cuenta que esta medida no es válida para aquellas series de datos en desequilibrio.

Precisión
Esta métrica se refiere a la realización de predicciones positivas. Nos revela la proporción entre aciertos/fallos
de un conjunto de respuestas.

Sensibilidad o Recall
Refiere al número de predicciones tanto correctas como positivas partido por el número total de positivos. Nos
indica qué proporción de predicción acabaron cumpliéndose.

Especificidad o tasa negativa verdadera


Refiere al cálculo del número de predicciones negativas correctas partido por el número total de negativos. La
especificidad es lo contrario a la sensibilidad.

Puntaje de F1
Es la unión de tanto la precisión como la sensibilidad, con el objeto de ahorrar tiempo en la evaluación.
Se calcula como el promedio ponderado de la precisión y la sensibilidad. Tiene en cuenta tanto los falsos
negativos como los positivos.

Evaluación y optimización de modelos

Introducción

Cuando nos enfrentamos a un conjunto de datos extremadamente grandes, es decir de alta dimensión,
tenemos el impedimento de un difícil procesado. El gran número de características genera un excesivo
ruido en el modelo haciendo que decaiga el rendimiento del mismo, es decir tarda más el proceso de
entrenamiento y un desperdicio de recursos.

Por todo lo anterior, hay que realizar un proceso de selección de características y optimización a través de
diversos métodos.

Página 33 de 61
Método de filtro

Es una etapa del preprocesamiento de datos donde la selección de características es independiente del
algoritmo. Funciona tal que así:

1.
“Las características se clasifican según los puntajes estadísticos que tienden a determinar la correlación de las
características con la variable de resultado, ten en cuenta que la correlación es un término muy contextual y varía de
un trabajo a otro”.

2.
Características/ Predicción → Continuo Categórico
Continuo Correlación de Pearson LDA
Categórico ANOVA Chi-Cuadrado

3.
Correlación de Pearson

Se usa como una medida para cuantificar la dependencia lineal entre dos variables continuas.

4.
LDA

El análisis discriminante lineal se usa para encontrar una combinación lineal de características que caracteriza
o separa dos o más clases, o niveles, de una variable categórica.

5.
ANOVA

Proporciona una prueba estadística de si las medias de varios grupos son iguales o no.

6.
Chi-cuadrado

Es una prueba estadística que se aplica a los grupos de características categóricas para evaluar la probabilidad
de correlación o asociación entre ellos utilizando su distribución de frecuencia.

Método de Envoltura

Página 34 de 61
Este método requiere de un algoritmo de aprendizaje automático usándolo como criterio de evaluación:
buscando una característica adecuada según el algoritmo para la mejora del rendimiento.

Ejemplos de algoritmos de este método son:

1.
Forward Selection.

2.
Backward Selection.

3.
Eliminación de características recursivas

Métodos Integrados

Son la unión de métodos de filtro y de envoltura.

Diferencias entre métodos de filtro y envoltura:

Los métodos de filtro no incorporan un modelo de Machine Learning.

Los métodos de filtro son mucho más rápidos en comparación con los métodos de envoltura, ya que no
implican el entrenamiento de los modelos.

Página 35 de 61
Control de outliers y análisis de residuos

Modelos no supervisados

En esta ocasión, el modelo aprenderá a partir de datos simples sin ninguna respuesta asociada. Es decir,
el modelo es el que determina qué patrones en los datos son relevantes.

Esto opera de forma que el modelo reestructura un conjunto de datos en otra cosa, como podrían ser una
serie de características asignadas a una clase o serie de valores de los que no se tenía conocimiento de su
correlación. Tienen una gran utilidad para revelarnos aquellos significados dentro de un conjunto de datos
así como para mejorar los algoritmos del modelo supervisado.

Modelos supervisados

Estos modelos se producen cuando un algoritmo aprende a partir de un conjunto de datos así como a
partir de un conjunto de respuestas establecidas. Estas respuestas pueden ser tanto valores numéricos,
como también etiquetas o clases.

A continuación el modelo elabora una serie de soluciones que se adecúan a situaciones o problemas
nuevos de los cuales no había un registro previo. Podría decirse metafóricamente que es como el
aprendizaje de un alumno junto a su maestro.

Creación de Ingeniería de variables

Principios de la ingeniería de variables en la creación de variables

La ingeniería de variables es el proceso de uso del conocimiento que se dispone sobre los datos para
crear variables que pueden mejorar el desempeño de los algoritmos de Machine Learning. La ingeniería
de variables sirve fundamentalmente, para facilitar a los modelos la posibilidad de realizar predicciones
acertadas.

Aunque todo este pre-procesamiento puede ser lento en el tiempo, la ingeniería de variables bien diseñada,
estructurada y ejecutada es un punto clave en el entrenamiento y puesta en producción de modelos de
Machine Learning.

En la ingeniería de variables, se incluyen etapas desde la imputación de datos faltantes, la transformación


de las variables hasta la construcción de nuevas variables a partir de otras existentes.

Dependiendo de las características de las variables y del modelo que quieras entrenar, se usan diferentes
técnicas ya sea para imputación de los datos ausentes, la codificación de las variables categóricas o la
transformación de las variables numéricas.
Principales técnicas en la ingeniería de variables:

Imputación de los datos ausentes


• Análisis de Casos Completos

• Imputación por la Media/Mediana/Moda

• Imputación por una muestra aleatoria

Página 36 de 61
• Sustitución por un valor arbitrario

• Sustitución por un valor al final de la distribución

• Indicador de valor ausente

Codificación de variables categóricas


• Codificación One hot

• Codificación por Frecuencia

• Codificación informada por la media del target

• Codificación ordinal

• Pesos de Evidencia

• Codificación etiquetas poco frecuentes

Transformación de variables numéricas


• Transformación logarítmica - log(x)

• Transformación reciprocal - 1 / x

• Transformación por la raíz cuadrada - sqrt(x)

• Transformación exponencial - exp(x)

• Transformación Yeo-Johnson

• Transformación Box-Cox

Discretización de variables numéricas


• Discretización en intervalos de igual tamaño

• Discretización en intervalos de igual frecuencia

• Discretización agrupación k-medias

• Discretización usando árboles de decisión

Tratamiento de valores atípicos o extremos


• Remoción

• Top / bottom / zero

• Censura

Escalamiento de variables
• Escalamiento estándar

• Escalamiento por valores mínimo y máximo

• Escalamiento valor máximo absoluto

• Escalamiento robusto

• Normalización por la media

Página 37 de 61
• Normalización con la norma del vector

Extracción de variables
• De información de fecha

• De información de hora

Ingeniería de variables mixtas


• Cadenas

• Números

Pipelines
• Para la ingeniería de variables

La dimensionalidad

En esta unidad vamos a tratar qué es el problema de la dimensionalidad. En el conjunto de las denominadas
como ciencia de datos el mayor reto a la que se enfrentan es la excesiva carga en los modelos.

Se entiende por carga a las numerosas características en los conjunto de datos que tienen como
resultado un sobreajuste excesivo, teniendo este punto un aumento significativo de los costes y del tiempo
de producción del modelo. Pero ante esta eventualidad existen una serie de algoritmos y métodos que
resuelven el problema:

Reducción de la dimensionalidad de los datos → Manteniendo la información crítica.

Reducción de costos y tiempo.

Visualización optimizada

La reducción de la dimensionalidad y la visualización de datos están en estrecha relación. Como hemos visto,
y como veremos en unidades posteriores, la visualización de un conjunto de datos es una parte necesaria
para el análisis de los mismos, así como para la elaboración de inferencias. Pero al estar sobrecargados, es
decir contener un gran número de variables y características, esto se hace dificultoso. En este punto es donde
entra en juego la reducción de la dimensionalidad.

La reducción de la dimensionalidad se entiende como el proceso de reducir y ajustar las variables


aleatorias a través del establecimiento de un conjunto de variables principales. Esto es de vital
importancia ya que al plantear un modelo de aprendizaje automático debe guardar un equilibrio. Para que
el modelo aprenda, al principio, debes introducir muchas variables que sirvan de indicadores para el
conjunto de datos, pero llegados a cierto punto éstas entorpecen y el rendimiento del mismo decae. A esto
se le conoce como “la maldición de la dimensionalidad”.

Página 38 de 61
Este fenómeno de la maldición de la dimensionalidad acontece debido a que la densidad del conjunto
de datos a entrenar cae exponencialmente conforme aumenta la dimensionalidad. Aumentar las
características y variables que no forman parte de las muestras de entrenamiento, tienen el efecto en el
modelo de ser más disperso. Debido a esto le resulta más complicado encontrar la solución óptima, lo que
conduce a lo conocido como sobreajuste.

El sobreajuste acontece en modelos que se corresponden excesivamente a una serie de datos en


particular y no al conjunto de datos en general. Un modelo que se encuentra sobredimensionado funciona
bien para una serie particular de datos, pero en el momento de añadir otros nuevos o plantear predicciones
nuevas, éstas se vuelven defectuosas.

En este punto es cuando entran a colación las diversas técnicas de reducción de la dimensionalidad y
sobreajuste. Estas técnicas se dividen en dos clases diferentes:

Eliminación de características
La eliminación de características es la supresión de determinadas variables, es decir, de aquellas que son
redundantes respecto a otras o si son no aportan información de utilidad. Esta técnica tiene la capacidad de
ser fácil de implementar, así como la de hacer que nuestro conjunto de datos se reduzca. Pero se debe tener
cuidado en no perder variables que sí nos son de utilidad.

Extracción de Características
La extracción de variables se refiere a la creación de nuevas variables, pero siendo éstas un conjunto de las
antiguas.

Página 39 de 61
Técnicas: PCA y SVD

El análisis de componentes principales (conocido por sus siglas en inglés PCA) es una técnica estadística
que “transforma ortogonalmente las n dimensiones numéricas originales de un conjunto de datos en un nuevo
conjunto de n dimensiones llamadas componentes principales”.

Esto resulta en un orden de los datos en relación con la mayor varianza posible, es decir, cada componente
siguiente tiene la mayor varianza posible. Es un método para descubrir nuevas variables no
correlacionadas de un conjunto de datos.

Ensamblado de modelos

Definición de Model Ensembles

Para la mejora en el rendimiento de los modelos se utilizan los métodos combinados o ensamble de
modelos con el objetivo de mejorar su precisión. Este método se refiere a la creación de varios modelos
de aprendizaje automático con el fin de resolver el mismo problema.

La idea subyacente es la de combinar los resultados de varios modelos, para así promediar los errores y
optimizar los resultados.

Tipos de métodos

Agregación Bootstrap o Bagging


Esta técnica de creación de conjuntos de modelos funciona tal que en una muestra de datos, se seleccionan
algunas de ellas (bootstrapped). Esta extracción es aleatoria por lo que cada variable es igualmente
seleccionable.

Página 40 de 61
Al establecer las muestras se comienza el entrenamiento de los modelos por separado para luego combinar
sus resultados.

Boosting
Esta técnica se caracteriza por ser secuencial. La secuencia comienza entrenando al modelo con su conjunto
de entrenamiento, para luego en modelos siguientes ajustar los errores residuales del primero. Se enfatizan o
se potencian los resultados del modelo anterior en la secuencia. Los resultados de esta secuencia potenciada
se puntúan por su precisión para luego combinarse en el resultado final.

Página 41 de 61
Modelos débiles y modelos fuertes

A menudo hablamos de modelos débiles y modelos fuertes. Aunque este tipo de aprendizaje tiene una
definición matemática, el concepto detrás de él es relativamente simple:

Un buen modelo es aquel que, con suficientes muestras analizadas, es capaz de mantener los errores por
debajo de los límites aceptables.

Por el contrario, un mal modelo puede limitar su error a un cierto valor mínimo. Otra forma de identificar a un
modelo débil es que se comporta sólo un poco mejor que un alumno que lo predice puramente al azar.

Hay un conjunto de "súper algoritmos" para un grupo de modelos capaces de convertir a un grupo de
modelos débiles en estudiantes fuertes. Esta serie de meta algoritmos se llaman potenciación. Discutiremos
el concepto de ensamblaje de modelos más adelante.

Creación de pipelines para crear modelos ensamblados

El proceso que hace posible la implementación de modelos de aprendizaje automático para otros propósitos,
esto es, otros entornos de trabajo se conocen como Deployment.

Refiere al uso de las predicciones de los modelos a otros sistemas. Son necesarios para el despliegue en
los procesos de producción.
Las pipelines refieren al hecho de que el gran conjunto de datos no suele encontrarse en el mismo formato
por lo que se torna necesario su procesamiento. Estos pipelines son una serie de etapas que traspasan los
datos en crudo hacia unos procesados listos para entrenar. Ello implica que cuando realizamos el despliegue
del modelo también se debe hacer con los pipelines.

Creación de pipelines reproducibles


Dentro de los pasos de creación de un pipeline desplegada se encuentran:

• La ingeniería de Características

• Entrenamiento del modelo

• Resultados o predicciones

Reproducibilidad
Al recibir los datos tanto de entornos de producción como de investigación, los resultados deben ser los
mismos.

Página 42 de 61
Gestión del ciclo de vida de los modelos
En la actualidad podemos encontrar diferentes aproximaciones a la hora de diseñar un ciclo de vida para
modelos de aprendizaje automático. Pero vamos a definir cuáles son las fases en común a todos ellos, así
como, las funciones principales que realizar a saber:

Gestión de los datos


La primera fase del proceso se enfoca en la importancia de la gestión de datos que estarán destinados al
entreno de los modelos, así como, garantizar su calidad. En esta etapa se incluyen tareas como la extracción
y almacenamiento de datos, preprocesado de los datos (limpieza, formato, ingeniería de características de los
mismo), con el fin de evitar inconsistencias por datos erróneos o faltantes y errores de vías, varianza, etc. en
los modelos finales.

Entrenamiento / Aprendizaje de los modelos


En esta etapa comenzamos con el entrenamiento del modelo para el aprendizaje sobre la tarea/ problema que
tiene que realizar. En esta fase se decidirá tanto qué modelos vamos a usar, teniendo en cuenta la relación
entre su complejidad, cantidad de datos y fuentes que disponemos y los resultados que vayan a aportar, así
como los costes (tanto temporal como computacionalmente).

Evaluación de los modelos


En esta ocasión comprobaremos la utilidad del modelo, tanto en relación con el rendimiento como a su eficacia
con nuevos datos, así también con la utilidad práctica del mismo.

Productivización de los modelos


En esta etapa el modelo se despliega en relación a un proceso productivo, como vimos en el módulo 2. Hay
que recordar someramente que se incluyen desde la integración con sistemas existentes, monitorización y
actualización

Página 43 de 61
Interpretabilidad

En las primeras unidades de este módulo comenzamos a estudiar los distintos métodos, modelos y algoritmos
para el análisis de datos orientado al aprendizaje automático. Vimos cómo estos modelos generan patrones
de datos, así como predicciones o análisis para la toma de decisiones.

La interpretabilidad de un modelo es el nivel al que se puede llegar a predecir, o estructurar los patrones
de datos, para un humano en base a los resultados de este. Cabe reseñar que conforme los modelos se
han ido complejizando, esto es, distanciados cada vez más de la inferencia estadística al uso (ej: regresiones
lineales) para aproximarse a modelos más complejos (redes neuronales) entra en juego el concepto conocido
como caja negra.

Este modelo de caja negra se define como el hecho que los investigadores tengan acceso el conjunto de datos
de entrada, es decir aquellos de los que el modelo aprendía, así como los datos de salida (predicciones/
patrones) y su evaluación (rendimiento), pero como humanos no tenemos la capacidad de reproducir o
interpretar el funcionamiento del modelo específico de aprendizaje automático.

La necesidad de elaborar mecanismos que nos acerquen a la interpretación del modelo, surge en pos de
entender cómo obtiene buenos resultados el modelo en cuestión. A este punto lo denominamos como
interpretabilidad de los modelos.

Las razones para investigar la interpretabilidad de nuestros modelos pueden ser:

Fiabilidad y pruebas → prevenir potenciales errores de funcionamiento.

Depuración programática → evitar que el modelo llegue a conclusiones socialmente aceptadas.

Mejoras y auditorías.

Conseguir una sólida explicación de los resultados.

Responde a la siguiente pregunta correctamente:

¿Cuáles son las diferentes aproximaciones que podemos encontrar a la hora de diseñar un ciclo de vida para
modelos de aprendizaje automático?

• Gestión de los datos.

• Entrenamiento / Aprendizaje de los modelos.

• Evaluación de los modelos.

• Productivización de los modelos.

Página 44 de 61
Aproximación a modelos heurísticos de optimización

En esta unidad vamos a tratar como podemos resolver problemas complejos con eficacia, así como con
procesos optimizados y aquellos elementos de control para asegurar obtener el mejor resultado posible o la
solución más aproximada.

Estas ideas vienen de largo y se las denomina como heurística. Su origen epistemológico se remonta
al griego clásico εὑρίσκειν significando “descubrir” y compartiendo la misma raíz que la expresión de
Arquímedes eureka.

Una definición más ajustada a la ciencia es la establecida por Bartholdi y Platzman (en 1988):

“Una heurística puede verse como un procesador de información que, deliberadamente, peor juiciosamente, ignora
cierta información. Ignorando información, una heurística se libra de gran parte del esfuerzo que debió haberse
requerido para leer los datos y hacer cálculos con ellos. Por otra parte, la solución producida por tal heurística es
independiente de la información ignorada, y de este modo no se ve afectada por cambios en tal información.
Idealmente, se busca ignorar información que resulta muy caro colectar y mantener, esto es, computacionalmente
caro de explotar y mantener, y que contribuye en poco a la precisión de la solución.”

Esta definición puede plantearse como la de una técnica que incrementa la eficiencia en un proceso de
búsqueda, obviando la completitud del problema. La heurística es en definitiva resaltar aquellos puntos
de mayor interés obviando aquellos que son porcentualmente menos interesantes.

En otras palabras, mide la adecuación de aquellas soluciones respecto al problema y cómo de cerca está de la
solución óptima. La razón de ser de una heurística es la de indicar dónde buscar la solución más provechosa
disponible. Esto se realiza a través de una puntuación por mérito en cada nodo del árbol, por ejemplo.

Tipos de heurísticas

Heurísticas de construcción
Encuentra una solución a un problema, intentando desde él ya la mayor optimización de esta.

Heurísticas de mejoramiento
Estas parten de una solución conocida de antemano con el propósito de mejorarla. Estas funcionan
independientemente de lo acertada o errónea de la solución de partida.

Página 45 de 61
Conocimiento de los algoritmos genéticos

Principios de optimización basada en heurísticos

Modelos Exactos Modelos Heurísticos


Solución óptima Solución de Calidad (óptimo no garantizado)
Empleo grande de recursos y tiempo para hallar la solución
Tiempo Reducido
óptima
Útiles en problemas grandes y con escaso
Útil en problemas pequeños
tiempo

Una aproximación heurística respecto de un problema se basa en los siguientes conceptos:

Principios heurísticos
Los principios heurísticos refieren a aquellas aproximaciones orientadas a la búsqueda de una idea que
posibilite una solución; son a la vez el inicio y el medio para hallar dicha solución. Dentro de estos principios
destacan la analogía y la reducción (modelos).

Reglas heurísticas
Las reglas por su parte ejercen como procedimientos en los que se basa el proceso de búsqueda, esto es, los
medios que emplea en ella.

Estrategias heurísticas
Una estrategia refiere a la organización de los recursos empleados en el procesos de búsqueda (Hipótesis).

Gradiente descendente

La definición de gradiente es la de una generalización de una derivada cuya definición matemática es la


siguiente:

“La derivada de una función mide la rapidez con la que cambia el valor de dicha función matemática, según cambie
el valor de su variable independiente. La derivada de una función es un concepto local, es decir, se calcula como el
límite de la rapidez de cambio media de la función en cierto intervalo, cuando el intervalo considerado para la
variable independiente se torna cada vez más pequeño. Por ello se habla del valor de la derivada de una función en
un punto dado”

El método de gradiente descendente, se emplea en multitud de modelos de aprendizaje automático, en


los cuales, este aprendizaje tiene por objetivo minimizar los parámetros de la función coste, entendida esta
como la función que buscamos optimizar.

Esto se aplica en la regresión lineal o polinómica, Deep Learning... En definitiva, es un método de


optimización numérica para mejorar coeficientes.

Página 46 de 61
El empleo de este método de
optimización nos permite realizar
eficaz y automáticamente la prueba
de coeficientes en nuestros modelos
de aprendizaje automático.

Tanto en aquellos pequeños como lo


son los de regresión lineal o más
grandes (redes neuronales). Este
método busca el conjunto de
parámetros que reducen la función
coste.

En la ilustración, la pendiente es
aquello que denominamos gradiente;
minimizar el error implica descender el
punto de esa pendiente.

Modelos basados en comportamientos animales

Los modelos basados en comportamiento animal o bio-inspirados refieren a aquellos métodos heurísticos
que se inspiran tanto en fenómenos físicos, teorías evolutivas o el propio comportamiento de ciertos seres
vivos. El objetivo es el de optimizar los resultados de forma eficiente para problemas y ámbitos distintos.

Página 47 de 61
Fue a mediados de los años setenta, cuando John Holland, propuso su modelo de optimización basado en
la teoría de la evolución. Posteriormente y de la mano con el incremento exponencial de la capacidad de
cómputo, se desarrollaron nuevos modelos basados en otros comportamientos de seres vivos y fenómenos
físicos. Alguno de estos modelos son los siguientes:

Cada algoritmo, aunque teóricamente puede ser empleado para cualquier problema de optimización debido
a sus características internas, suelen funcionar mejor en ciertas situaciones. Así, por ejemplo, los algoritmos
de colonias de hormigas son óptimos para tratar problemas de enrutamiento, y el algoritmo de colonia de
abejas para tratar problemas de combinatoria.

El algoritmo genético

El algoritmo genético toma su base en el principio de selección natural de la teoría de la evolución, aquella
que estipula que “no es el más fuerte de las especies la que sobrevive(...) sino la que mejor se adapta al cambio”.

Esta técnica, desarrollada a mediados de los setenta, resuelve problemas que otros modelos hasta la fecha
no podían, ya que estos algoritmos, basan la búsqueda de sus resultados en la selección natural y genética.
Hablamos de algoritmos en plural ya que son una parte de lo conocido como computación evolutiva.

Estos algoritmos funcionan a partir de una población de posibles resultados. Esta población de resultados, se
les aplica las reglas de la selección genética, al producir nuevos “hijos”/resultados en sucesivas generaciones.

A cada solución, o posible solución, se les puntúa según su fitness (adaptación) y aquellas con una mayor
puntuación se les incrementa la probabilidad de reproducción, es decir sobreviven los más fuertes. Con el paso
de generaciones hasta llegar al criterio preestablecido como óptimo.

Página 48 de 61
Algunas características de estos algoritmos es su dinamismo, ya que evolucionan con el tiempo, así como su
adecuación a problemas cambiantes.

Los principales aspectos a tener en cuenta son:

Tener una población / soluciones de base

Este algoritmo está orientado a la optimización por ello debes tener un conjunto de soluciones entre las cuales
se seleccionará la más óptima.

Fitness (adaptación)

Este es un valor que se asocia a cada solución y determina el grado de adecuación.

Variación funcional

Si dentro de nuestra población inicial no hay una solución adecuada, se deben generar nuevas soluciones. Las
soluciones individuales sufrirán una serie de variaciones.

Página 49 de 61
Aplicaciones de los algoritmos genéticos

Generalmente los algoritmos de este tipo son usados para problemas de optimización aunque también se
los emplea en otras áreas:

Optimización

Refieren a aquellos problemas en los que hay que maximizar o minimizar un resultado o valor junto a una serie
de restricciones.

Redes neuronales artificiales

Este algoritmo se puede emplear para entrenarlas, sobre todo aquellas de tipo recurrente.

Finanzas

Usados para hallar el mejor parámetro en una negociación, así como en redes orientadas a las operaciones
financieras.

Economía

Uso en teoría de juegos y en modelos económicos.

Procesamiento de imágenes

Programación

Programación de horarios.

Análisis ADN

Diseño de la curvatura en las alas de los aviones

Página 50 de 61
Diseño de ingeniería

El diseño de ingeniería se basa principalmente en el modelado y la simulación por computadora para hacer
que el proceso de diseño del ciclo sea rápido y económico. Se han utilizado algoritmos genéticos para optimizar
y proporcionar soluciones potentes.

Enrutamiento de tráfico y transporte (problema del vendedor)

Este es un problema bien conocido que muchas compañías de ventas han aplicado con éxito porque es
económico y asequible. Esto también se puede resolver mediante un algoritmo genético. tecnología robótica

Robótica

La aplicación de un algoritmo genético en el campo de la robótica es bastante amplia. Hoy en día, los
algoritmos genéticos se utilizan para crear robots de aprendizaje que se comportan como humanos y realizan
tareas humanas de forma cada vez menos automática.

Cromosoma y función de fitness

Definición de cromosoma

“Un cromosoma (también a veces llamado genoma) es un conjunto de parámetros que definen una solución
propuesta al problema que el algoritmo genético está intentando resolver. El cromosoma se representa a menudo
como una serie de bits, aunque también se utilizan una variedad amplia de otras estructuras de datos”

Definición función Fitness

Es la etapa en la que se determinan las características que hacen óptimas a un resultado (cromosoma).
Esto es realizado por una función cuyo objetivo es evaluar la viabilidad de las soluciones en una población,
asignando aquellos rasgos mejores por encima; ejerciendo como un diferenciador.

Página 51 de 61
Resolución de un problema usando algoritmos genéticos

Hay muchos problemas que se pueden resolver mediante algoritmos genéticos. Algunas de las siguientes
preguntas son:

Optimización de rutas
Utilizado para la optimización de rutas, puede encontrar la ruta más corta o rápida entre ciudades o regiones
en muy poco tiempo. En las ciudades inteligentes, también es útil tratar de reducir las emisiones de dióxido de
carbono.

Optimización de la tarea
Optimizarlos es necesario para realizar tareas en el menor tiempo posible. Mediante el uso de algoritmos
genéticos, los cálculos también se pueden realizar de forma rápida y eficiente.

Automatización de la gestión de equipos industriales


Los cálculos se pueden realizar en tiempo real para optimizar la automatización de equipos industriales.

Aprendizaje del comportamiento del robot


Para la función de coste, es posible enseñar al robot. Mediante el uso de estos algoritmos, el aprendizaje puede
ser más rápido y eficiente.

Sistemas del sector financiero


Una aplicación interesante en el sector financiero es que estos algoritmos te permiten descubrir las reglas
de inversión que dictan cuándo entrar y salir del mercado para obtener el máximo beneficio. Por otro lado,
el método Splitwise puede optimizar el método de distribución de costos entre diferentes usuarios. Caso 6:
encontrar errores en los programas. Esto le permite detectar errores en programas de programación, lo que
le ayuda a ahorrar tiempo y dinero en la implementación.

Encontrar errores en los programas


Esto le permite detectar errores en programas de programación, lo que le ayuda a ahorrar tiempo y dinero en
la implementación.

Utilización de series temporales y Forecasting

Introducción

En la presente unidad, vamos a definir qué es una serie temporal, así como aquellos procedimientos cuyo
objetivo es la de realizar la predicción de valores en las mismas. Para empezar, se entiende por una serie
temporal a una sucesión de datos ordenados cronológicamente, pudiendo estar esto espaciados a
intervalos iguales o desiguales.

Como acabamos de decir, en esta unidad nuestro objetivo es ver qué tipo de predicciones podemos realizar
en las series temporales. A estos procedimientos se los denomina comúnmente como Forecasting.

Página 52 de 61
La característica esencial de las series temporales, es que las observaciones posteriores no son
independientes entre sí y deben analizarse en orden cronológico de las observaciones.

Los métodos estadísticos basados en la independencia de las observaciones no son adecuados para el
análisis de series temporales porque las observaciones en un momento dado, dependen de los valores de
series pasadas

Dentro de los objetivos del análisis de series temporales nos encontramos:

Los orientados en la descripción


Cuando se estudia una serie temporal, lo primero que se tiene que hacer es la de representar y considerar las
medidas descriptivas básicas. Así, se tiene que considerar:

a. Tendencias
b. Estacionalidad
c. Si aparecen outliers

Predicción
Se buscan normalmente predecir comportamientos futuros.

Página 53 de 61
Bases sobre componentes de las series temporales: tendencia, ciclo y
estacionalidad

Dentro
de los

objetivos descriptivos en las series temporales se trata de establecer aquellos componentes básicos dentro
de la serie temporal. Como hemos visto este enfoque no es el único, ni el idóneo en todas las circunstancias.
Es, sin embargo, especialmente útil en aquellas series en las que se encuentran ciertas tendencias.

Las componentes o fuentes de variación que se consideran habitualmente son las siguientes:

Tendencia
Se define como un cambio a largo plazo que se produce en relación a la media. La tendencia se identifica con
la evolución de la serie a largo plazo.

Efecto Estacional
Otras series temporales presentan cierta periodicidad, es decir, presentan variaciones en ciertos periodos de
tiempo (anual, mensual ...). Se pueden eliminar del conjunto de los datos al desestacionalizar la serie

Efecto cíclico
Refiere al componente de la serie que recoge los cambios periódicos de amplitud superior a un año. Se
tratan de movimientos normalmente irregulares alrededor de la tendencia, en las que, a diferencia de las
variaciones estacionales, tiene un período y amplitud variables, pudiendo clasificarse como cíclicos, cuasi
cíclicos o recurrentes.

Página 54 de 61
Componente Aleatoria
Al eliminar los componentes anteriores pueden persistir algunos de carácter aleatorio. Aquellas series más
orientadas a la predicción de fenómenos estudian estos últimos.

Página 55 de 61
Series estacionarias y no estacionarias

Como ya hemos establecido, un componente de las series temporales es su estacionalidad.

De esta manera podemos clasificar las series temporales en:

Estacionarias

Se estipula que una serie es estacionaria cuando son duraderas, esto es, cuando conceptos que hemos visto
anteriormente como la media y la varianza son constantes en el tiempo. Este punto tiene su reflejo gráfico
cuando los valores de una serie determinada se encuentran alrededor de una media constante y la varianza
respecto a esa media también los es en el tiempo. No hay incrementos o disminuciones repetitivas de sus
valores. Para estas series es importante el cálculo de la media o varianza, aunque también se les puede aplicar
cálculos de serie no estacionarias si previamente se han transformado.

No Estacionarias
Son series en las cuales la media y varianza no son constantes en el tiempo, es decir, cambian. Los cambios
en la media determinan una tendencia a incrementar o disminuir dentro de un periodo, por lo que la serie no
oscila alrededor de un valor constante.

Página 56 de 61
Análisis de anomalías

Entendemos por análisis de anomalías a la detección e identificación de valores o eventos raros de los
cuales intuimos que tienden a diferenciarse significativamente respecto a los datos de nuestra serie
temporal.

Ello es muy útil en muchas áreas de aplicación de series temporales ya que estos valores atípicos pueden
estar relacionados con fallos, eventos o cuestiones de cualquier tipo; en relación con nuestro objeto de
análisis.
Ejemplo de ello pueden ser desde la detección de fraude bancario hasta problemas de salud. La cuestión
relevante en este punto es establecer métodos que nos ayuden a detectar susodichas anomalías, ya que
en estructuras de datos simple y pequeñas es fácil, pero en aquellas más complejas no.

La visualización de las series temporales, puede proporcionarnos información, pero no en todas las
casuísticas la detección efectiva.
Detección anomalías con modelos supervisados

La clasificación supervisada como técnica, es empleada cuando conocemos la presencia de datos


anómalos, así como cuáles son. Como hemos visto para estos modelos se tienen dos conjuntos de datos, de
entrenamiento y de prueba.

Al disponer de la información en su conjunto los datos son clasificados en función de si son anómalos o no.
A partir de estos conjuntos de datos, el modelo aprende a distinguir aquellos que son anómalos de los que
no lo son.

Por lo general estos conjuntos de datos se encuentran desbalanceados (demasiados datos legítimos en
comparación a los anómalos) por lo que se obtienen resultados sesgados. Para resolver esto se emplean los
conocidos como métodos basados en instancias (modificación de los datos) así como en algoritmos (bagging y
boosting).

Detección anomalías con modelos no supervisados

En este caso, aunque sabes de su existencia, no conocemos cuáles de nuestros datos son anómalos, es
decir, no están etiquetados como tal; están mezclados con los legítimos.

Para esta situación existen varios modelos para ello; y que hemos tratado previamente:

Procesado basado en vecinos cercanos

Orientada para distribuciones que nos sean normales, así como de dimensiones muy altas.

Procesado basado en clusterin

Página 57 de 61
Suavizado exponencial

Se define como suavizado exponencial al uso de promedios de una variable en una serie temporal para
predecir su comportamiento/valor futuro.

Así pues, estos métodos se orientan a predecir qué sucederá suavizando la serie temporal; esto es,
reduciendo las fluctuaciones para vislumbrar la tendencia que no es visible a simple vista. Estas oscilaciones
suavizadas se obtienen realizando la media ponderada de los distintos valores.

La parte de exponencial se refiere a que las ponderaciones decrecen exponencialmente conforme nos
distanciamos del momento actual. Y simple refiere a su contraparte en las que se realizan operaciones
dobles de alisado.

Modelos autoregresivos

Definición

“es una representación de un proceso aleatorio, en el que la variable de interés depende de sus observaciones
pasadas. Específicamente, la variable de interés o de salida, depende linealmente de sus valores anteriores. Por esto
decimos que existe dependencia lineal entre las distintas observaciones de la variable"

Los modelos autorregresivos se caracterizan por “regresar” en sí mismos. Esto es, la variable dependiente y
la variable independiente son iguales con la diferencia que la variable dependiente estará en un momento del
tiempo siguiente al de la variable independiente. Decimos ordenados cronológicamente porque actualmente
nos encontramos en el momento del tiempo.

Al ser el objetivo el realizar una proyección a futuro, la variable dependiente deberá estar siempre, como
mínimo, en una unidad de tiempo más avanzado que el de la variable independiente. Nuestra atención debe
centrarse en el tipo de variable, la frecuencia de sus observaciones y el horizonte temporal de la proyección.

Ejemplos de uso de estas proyecciones basadas en modelos autorregresivos, se encuentran en la proyección


de ventas de empresas, pronóstico sobre crecimiento del producto interior bruto (PIB) de un país, etc.

Página 58 de 61
Modelos univariantes y multivariantes

Definición

“La estadística multivariante trata de comprender los diferentes objetivos y antecedentes de cada una de las
diferentes formas de análisis multivariante y cómo se relacionan entre sí. La aplicación práctica de la estadística
multivariante a un problema particular puede involucrar varios tipos de análisis univariados y multivariados para
comprender las relaciones entre las variables y su relevancia para el problema que se está estudiando.

Además, las estadísticas multivariadas se refieren a las distribuciones de probabilidad multivariadas, en


términos de:

Cómo se pueden utilizar para representar las distribuciones de datos observados;

Cómo se pueden utilizar como parte de inferencia estadística, particularmente cuando varias cantidades diferentes
son de interés para el mismo análisis.

Ciertos tipos de problemas que involucran datos multivariados, como, por ejemplo, la regresión lineal simple y la
múltiple, generalmente no se consideran casos especiales de estadística multivariada porque el análisis se trata
considerando la distribución (univariada) condicional de una única variable respuesta dadas las otras variables”

Modelos ARIMA

“En estadística y econometría, en particular en series temporales, un modelo autorregresivo integrado de promedio
móvil o ARIMA (acrónimo del inglés autoregressive integrated moving average) es un modelo estadístico que utiliza
variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para una predicción hacia el futuro.
Se trata de un modelo dinámico de series temporales, es decir, las estimaciones futuras vienen explicadas por los
datos del pasado y no por variables independientes”

Modelos con parametrización automática

Si necesita realizar análisis estadísticos o técnicos complejos, puede ahorrar pasos y tiempo con el kit de
herramientas de análisis.

Se deben proporcionar datos y parámetros para cada análisis y la herramienta utilizará la función
estadística o las técnicas macro apropiadas para realizar los cálculos y mostrar los resultados en la tabla de
resultados. Además del marcador, algunas herramientas también generan gráficos.
Las funciones de análisis de datos, solo se pueden usar en una hoja de cálculo a la vez. Cuando analiza
datos de hojas de trabajo agrupadas, los resultados aparecen en la primera hoja y las tablas con formato en
blanco aparecen en el resto de las hojas de trabajo.

Para analizar otras hojas, actualice la herramienta de análisis para cada una de ellas.

Varianza del factor

Esta herramienta realiza ANOVA simple en datos de dos o más muestras. Este análisis proporciona una prueba
de la hipótesis de que cada muestra proviene de la misma distribución de probabilidad subyacente, no la
hipótesis alternativa de que la distribución de probabilidad subyacente no es la misma para todas las muestras.
Si solo tiene dos muestras, puede usar la función de hoja de cálculo T.TEST. Para más de dos muestras T.TEST,
no existe una generalización adecuada y, en su lugar, se puede llamar a un Anova unidireccional.

Página 59 de 61
Correlación

Las funciones de hoja de cálculo COEF.DE.CORREL y PEARSON calculan el coeficiente de correlación entre dos
medidas cuando se observa la medida de cada variable para cada uno de los N sujetos. (Cualquier observación
faltante para cualquier sujeto hará que ese sujeto sea omitido del análisis).

Cuando cada uno de los N sujetos tiene más de dos variables medidas, la correlación de la herramienta de
análisis es particularmente útil. Proporcionando la tabla de resultados, la matriz de correlación muestra el valor
COEF.DE.CORREL (o PEARSON) aplicado a cada posible par de variables de medida.

Tanto el coeficiente de correlación como la covarianza miden qué tan bien "fluctúan entre sí" las dos variables
medidas.

A diferencia de la covarianza, el coeficiente de correlación se escala para que su valor sea independiente de las
unidades en las que se representan las dos variables de medición.

Por ejemplo, si las dos medidas son peso y altura, el valor del coeficiente de correlación no cambiará cuando
convierta el peso de libras a kilogramos. Cualquier coeficiente de correlación debe estar entre -1 y +1
(inclusive).

Puede usar la herramienta de análisis de correlación para examinar cada par de medidas para determinar si
dos medidas tienden a tener covarianza, es decir, si los valores altos de una variable están correlacionados (a
favor) con un valor alto de la otra y si un valor bajo.

El valor de una variable tiende a ser positivo. correlacionados con valores bajos de otra variable (correlación
negativa) o si los valores de dos variables normalmente no están correlacionados (la correlación tiende a ser
cero ).

Suavizado exponencial

El valor pronosticado por el motor de suavizado exponencial se basa en el pronóstico del período anterior,
corregido por errores en pronósticos anteriores. La herramienta utiliza una constante de suavizado a, cuyo
tamaño determina qué tan preciso es el pronóstico para errores en pronósticos anteriores.

Gráficos e Histogramas

Herramienta de análisis de gráficos Calcula la frecuencia de datos y la frecuencia de datos completa y los datos
completos. Esta herramienta crea datos sobre la cantidad de valor en el conjunto de datos.

Gestión de proyectos de Data Science


Aquellos proyectos con éxito orientados a la ciencia de los datos necesitan de una buena organización, de
un plan de trabajos, así como de comunicación para que puedan funcionar.

Un aspecto fundamental para el objetivo de éxito es:

• Una buena comunicación en la comprensión de los objetivos: que la visión de conjunto sea compartida

Página 60 de 61
Características del proceso de gestión de Data Science:

Planificación
El volumen, así como la variedad de los datos en los proyectos necesita de la organización del Project Manager
para encontrar soluciones innovadoras y eficaces.

Análisis de equipo
Se extraen datos sobre experiencia previa en proyectos, habilidades de los miembros del equipo, formación
académica, formación adicional, revisiones de desempeño individual y de equipo, liderazgo, etc. Big data puede
proporcionar información sobre cómo organizar equipos de manera más efectiva. Los ejemplos incluyen la
optimización del tamaño y la estructura del equipo, las habilidades necesarias para construir equipos efectivos
o la selección de los líderes más efectivos para cada tipo de proyecto.

Gestión del conocimiento


Grandes cantidades de información son generadas por la gestión del conocimiento en proyectos y
organizaciones. Además, esta información incluye buenas prácticas, documentos, registros, lecciones
aprendidas, etc. Muchas veces esta información se almacena en enormes archivos y es casi imposible
encontrar la información necesaria, pierde valor.

Gestión de riesgos
Los riesgos deben gestionarse para minimizar los impactos negativos en los resultados del proyecto, por lo
que los riesgos siempre deben documentarse. Cuando surge un riesgo y se convierte en un problema, se
deben documentar las soluciones a estos problemas. Generar toda esta información nos permitirá analizar
para mejorar la gestión de riesgos.

Gestión calidad
La gestión de calidad incluye muchas tareas en las fases de planificación, diseño, construcción y prueba. En
estas etapas de desarrollo, se debe preparar, procesar y analizar una gran cantidad de información. Esta
información incluye decisiones tomadas al desarrollar políticas, seleccionar estándares y umbrales de calidad
o aplicar estándares de calidad como los estándares ISO. Big data puede analizar esta información para
desarrollar nuevas técnicas de control y proceso de control de calidad, cuadros de mando para el seguimiento
de la calidad durante la ejecución del proyecto.

Gestión recursos
Los recursos del proyecto incluyen recursos humanos, infraestructura, tecnología, recursos financieros,
conocimientos, procesos y procedimientos. Al igual que en el proceso anterior, se recopila una gran cantidad
de información sobre el uso de recursos. Como tipo de recurso, unidad de medida, número de solicitudes,
cantidad utilizada, cantidad de recursos desperdiciados y mecanismo de control de uso de recursos. Dado que
los recursos a menudo se convierten en efectivo, el análisis de gestión de activos puede sacar conclusiones
sobre cómo mejorar la gestión de recursos, lo que resulta en ahorros de costos. Big data puede desempeñar
un papel importante en el desarrollo de nuevos procedimientos para la obtención, asignación y gestión de
recursos de proyectos.

Página 61 de 61

También podría gustarte