Documentos de Académico
Documentos de Profesional
Documentos de Cultura
M03 Ud01 Ifct107
M03 Ud01 Ifct107
Página 3 de 61
Introducción y objetivos
Introducción
Objetivos
Explorar y entender los datos para poder enfocar correctamente un problema, combinando diferentes
modelos y, así, crear el que se requiera para dar solución al problema identificado y evaluar su funcionamiento
para conseguir su optimización. Habilidades de gestión, personales y sociales.
Inteligencia emocional
Trabajo en equipo
• Confianza: cada colaborador debe confiar en los demás tanto como en sí mismo. El apoyo mutuo es
imprescindible para garantizar la fluidez en los procesos.
• Equilibrio: dentro de cada equipo, cada persona tiene su propio rol y debe ser capaz de desarrollarlo de
forma individual, en coherencia con los objetivos comunes.
• Pertenencia: sentirse involucrado con el equipo incentiva una mayor implicación, las ganas de hacer
aportaciones valiosas y ver crecer cada proyecto.
Adaptabilidad
El talento más flexible, que mejor se adapta a los nuevos escenarios es el más capacitado para materializar las
soluciones más novedosas y originales.
Pensamiento crítico
Es una competencia clave para complementar la lógica pura, detectar otras variables que pueden afectar a la
toma de decisiones y no dar siempre por válida la primera opción.
Resolución de problemas
Si la inteligencia artificial es una tecnología orientada a la inmediatez en los resultados, las personas deben ser
capaces de crear las estrategias más adecuadas a cada situación para lograr obtener las mejores soluciones.
Página 4 de 61
Aproximación a la modelización
Introducción
Los algoritmos de aprendizaje automático, aunque no lo creas así, los utilizamos constantemente a diario y
es tan habitual su uso que pasan desapercibidos.
Los correos electrónicos son uno de los ejemplos básicos a la hora de introducirnos en el Machine Learning.
Fue la primera aplicación de uso masivo, cuyo funcionamiento estaba basado en los algoritmos de aprendizaje
automático. El hecho de detectar si los correos recibidos son Spam o por contra de nuestro interés, es una
clasificación basada en un algoritmo de clasificación en base a parámetros preestablecidos como son el
asunto o contenido del correo, y si estas están dentro de las palabras prohibidas, por el propio servicio de
correos.
Así también, la propia aplicación aprende de quien los usa a través del registro manual que haga en relación
a los correos recibidos.
Otra aplicación basada en la modelización de aprendizaje automático, es la del reconocimiento facial.
En diversas redes sociales, con el simple hecho de subir una fotografía, la propia aplicación es capaz de
reconocer quien aparece a través del sistema de etiquetado. El algoritmo implementado ha ido aprendiendo
a reconocer el rostro de personas e identificar a quién pertenece gracias a la amplia base de datos que es
la propia red social.
En unidades posteriores nos centraremos en tipificar dichos modelos y algoritmos en base a su utilización,
así como sus características.
Introducción a la modelización
Comenzaremos recordando cuál era la definición de Machine Learning o aprendizaje automático, a saber,
como la utilización de algoritmos para que puedan darnos una información de interés a partir de un conjunto
de datos sin el empleo de ningún código en relación a dicha información.
Pongamos el ejemplo del correo electrónico anterior: sabemos que recibimos un correo y que este es
registrado por un algoritmo basado en aprendizaje automático, a su vez dicho algoritmo se nutre de una
base de datos y de las elecciones aprendidas. El objetivo del proceso es darnos la información de si el correo
es deseado o no.
Pero, retrocedamos un poco y antes de adentrarnos en los modelos específicos de aprendizaje automático,
vamos a definir qué es exactamente un modelo. Y es es que un modelo es la implementación de una serie
de relaciones matemáticas entre diferentes variables.
El aprendizaje automático sería un método de análisis de datos, con la característica que automatiza tanto la
creación como la aplicación de modelos estadísticos. Dando a la máquina, la capacidad de aprender de los
datos: identificación de patrones o toma de decisiones.
Cabe recordar también de qué hablamos cuando nos referimos a modelos estadísticos. Los modelos
mecánicos y estadísticos son aquellos en los que se busca analizar o explicar aquellos procesos que
producen determinado estado a partir de inducir correlaciones o regularidades.
Una característica de los modelos orientados hacia el Machine Learning es su fuerte aspecto iterativo. Esto es
así, ya que cuanto mayor sea la exposición de los modelos a nuevos conjuntos de datos mejor será la capacidad
de adaptación y aprendizaje del mismo.
Página 5 de 61
Etapas en la creación de un modelo
Definición de un problema
Recopilación de Datos
Preparación de Datos
Como vimos en unidades anteriores hay que realizar tareas de limpieza en los datos y preprocesamiento de
los mismos
Como veremos a continuación existen varios modelos en función de su aplicación, así como una serie de
algoritmos específicos, los cuales nos pueden resultar más útiles que otros en determinadas situaciones
Elaboración
De predicciones
Evaluación
Página 6 de 61
Tipos de modelos
Una vez definido qué es un modelo, en esta unidad vamos a tratar acerca de la clasificación de los distintos
modelos que componen el aprendizaje automático.
Empezaremos por el modelo de aprendizaje supervisado para finalizar con los modelos no supervisados así
como con los de refuerzo y los de procesamiento del lenguaje natural:
Supervisados
Estos modelos se producen cuando un algoritmo aprende a partir de un conjunto de datos, así como a partir de
un conjunto de respuestas establecidas. Estas respuestas pueden ser tanto valores numéricos, como también
etiquetas o clases. A continuación, el modelo elabora una serie de soluciones que se adecúan a situaciones o
problemas nuevos de los cuales no había un registro previo. Podría decirse metafóricamente que es como el
aprendizaje de un alumno junto a su maestro.
No supervisados
En esta ocasión, el modelo aprenderá a partir de datos simples sin ninguna respuesta asociada. Es decir, el
modelo es el que determina qué patrones en los datos son relevantes. Esto opera de forma que el modelo
reestructura un conjunto de datos en otra cosa, como podrían ser una serie de características asignadas a una
clase o serie de valores de los que no se tenía conocimiento de su correlación. Tienen una gran utilidad para
revelarnos aquellos significados dentro de un conjunto de datos, así como para mejorar los algoritmos del
modelo supervisado.
De refuerzo
En esta tipología no hay un registro de respuestas adecuadas, el propio modelo debe decidir cómo responder/
actuar. Estos modelos aprenden de su propia experiencia, ante la ausencia de datos clasificados, es decir, estos
modelos se autoevalúan en su proceso de entrenamiento, esto es, realizan pruebas de ensayo y error mientras
realizan su tarea. A estos modelos se les estipula un sistema de recompensas que premian los aciertos.
Página 7 de 61
Identificación de los modelos de regresión
Introducción
Dentro de los modelos que componen el universo del Machine Learning, de los más sencillos son los de la
algorítmica denominada como regresión lineal. La regresión lineal, se enmarca dentro de los modelos de
aprendizaje supervisado.
Definición
Dentro de un modelo matemático es el establecimiento de una relación entre una variable dependiente y un
conjunto de variables independientes o explicativas. La definición de estas variables como hemos visto serían:
“Las variables dependientes representan el resultado cuya variación se está estudiando. Las variables
independientes, también conocidas en un contexto estadístico como explicativas, representan causas, es decir,
razones potenciales de variación. En un experimento, cualquier variable que el experimentador manipula puede
denominarse variable independiente. Modelos y experimentos prueban los efectos que las variables independientes
tienen sobre las variables dependientes”
Este modelo tiene como objetivo el ser usado para predecir problemas que contengan alguna variable
continua: es aplicado en el registro de visitas de páginas web o en el tiempo de permanencia en un servicio en
línea.
• Modelado rápido y útil cuando la relación a modelar no es compleja Es menos propenso al sobreajuste.
Usos
• Clasificación de texto e imágenes.
Página 8 de 61
Modelos de regresión simple
El algoritmo de regresión lineal, al introducir los datos del ejemplo, entrenará al modelo que nos devolverá
como resultado la predicción del salario con solo introducir los años trabajados.
El modelo usado para realizar la predicción, se refiere a la línea recta que recorre los datos. La recta es
construida en base a una serie de ecuaciones matemáticas y los datos registrados.
El modelo, es decir, la línea debe ajustarse lo máximo posible a los datos entregados. En este ejemplo
hablamos de una regresión lineal simple ya que solo tenemos una variable independiente.
Características que deben tener las variables, si no se ajustan a estas características los resultados pueden
ser incorrectos:
Cuanta más correlación entre las variables mejor ajuste del modelo a los datos.
Página 9 de 61
Modelo de predicción orientado principalmente a las variables con una distribución normal.
Vamos a profundizar ahora en el modelo de regresión simple. Como ya hemos estipulado este modelo
relaciona dos variables de forma lineal:
Yi = α + βXi + ui i = 1, . . . , N
Donde:
es la variable independiente.
αyβ
El subındice se refiere a la observación. Por regla general, el subíndice i se emplea cuando la muestra tenga
datos de sección cruzada y el subındice t cuando nos encontramos con observaciones que refieren a series
temporales.
es el tamaño muestral, esto es, el número de datos disponibles de las variables de estudio (Y, X).
• Efectos no previsibles, que surgen por las características del contexto analítico.
• Errores de medida.
Dados el modelo y una muestra, debemos decidir cómo obtener la función de regresión muestral, es decir,
cómo calcular las estimaciones ˆα y βˆ a partir de los datos.
Un método muy utilizado por su sencillez y buenas propiedades es el método de mínimos cuadrados
ordinarios. El estimador de mínimos cuadrados ordinarios, o MCO, de los parámetros α y β se obtiene de
Página 10 de 61
Modelos de regresión múltiple
Hablamos de una regresión lineal múltiple cuando tenemos varias variables independientes en relación
a una dependiente, pero el funcionamiento es igual al modelo simple.
Hemos visto la relación entre dos variables, esto es los modelos simples, para ello analizamos la correlación
entre dos variables que son aleatorias en busca de una medida su dependencia, que está representado por
el coeficiente de correlación de Pearson y el análisis de regresión, donde sólo una de las variables Y
era aleatoria (la dependiente, esto es, la que queremos explicar), mientras que X era fija y manejable por el
investigador.
Para ampliar el modelo de regresión, tendremos en cuenta la posibilidad de explicar una variable Y (variable
dependiente) a partir de diferentes variables explicativas X2 , ..., XK (variables independientes). Ciertamente,
este enfoque nos acerca más a la realidad que se quiere modelizar.
Como en los modelos simples tenemos que tener en cuenta que debemos estar ante datos distribuidos
linealmente o que sean de fácil transformación.
Así también, hay que contemplar el término de error u, este es como un cajón de sastre donde va a parar
todo aquello nos ayude a explicar el modelo, y que hemos excluido como errores de medida u otras variables
aleatorias. Así pues, u es el apartado no determinista del modelo que afirma el carácter aleatorio de la
variable dependiente.
El modelo de regresión lineal múltiple sería una generalización del modelo de regresión simple. En este
caso relacionamos la variable a explicar Y (variable dependiente) con las K-1 variables explicativas X2 , X3 , ... ,
XK (variables independientes) por medio de:
Y = b1 + b2 X2 + b3 X3 + ... + bK XK + u
Donde u es la perturbación del modelo. Al desarrollar la ecuación para cada observación de la muestra,
obtendremos lo siguiente:
Estas ecuaciones, pueden ser expresadas como matrices, para así facilitar el tratamiento operativo del
modelo.
Página 11 de 61
Modelos de regresión generalizado
Como vimos en las unidades anteriores, la regresión de las variables era aplicadas a aquellas con una
distribución normal. Sin embargo, el modelo de regresión generalizado es una flexibilización del modelo de
regresión lineal ya que permite variables con una distribución que no sea la normal.
John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar
otros modelos estadísticos, como la regresión lineal, la regresión logística y la regresión de Poisson.
Propusieron un método de mínimos cuadrados iterativamente ponderados para la estimación de
máxima verosimilitud de los parámetros del modelo. La estimación de máxima verosimilitud sigue siendo
popular y es el método predeterminado en muchos paquetes de computación estadística”
Los modelos de regresión lineal generalizados para respuestas continuas son especiales respecto a los
modelos simples o múltiples.
Estos modelos se llaman así ya que generalizan la regresión ordinaria de dos modos:
1.
Permitiendo que la variable dependiente Y tenga distribuciones diferentes a la normal.
2.
Incluye distintas funciones de enlace de la media. Siendo de gran utilidad para datos categóricos.
Los modelos lineales generalizados, permiten trabajar junto a una gran variedad de métodos estadísticos,
como veremos: los modelos ANOVA y de datos categóricos.
Introducción
En este epígrafe y en los siguientes, vamos a tratar una aproximación diferente al análisis tradicional de
regresión lineal. Del modelo de árboles podemos decir que se divide en dos clases:
Los modelos basados en árboles se caracterizan, a su vez, por ser un esquema de muchas bifurcaciones,
enlazadas en forma de árbol, que al recorrerlas obtengamos al final bien una predicción acerca de la
pertenencia a una clase (clasificación), bien el valor (regresión) de la unidades que lo componen.
• Rápidos
Página 12 de 61
• Resistentes al ruido y valores perdidos.
• Precisión.
Desventajas
• Los árboles complejos tienen una interpretación difícil.
• Nodo Interno
• Nodo Terminal.
Los modelos de árboles son una forma de modelado de tipo supervisado. Como hemos visto, es usado
tanto en problemas de regresión como de clasificación. Comenzaremos con el funcionamiento
inferencial, orientado a la clasificación.
Este algoritmo sería la evaluación de todas las variables de entrada para seleccionar la mejor división.
Este algoritmo comienza a partir de lo que se conoce como un nodo raíz (o condición) del cual surgen dos
respuestas: cumple o no la condición.
Así sucesivamente en función del volumen de datos concreto, los nodos internos serían todas aquellas
pruebas realizadas para llegar a obtener un resultado (nodo decisión).
Página 13 de 61
Como ya tratamos, los árboles de decisión operan al dividir las variables en varias regiones rectangulares
aleatorias. El objetivo es elaborar una predicción, para ello se utiliza la media de las variables a entrenar,
dentro de cada región.
Wm = Respuesta media
Vm = división variable
Clasificadores binarios
Como ya hemos tratado, el objetivo de los algoritmos de clasificación es útil para hallar soluciones
etiquetadas, es decir, la solución está dentro de un conjunto finito de soluciones posibles.
Cuando el entrenamiento del modelo está orientado a predecir dos estados de los objetivos, esto es verdadero
o falso, sí o no; estamos ante un modelo de clasificación binaria.
A su vez, como veremos en posteriores unidades, si necesitamos predecir más de dos estados dentro de un
problema, nos encontraremos ante un modelo de clasificación multicategoría.
Regresión
Por contra, los modelos de regresión son empleados para predecir soluciones que son continuas. Esto
quiere decir que las soluciones son presentadas en una cantidad que puede determinarse con una mayor
flexibilidad, ya que están basadas en las variables de entrada del modelo y no a un conjunto de estados. Como
vimos, en algunos casos puede establecerse la relación lineal y en otro la no lineal.
Los clasificadores multiclase se encuadran como un tipo específico de modelo dentro de los denominados
árboles de decisión.
Este modelo de aprendizaje conjunto, usado para la clasificación, se diferencia de los árboles de decisión al
uso en que, tras cada subdivisión del conjunto, se “vota” el resultado más popular.
Se entiende por votar a la suma de los histogramas de cada ramificación. “El proceso de agregación suma
Página 14 de 61
estos histogramas y normaliza el resultado para obtener las "probabilidades" de cada etiqueta”.
Aquellos conjuntos de árboles con un mayor nivel de confianza, pesan más en la decisión final para la
predicción. Este modelo de árbol de decisión se caracteriza por admitir varias distribuciones.
Boosting
A los árboles de decisión potenciados o Boosting también se les aplica la idea de un “ensamble” de árboles.
La diferencia con los bosques aleatorios ensamblados, es que la sucesión de árboles de boosting “se ‘adapta’
al comportamiento del predictor a lo largo de las iteraciones, haciendo ponderaciones de los datos de entrenamiento
para que el algoritmo se concentre en las predicciones más pobres”.
Los árboles potenciados, además, operan mejor con árboles pequeños, mientras que los bosques aleatorios
funcionan con árboles grandes donde el sesgo es mejor. La disminución del sesgo en los árboles
potenciados viene del uso de varios árboles distintos.
“El segundo árbol corrige al primero, el tercero al primero y del segundo y así sucesivamente”.
Random forest
Dentro de los modelos basados en árboles, nos encontramos con lo que se denomina como bosques
aleatorios. Los random forest son algoritmos de aprendizaje supervisado que ensamblan de forma
aleatoria un conjunto variable de árboles para formar un bosque. Cuanto mayor sea el número de ellos,
más robusto será el modelo.
Algo a tener en cuenta al usar estos modelos es la adicción de la aleatoriedad. El funcionamiento de estos
bosques aleatorios sería: mientras se ramifican los nodos, en lugar de buscar la respuesta o característica más
adecuada, busca la mejor característica entre un subconjunto aleatorio de características. Produciendo una
mayor diversidad en el modelo.
Puedes incluso introducir una mayor aleatoriedad en los árboles, mediante la aplicación de umbrales
aleatorios para cada función, en vez de buscar el umbral óptimo como haría un árbol de decisión.
• Un bosque aleatorio selecciona al azar las observaciones y características para sus árboles de decisión y
luego promedia los resultados. A diferencia de los árboles de decisión normales en los que el conjunto de
reglas es recopiladas e introducidas.
• Los árboles de decisión cuando son muy profundos pueden sufrir de sobreajuste. A su vez, los bosques
Página 15 de 61
aleatorios evitan esa profundidad, creando subconjuntos aleatorios de las características y construyendo
árboles más pequeños utilizando estos subconjuntos, posteriormente combina los subárboles.
• Sencillos de usar.
Aprendizaje Supervisado
En el aprendizaje supervisado, la máquina se enseña con el ejemplo. De este modo, el operador proporciona
al algoritmo de aprendizaje automático un conjunto de datos conocidos que incluye las entradas y salidas
deseadas, y el algoritmo debe encontrar un método para determinar cómo llegar a esas entradas y salidas.
Página 16 de 61
Mientras que el operador debe de conocer las respuestas correctas al problema, el algoritmo identifica
los patrones en los datos, aprende de las observaciones y hace predicciones. El algoritmo realiza las
predicciones y este a su vez es corregido por el operador, y este proceso sigue hasta que el algoritmo alcanza
un alto nivel de precisión y rendimiento.
Aquí, el algoritmo de aprendizaje es automático y estudia los datos el mismo para identificar todos
los patrones que estén presentes. En este caso no hay una clave de respuesta o un operador para
proporcionarle instrucciones. En cambio,la máquina determina las correlaciones y las relaciones mediante el
análisis de los datos disponibles.
A medida que se evalúan más datos, su capacidad para tomar decisiones sobre los mismos mejora
gradualmente haciéndose cada vez más eficaz y se vuelve más refinada.
Página 17 de 61
Aprendizaje por refuerzo
El aprendizaje por refuerzo, se centra en los procesos de aprendizaje reglamentado, en los que se
proporcionan algoritmos de aprendizaje automático con un conjunto de acciones, parámetros y valores
finales.
Cuando definamos las reglas, el algoritmo de aprendizaje automático intenta explorar las diferentes
opciones y posibilidades, monitorizando y evaluando cada uno de los resultados para determinar cuál es el
óptimo y eficiente.
En consecuencia, este sistema enseña a la máquina a través del proceso de ensayo y error. Aprende
de experiencias pasadas y comienza a adaptar su enfoque en respuesta a la situación para lograr el mejor
resultado posible.
Los algoritmos de clasificación se utilizan cuando el resultado deseado es una etiqueta discreta. Es
decir, son útiles cuando la respuesta a la pregunta sobre la empresa se aloja dentro de un conjunto finito de
resultados posibles. Como, ejemplo, si tenemos un correo deseado o no deseado, en dicho caso solo se tienen
dos opciones y se conoce como clasificación binaria.
Por otro lado, la clasificación de múltiples categorías logra capturar todo lo demás. Es muy útil para
segmentar al cliente, categoriza las imágenes, audios y analiza el texto para optimizar el sentimiento
del cliente.
Los algoritmos enfocados a la clasificación, trabajan generalmente sobre la información entregada por un
conjunto de muestras, patrones o prototipos de entrenamiento que son tomados como representación
de las clases y estos mismos se conservan una etiqueta de clase correcta.
Algoritmos de regresión
En las tareas de regresión, los programas usados para el aprendizaje automático estiman y comprenden las
relaciones entre las variables. El análisis de la regresión se enfoca en una variable dependiente y una serie de
otras variables cambiantes, lo que la hace particularmente útil para la predicción y el pronóstico.
Página 18 de 61
Algoritmos Bayesianos
Este tipo de algoritmos por clasificación están basados en el teorema de Bayes y clasifican cada valor como un
independiente de cualquier otro. Lo que nos permite predecir una clase o categoría en función de un conjunto
que nos da características, utilizando la probabilidad.
A pesar de ser tan simple, su clasificador funciona muy bien y se utiliza mucho y muy a menudo porque supera
a los métodos de clasificación más sofisticados.
Página 19 de 61
Algoritmos de agrupación
Se utilizan en el aprendizaje no supervisado, y los utilizamos para categorizar datos no etiquetados, es decir,
datos que no tiene una categoría o un grupo ya definido.
Este algoritmo funciona mediante una búsqueda de grupos de datos, con el número de grupos representados
por variables K, es decir, que funciona de manera iterativa para asignarnos cada punto de datos a unos de los
grupos K según las características proporcionadas.
Página 20 de 61
Algoritmos de redes neuronales
Una red neuronal artificial (RNA) comprende unidades dispuestas en una serie de capas, una de las cuales se
conecta a través de otras capas anexas. Las RNA se inspiran en los sistemas biológicos como el cerebro y como
este procesa la información.
Por lo tanto, son esencialmente un gran número de elementos de procesamiento interconectados, que
trabajan al unísono para resolver problemas específicos.
También aprenden con el ejemplo y la experiencia, son muchísimo más útiles para modelar relaciones no
lineales en datos de grandes dimensiones, o donde la relación entre las variables de entrada sea difícil de
entender.
La mayoría funciona correctamente en un conjunto de datos que tienen ciento de características o columnas.
Sin embargo, un conjunto de datos no estructurados, como el de las imágenes, tiene una cantidad tan grande
de características que este proceso en sí se vuelve engorroso o completamente inviable.
Página 21 de 61
Conocimientos de Eager y Lazy classifiers
Lazy
Un Lazy leaner retrasa la abstracción de los datos hasta que se le pide que haga una predicción, mientras
que un alumno entusiasta, se abstrae de los datos durante el entrenamiento y usa esta abstracción para hacer
predicciones en lugar de comparar directamente las consultas con instancias en el conjunto de datos.
Un algoritmo de aprendizaje Lazy es simplemente un algoritmo que generaliza los datos después de
realizar una consulta. El mejor ejemplo de esto es KNN. K-Nearest Neighbors básicamente almacena todos
los puntos, luego usa esos datos cuando realiza una consulta.
Eager
El aprendizaje Eager es un método en el que el sistema intenta construir una función de destino general
e independiente de la entrada durante el entrenamiento del sistema, a diferencia del aprendizaje Lazy,
donde la generalización más allá de los datos de entrenamiento se retrasa hasta que se realiza una consulta al
sistema.
Utilización de Clustering
Introducción
El algoritmo de agrupamiento o clustering (en inglés), es una técnica de Machine Learning que implica la
agrupación de puntos de datos. Dado un conjunto de puntos de datos, podemos usarlos como algoritmo de
agrupación para clasificar cada punto de datos en un cluster específico.
Los puntos de datos que están en el mismo cluster deben de tener propiedades y/o características muy
parecidas, por no decir similares, mientras que los puntos que son diferentes clústeres, deben de tener
propiedades características muy diferentes.
Página 22 de 61
Esta agrupación es un método de aprendizaje no supervisado y es una técnica común para el análisis de
datos estadísticos utilizado en muchos campos.
En esta ciencia de los datos, podemos utilizar el análisis de los clústeres para obtener la información más
valiosa de nuestros datos al ver en qué clústeres caen los puntos de los datos que aplicamos a un algoritmo
de clústeres.
El algoritmo más conocido dentro del clustering, es conocido como agrupamientos de K Means, es muy
fácil de comprender e implementar dentro del sistema.
1.
Se selecciona un número de clusters para usarlos, e inicializamos aleatoriamente sus respectivos puntos
centrales.
2.
Cada punto de estos datos se clasifica calculando la distancia entre ese punto y cada centro del cluster, y luego
clasificamos el punto que estará en el cluster cuyo centro está más cerca de él.
3.
Basándonos en estos puntos clasificados, calculamos el centro del cluster tomando la media de todos los
vectores del cluster.
4.
Repetimos estos pasos para un número determinado de iteraciones o hasta que los centros de clusters no
cambian mucho entre iteraciones.
Aunque debemos antes decir que el uso de este algoritmo tiene tanto sus ventajas como sus desventajas.
Ventajas
Es bastante rápido, ya que todo lo que estamos haciendo es calcular las distancias entre puntos y centros de
grupo, por lo tanto, son muy pocos cálculos.
Desventajas
Tenemos que seleccionar cuantos clusters hay. Esto no siempre es intrascendente e idealmente con un
algoritmo de clustering nos gustaría que lo resolviera por nosotros porque el objetivo es obtener alguna
información de los datos.
Página 23 de 61
Comenzamos con una selección aleatoria de centros de clusters y, por eso mismo, puede producir diferentes
resultados de clusters en diferentes ejecuciones del algoritmo.
Es un algoritmo, que se basa en el centroide, es decir, que su objetivo es localizar los puntos centrales de
cada clúster, lo que funciona actualizando a los candidatos para que estos puntos centrales sean la medida
de los puntos dentro de la ventana que se desliza.
Estas ventanas candidatas son filtradas en una etapa de post procesamiento para eliminar, los duplicados,
cercanos, formando en sí un conjunto final de puntos centrales y sus correspondientes grupos.
1.
Para explicar el agrupamiento Mean Shift consideramos un conjunto de datos en un espacio bidimensional.
2.
En cada iteración, la ventana deslizante se desplaza hacia regiones de mayor densidad desplazando el punto
que está en el centro a la media de los puntos dentro de la ventana.
3.
Seguimos desplazando la ventana corrediza de acuerdo con la media hasta que no hay dirección en la que un
desplazamiento pueda acomodar más puntos dentro del núcleo.
4.
Estos procesos del paso 1 al 3 se realizan con muchas ventanas hasta que todos los puntos estén dentro de una
ventana, cuando varias ventanas se superponen, se conserva aquella con mayor cantidad de puntos, después,
los puntos se agrupan según la ventana deslizante en la que residen.
El inconveniente es que la selección del tamaño/radio de la ventana puede que no sea intrascendente.
DBSCAN
Este es un algoritmo de agrupamiento basado en la densidad parecida a la que trabaja Mean Shift, pero
con un par de ventajas notables. Las siglas DBSCAN significan agrupamiento espacial basado en densidad
de aplicaciones con ruido.
1.
DBSCAN comienza con un punto de datos de inicio inocuo que no ha sido visitado. El vecindario de este punto
se extrae usando la distancia epsilon, todos estos puntos que están dentro de la distancia de epsilon son un
punto de vecindario.
Página 24 de 61
2.
Si hay un número suficiente de puntos dentro del vecindario, entonces el proceso de agrupación empieza, y el
punto de datos actual se convierte en el primer punto del nuevo grupo. De lo contrario el punto se etiqueta
como ruido, más tarde este mismo punto de ruido, luego ese punto de ruido se convierte en parte del cluster.
3.
Para este punto en el nuevo cluster, los puntos dentro de su vecindario distante de Epsilon también pasan
a formar parte del mismo cluster. Este procedimiento hace que todos los los nuevos cluster se agreguen al
cluster del grupo.
4.
Los pasos 2 y 3, se repiten hasta que todos los puntos en el cluster hayan sido visitados y etiquetados.
5.
Una vez finalizado el cluster actual, se recupera y procesa un nuevo punto no visitado, lo que nos conduce y
procesa un nuevo punto no visitado, lo que conduce al descubrimiento de otro cluster.
DBSCAN nos presenta algunas ventajas sobre otros algoritmos de agrupación del clúster. Primero, no
se precisa de un número determinado de clusters. También identifica valores atípicos como ruidos, a
diferencia de su desplazamiento medio, se puede encontrar en un grupo, incluso si ese punto es muy diferente,
además se pueden encontrar clusters de tamaños y formas inocuas.
Su principal desventaja es que no funciona tan bien como otros clústeres, su densidad varía. Esto se debe
a su configuración de distancia epsilon para identificar otros puntos, estos varían de un cluster a otro cuando
su densidad varía, esta desventaja también se aplica a los datos de grandes dimensiones, ya que un nuevo
umbral de distancia epsilon se vuelve difícil de estimar.
Estos de la mezcla gaussiana (GMM en inglés) dan más flexibilidad que los k Means. Con los GMM
suponemos que los puntos de datos están distribuidos por Gauss, es decir, que son circulares usando la
media, de esta misma manera se tienen dos parámetros, la media y la desviación estándar. Esto significa que
los clústeres pueden tomar cualquier forma elíptica.
Para encontrar estos parámetros para cada clúster, la media y la desviación estándar, usamos un algoritmo
llamado maximización de expectativas (EM). Entonces proceder con el proceso de agrupación de
maximización de expectativas usando el GMM.
Primero se selecciona el número de cluster, como se hace en K Means e inicializamos aleatoriamente los
parámetros de distribución gaussiana para cada cluster. puede intentar proporcionarnos unos parámetros
iniciales mirando los datos, aunque se debe de tener en cuenta, que no es del todo necesario, ya que el
gaussianos empieza muy mal, pero se optimiza rápidamente.
Página 25 de 61
Dadas estas distribuciones para cada cluster, se debe de calcular la probabilidad de que cada cluster
pertenezca a un cluster en particular, cuando más cercano al centro gaussiano más pertenece a ese grupo.
Esto es intuitivo ya que con una distribución Gaussiana estamos asumiendo que la mayoría de los datos se
encuentran más cercas del centro del cluster.
Basándose en esta probabilidad, calculamos un nuevo conjunto de parámetros para las distribuciones
gaussianas de manera que maximizamos las probabilidades de los puntos de datos que se encuentran dentro
de los clústeres. Calculamos estos parámetros nuevos usando la suma equilibrada de las posiciones de los
puntos de datos, donde estos puntos pertenecen a un cluster en particular.
Los pasos 2 y 3 se repiten de manera iterativa hasta que se converja, donde la distribución no cambia mucho
de iteración en iteración.
El uso de los modelos de mezcla gaussiana presenta dos ventajas clave. En primer lugar, son mucho
más flexibles en términos de covarianza (término matemático) de cluster que los K Means, debido a su
parámetro de desviación estándar, los clústeres pueden adoptar cualquier forma de elipse.
En segundo lugar, estos modelos utilizan las probabilidades, pueden tener conglomerados múltiples por punto
de datos, es decir, si un punto de datos está en medio de dos grupos superpuestos, podemos definirlos
simplemente diciendo quien pertenece a X y quien pertenece a Y, es decir, que se apoyan en composición
mixta.
Agrupamiento Jerárquico
Los algoritmos de agrupación jerárquica se dividen en dos categorías, los que van de arriba a abajo, y
abajo a arriba. Estos algoritmos ascendentes tratan cada punto de datos, como uno solo y luego se fusionan
sucesivamente se aglomeran en pares, hasta que todos se han fusionado a un único cluster que contiene
todos los puntos de datos. Por eso mismo, la agrupación jerárquica ascendente se denomina aglomerativa
jerárquica. Esta se presenta como un árbol o dendrograma. La raíz de este árbol es el único cluster que
recoge todas las muestras.
Comenzamos tratando cada punto de datos como uno solo, es decir, si hay varios puntos de datos en un
conjunto de datos, entonces tendremos una cantidad determinada de clústeres. Luego seleccionamos una
métrica de distancia que mide la distancia entre dos clústeres.
En cada repetición, se combinan dos grupos en uno. Los dos grupos se combinados se seleccionan como los
que tienen una vinculación más pequeña, es decir, estos dos cluster tiene menos distancia entre sí, y por eso
mismo son más similares y deben de ser combinados.
El paso 2 se repite, hasta la raíz del árbol, es decir, hasta tener un solo cluster que contiene todos los puntos de
datos. De esta manera podemos seleccionar cuantos clusters queremos al final, solo debemos elegir cuando
deben de dejar de combinarse, o para ser más exactos cuando se deja de construir el árbol.
Página 26 de 61
Análisis clúster
Del mismo modo que otras tipologías, el análisis discriminante es al conjunto de estas técnicas, tiene como
objetivo la clasificación de individuos.
La diferencia principal entre estos dos, es que en el análisis de clúster, los grupos que los conforman son
desconocidos entre sí, y es lo que precisamente se quiere determinar mientras que el análisis discriminante,
son los grupos conocidos lo cual lo único que se pretende es saber en qué medida las variables disponibles
nos discriminan esos grupos y nos pueden ayudar a determinar que variables no discriminan esos grupos
y nos ayudan a clasificar los individuos en los grupos que nos proporcionan.
Debemos de tener en cuenta los métodos usados del análisis de clúster se pueden clasificar como:
Aglomerativo o divisivo
Será aglomerativa o ascendente si se parte inicialmente de los individuos que se van, progresivamente
fusionando, formando en grupos, que forman parte de las particiones. En caso contrario si somos divisiva
o descendente, si empezamos que todo el grupo es un conglomerado y se va subdividiendo en grupos más
pequeños.
Jerárquica o no jerárquica
En una clasificación no jerárquica se formarán grupos homogéneos sin establecer relaciones entre ellos. En
una clasificación jerárquica los grupos se fusionan de manera sucesiva, siendo una prelación o jerarquía,
decreciendo la homogeneidad conforme se hace más amplio.
Monotética o politética
Una clasificación monotética se basa en una sola característica, procede de manera divisiva, separando entre
quien lo tiene y quien no lo tiene.
Una clasificación politética se basa en una gran cantidad de características y no exige que todos los que
conforman el conglomerado, posean todas las características (aunque sí que tengan cierta homogeneidad en
ellas), de manera bastante usual se puede proceder de manera aglomerativa.
Los distintos métodos de análisis de clúster se considera como perteneciente como a las siguiente 5
categorías:
Método jerárquico
Método de optimización
Método de densidad
Método “clumping”
Página 27 de 61
Y otros métodos que no se pueden clasificar en los 4 anteriores.
Los métodos jerárquicos son los que se han desarrollado más, y serán los que se va a dedicar una mayor
atención. Mientras tanto, daremos un vistazo general a las otras técnicas.
Los métodos de optimización tienen como característica fundamental porque se admite en ellos la
“reasignación” de un solo individuo. Esto es, una vez se considera un individuo como un miembro del clúster,
en el siguiente paso del análisis, puede salir de este clúster e integrarse a otro, de esta manera se optimiza la
partición. Esto permite que se mejores de manera continua desde la partición inicial.
Al principio, estos clusters asumen un número de clusters a formar. Se llaman de esta manera porque
pretenden obtener la partición que optimice una cierta medida numérica definida. Los distintos métodos
de optimizar se diferencian entre sí en la manera de obtener la partición inicial y en la medida a optimizar el
proceso.
Los métodos de densidad se basan en la idea de construir (cluster naturales) partiendo de la mayor o menor
densidad de puntos de las distintas zonas del espacio (de la variable) en el que están los individuos.
Y para finalizar los metod clumping son usados en estudios lingüísticos, permiten solapar los grupos.
Métodos Jerárquicos
En este método, los individuos no se particionan en clusters de una sola vez, sino que se van haciendo
particiones sucesivas a distintos niveles de agrupamiento.
Estos métodos suelen subdividirse en métodos aglomerativos, que van sucesivamente fusionando grupos,
y métodos divisivos, que se van desglosando en grupos cada vez más pequeños en el conjunto total de datos.
Cabe decir, que la clusterización jerárquica produce taxones o clusters de diferentes niveles y
estructurado de forma ordenada, estableciendo así una jerarquía.
Página 28 de 61
Establecer una clasificación jerárquica, supone realizar una serie de particiones del conjunto de individuos
totales W={ i1 , i2 , ...,iN } de esta manera que existen particiones a distintos niveles que vayan agregando a las
particiones de los niveles inferiores.
Por cada fusión viene dado por un indicador denominado “valor cofenético”, que debe de ser proporcional
a la distancia considerada en la fusión. Esta distancia o también llamada disimilaridad considera que cada
fusión se define, entre individuos y entre otros clusters; razón por la cual, será necesario ampliar el concepto
de distancia de acuerdo, con algún criterio que nos permita realizar este algoritmo de clasificación.
Una vez totalmente definido, la distancia de clúster, individuo y cluster-individuo, se lleva a cabo mediante
un algoritmo general:
Paso 1
Formamos la partición inicial:
P = { i1},{ i2 },...{ iN }
Paso 2
Determinamos los dos clusters más próximos (de menor distancia) ii ,ij , y los agrupamos en uno solo.
Paso 3
Formamos la partición:
Paso 4
Repetimos los pasos 2 y 3 hasta obtener la partición final Pr= {W}
Este algoritmo es igual para todos los métodos de clasificación jerárquica, las diferencias residen como ya
se ha apuntado y se verá con más detalles el criterio para definir la distancia entre estos.
En este método se procede con el algoritmo general considerando la distancia entre clusters, como la
distancia mínima entre los individuos más próximos.
Este método es espacio-contractivo, es decir, que tiende a aproximar a los individuos sus distancias
similares.
Página 29 de 61
Método de la distancia máxima (furthest neighbour o complete linkage)
Este método utiliza un algoritmo general para obtener una clasificación jerárquica ascendente, pero
considerando la distancia entre clusters con la distancia entre los individuos más alejados.
Por modificar la métrica en sentido inverso que el método anterior, este método es espacio-dilatante, en el
sentido en que tiende a separar a mayor distancia que la indicada por sus disimilaridades iniciales.
El método de la distancia máxima se encuentra, como el anterior, en franca decadencia, ya que como
desventaja presenta el inconveniente de alargar mucho el proceso y dar como resultado agrupaciones
encadenadas.
Mientras el método de la distancia mínima se asegura que la distancia entre los individuos más próximos de
un clúster ser siempre menor que la distancia entre elementos de distintos clusters, el de la distancia máxima
va a asegurar que la distancia máxima dentro de un cluster será menor que la distancia entre cualquiera de
sus elementos, y los elementos estarán más alejados de los clusters.
Los dos métodos usados anteriormente a pesar de poseer buenas propiedades teóricas tienen el
inconveniente de distorsionar las medidas iniciales de disimilaridad, construyendo o dilatando,
respectivamente, la métrica. Una solución a esto fue este método. donde nos proponen la distancia entre un
grupo como I y un individuo J la media de las distancias entre los individuos del grupo I y el individuo J:
D (I,j) = 1/NI S D (i , j)
Posteriormente se extendió la definición a la distancia entre dos grupos como la media de todas las
distancias.
Este método es espacio-conservativo,es decir , que no hace variar demasiado la métrica inicial, y resulta ser
uno de los más utilizados, resolviendo de forma más aceptable la presencia de ruido.
Utiliza como distancia entre grupos la distancia entre los mismos centroides de cada grupo. Este método
es un espacio-conservativo, pero presenta un inconveniente de dejarse influir excesivamente por los grupos
de mayor tamaño. Esto hace que sea menos utilizado que el anterior.
Página 30 de 61
Método de la mediana
La mayor desventaja del método del centroide es que si fusiona dos grupos de diferentes tamaños, el centroide
se queda más cerca del grupo de mayor tamaño y más lejos del grupo de menor tamaño, en proporción a
sus diferentes tamaños. Esto trae como consecuencia que durante el proceso aglomerativo de fusión se vayan
perdiendo las propiedades y características del grupo pequeño. Para poder evitar esto se puede suponer, que
independiente del tamaño que tengan en realidad, los dos grupos son del mismo tamaño. Teniendo en cuenta
esta misma estrategia, la distancia entre un individuo o grupo K de centroide k y el grupo formado por la fusión
de los grupos I y J de centroide, i y j viene dado por la mediana del triángulo i,j, k razón por la cual Gower
propuso el nombre de método de la mediana.
Este método es como el del centroide, es decir, espacio-conservativo, aunque también como él, no resulta
ser invariante ante transformaciones monótona de la distancia empleada, eso sí ocurre en los tres
primeros métodos.
Método de Ward
Este método propone que la pérdida de información se produce al integrar los distinto individuos en
el cluster, se puede medir, a través de la suma total de los cuadrados de las desviaciones entre cada
punto, y la media del cluster en el que se integra. Para que el proceso de clusterización resulte óptimo, en
el sentido de que los grupos formados no distorsionen los datos originales, se propone lo siguiente:
En cada paso del análisis, consideramos la posibilidad de la unión de cada par de grupos y optar por la
fusión de aquellos grupos que menos incrementan a la suma de los cuadrados de las desviaciones al unirse.
Este método es uno de los más usados en la práctica; posee casi todas las ventajas del método de la media y
suele ser más discriminativo en la determinación de los niveles de agrupación.
Método flexible
Las distintas distancias entre grupos definidos en los métodos anteriores se pueden expresar a través
de una única fórmula, para los distintos valores de estos se generan las distintas distancias. En efecto, si
consideramos el grupo formado por la fusión de los grupos I,J, (I,J) y el grupo que está en el exterior K, la
distancia ent (I,J) y K se puede expresar como:
Página 31 de 61
En el caso del método del centroide
Página 32 de 61
Aproximación al método científico
Evaluación de modelos
La etapa final de cualquier proyecto basado en modelos de aprendizaje automático, así como de cualquier
aproximación basada en modelos, es la evaluación del mismo. Por recapitular; tras el preprocesado de datos,
la elección de los algoritmos, la implementación del modelo y la obtención de resultado; finalizamos con la
evaluación del mismo basándose en métricas.
Para los modelos de clasificación la matriz de confusión es la base de todo, las métricas que miden y
comparan el rendimiento de los algoritmos son:
Exactitud
Entendida como el número de predicciones correctas partidas por el número total de entradas. A tener en
cuenta que esta medida no es válida para aquellas series de datos en desequilibrio.
Precisión
Esta métrica se refiere a la realización de predicciones positivas. Nos revela la proporción entre aciertos/fallos
de un conjunto de respuestas.
Sensibilidad o Recall
Refiere al número de predicciones tanto correctas como positivas partido por el número total de positivos. Nos
indica qué proporción de predicción acabaron cumpliéndose.
Puntaje de F1
Es la unión de tanto la precisión como la sensibilidad, con el objeto de ahorrar tiempo en la evaluación.
Se calcula como el promedio ponderado de la precisión y la sensibilidad. Tiene en cuenta tanto los falsos
negativos como los positivos.
Introducción
Cuando nos enfrentamos a un conjunto de datos extremadamente grandes, es decir de alta dimensión,
tenemos el impedimento de un difícil procesado. El gran número de características genera un excesivo
ruido en el modelo haciendo que decaiga el rendimiento del mismo, es decir tarda más el proceso de
entrenamiento y un desperdicio de recursos.
Por todo lo anterior, hay que realizar un proceso de selección de características y optimización a través de
diversos métodos.
Página 33 de 61
Método de filtro
Es una etapa del preprocesamiento de datos donde la selección de características es independiente del
algoritmo. Funciona tal que así:
1.
“Las características se clasifican según los puntajes estadísticos que tienden a determinar la correlación de las
características con la variable de resultado, ten en cuenta que la correlación es un término muy contextual y varía de
un trabajo a otro”.
2.
Características/ Predicción → Continuo Categórico
Continuo Correlación de Pearson LDA
Categórico ANOVA Chi-Cuadrado
3.
Correlación de Pearson
Se usa como una medida para cuantificar la dependencia lineal entre dos variables continuas.
4.
LDA
El análisis discriminante lineal se usa para encontrar una combinación lineal de características que caracteriza
o separa dos o más clases, o niveles, de una variable categórica.
5.
ANOVA
Proporciona una prueba estadística de si las medias de varios grupos son iguales o no.
6.
Chi-cuadrado
Es una prueba estadística que se aplica a los grupos de características categóricas para evaluar la probabilidad
de correlación o asociación entre ellos utilizando su distribución de frecuencia.
Método de Envoltura
Página 34 de 61
Este método requiere de un algoritmo de aprendizaje automático usándolo como criterio de evaluación:
buscando una característica adecuada según el algoritmo para la mejora del rendimiento.
1.
Forward Selection.
2.
Backward Selection.
3.
Eliminación de características recursivas
Métodos Integrados
Los métodos de filtro son mucho más rápidos en comparación con los métodos de envoltura, ya que no
implican el entrenamiento de los modelos.
Página 35 de 61
Control de outliers y análisis de residuos
Modelos no supervisados
En esta ocasión, el modelo aprenderá a partir de datos simples sin ninguna respuesta asociada. Es decir,
el modelo es el que determina qué patrones en los datos son relevantes.
Esto opera de forma que el modelo reestructura un conjunto de datos en otra cosa, como podrían ser una
serie de características asignadas a una clase o serie de valores de los que no se tenía conocimiento de su
correlación. Tienen una gran utilidad para revelarnos aquellos significados dentro de un conjunto de datos
así como para mejorar los algoritmos del modelo supervisado.
Modelos supervisados
Estos modelos se producen cuando un algoritmo aprende a partir de un conjunto de datos así como a
partir de un conjunto de respuestas establecidas. Estas respuestas pueden ser tanto valores numéricos,
como también etiquetas o clases.
A continuación el modelo elabora una serie de soluciones que se adecúan a situaciones o problemas
nuevos de los cuales no había un registro previo. Podría decirse metafóricamente que es como el
aprendizaje de un alumno junto a su maestro.
La ingeniería de variables es el proceso de uso del conocimiento que se dispone sobre los datos para
crear variables que pueden mejorar el desempeño de los algoritmos de Machine Learning. La ingeniería
de variables sirve fundamentalmente, para facilitar a los modelos la posibilidad de realizar predicciones
acertadas.
Aunque todo este pre-procesamiento puede ser lento en el tiempo, la ingeniería de variables bien diseñada,
estructurada y ejecutada es un punto clave en el entrenamiento y puesta en producción de modelos de
Machine Learning.
Dependiendo de las características de las variables y del modelo que quieras entrenar, se usan diferentes
técnicas ya sea para imputación de los datos ausentes, la codificación de las variables categóricas o la
transformación de las variables numéricas.
Principales técnicas en la ingeniería de variables:
Página 36 de 61
• Sustitución por un valor arbitrario
• Codificación ordinal
• Pesos de Evidencia
• Transformación reciprocal - 1 / x
• Transformación Yeo-Johnson
• Transformación Box-Cox
• Censura
Escalamiento de variables
• Escalamiento estándar
• Escalamiento robusto
Página 37 de 61
• Normalización con la norma del vector
Extracción de variables
• De información de fecha
• De información de hora
• Números
Pipelines
• Para la ingeniería de variables
La dimensionalidad
En esta unidad vamos a tratar qué es el problema de la dimensionalidad. En el conjunto de las denominadas
como ciencia de datos el mayor reto a la que se enfrentan es la excesiva carga en los modelos.
Se entiende por carga a las numerosas características en los conjunto de datos que tienen como
resultado un sobreajuste excesivo, teniendo este punto un aumento significativo de los costes y del tiempo
de producción del modelo. Pero ante esta eventualidad existen una serie de algoritmos y métodos que
resuelven el problema:
Visualización optimizada
La reducción de la dimensionalidad y la visualización de datos están en estrecha relación. Como hemos visto,
y como veremos en unidades posteriores, la visualización de un conjunto de datos es una parte necesaria
para el análisis de los mismos, así como para la elaboración de inferencias. Pero al estar sobrecargados, es
decir contener un gran número de variables y características, esto se hace dificultoso. En este punto es donde
entra en juego la reducción de la dimensionalidad.
Página 38 de 61
Este fenómeno de la maldición de la dimensionalidad acontece debido a que la densidad del conjunto
de datos a entrenar cae exponencialmente conforme aumenta la dimensionalidad. Aumentar las
características y variables que no forman parte de las muestras de entrenamiento, tienen el efecto en el
modelo de ser más disperso. Debido a esto le resulta más complicado encontrar la solución óptima, lo que
conduce a lo conocido como sobreajuste.
En este punto es cuando entran a colación las diversas técnicas de reducción de la dimensionalidad y
sobreajuste. Estas técnicas se dividen en dos clases diferentes:
Eliminación de características
La eliminación de características es la supresión de determinadas variables, es decir, de aquellas que son
redundantes respecto a otras o si son no aportan información de utilidad. Esta técnica tiene la capacidad de
ser fácil de implementar, así como la de hacer que nuestro conjunto de datos se reduzca. Pero se debe tener
cuidado en no perder variables que sí nos son de utilidad.
Extracción de Características
La extracción de variables se refiere a la creación de nuevas variables, pero siendo éstas un conjunto de las
antiguas.
Página 39 de 61
Técnicas: PCA y SVD
El análisis de componentes principales (conocido por sus siglas en inglés PCA) es una técnica estadística
que “transforma ortogonalmente las n dimensiones numéricas originales de un conjunto de datos en un nuevo
conjunto de n dimensiones llamadas componentes principales”.
Esto resulta en un orden de los datos en relación con la mayor varianza posible, es decir, cada componente
siguiente tiene la mayor varianza posible. Es un método para descubrir nuevas variables no
correlacionadas de un conjunto de datos.
Ensamblado de modelos
Para la mejora en el rendimiento de los modelos se utilizan los métodos combinados o ensamble de
modelos con el objetivo de mejorar su precisión. Este método se refiere a la creación de varios modelos
de aprendizaje automático con el fin de resolver el mismo problema.
La idea subyacente es la de combinar los resultados de varios modelos, para así promediar los errores y
optimizar los resultados.
Tipos de métodos
Página 40 de 61
Al establecer las muestras se comienza el entrenamiento de los modelos por separado para luego combinar
sus resultados.
Boosting
Esta técnica se caracteriza por ser secuencial. La secuencia comienza entrenando al modelo con su conjunto
de entrenamiento, para luego en modelos siguientes ajustar los errores residuales del primero. Se enfatizan o
se potencian los resultados del modelo anterior en la secuencia. Los resultados de esta secuencia potenciada
se puntúan por su precisión para luego combinarse en el resultado final.
Página 41 de 61
Modelos débiles y modelos fuertes
A menudo hablamos de modelos débiles y modelos fuertes. Aunque este tipo de aprendizaje tiene una
definición matemática, el concepto detrás de él es relativamente simple:
Un buen modelo es aquel que, con suficientes muestras analizadas, es capaz de mantener los errores por
debajo de los límites aceptables.
Por el contrario, un mal modelo puede limitar su error a un cierto valor mínimo. Otra forma de identificar a un
modelo débil es que se comporta sólo un poco mejor que un alumno que lo predice puramente al azar.
Hay un conjunto de "súper algoritmos" para un grupo de modelos capaces de convertir a un grupo de
modelos débiles en estudiantes fuertes. Esta serie de meta algoritmos se llaman potenciación. Discutiremos
el concepto de ensamblaje de modelos más adelante.
El proceso que hace posible la implementación de modelos de aprendizaje automático para otros propósitos,
esto es, otros entornos de trabajo se conocen como Deployment.
Refiere al uso de las predicciones de los modelos a otros sistemas. Son necesarios para el despliegue en
los procesos de producción.
Las pipelines refieren al hecho de que el gran conjunto de datos no suele encontrarse en el mismo formato
por lo que se torna necesario su procesamiento. Estos pipelines son una serie de etapas que traspasan los
datos en crudo hacia unos procesados listos para entrenar. Ello implica que cuando realizamos el despliegue
del modelo también se debe hacer con los pipelines.
• La ingeniería de Características
• Resultados o predicciones
Reproducibilidad
Al recibir los datos tanto de entornos de producción como de investigación, los resultados deben ser los
mismos.
Página 42 de 61
Gestión del ciclo de vida de los modelos
En la actualidad podemos encontrar diferentes aproximaciones a la hora de diseñar un ciclo de vida para
modelos de aprendizaje automático. Pero vamos a definir cuáles son las fases en común a todos ellos, así
como, las funciones principales que realizar a saber:
Página 43 de 61
Interpretabilidad
En las primeras unidades de este módulo comenzamos a estudiar los distintos métodos, modelos y algoritmos
para el análisis de datos orientado al aprendizaje automático. Vimos cómo estos modelos generan patrones
de datos, así como predicciones o análisis para la toma de decisiones.
La interpretabilidad de un modelo es el nivel al que se puede llegar a predecir, o estructurar los patrones
de datos, para un humano en base a los resultados de este. Cabe reseñar que conforme los modelos se
han ido complejizando, esto es, distanciados cada vez más de la inferencia estadística al uso (ej: regresiones
lineales) para aproximarse a modelos más complejos (redes neuronales) entra en juego el concepto conocido
como caja negra.
Este modelo de caja negra se define como el hecho que los investigadores tengan acceso el conjunto de datos
de entrada, es decir aquellos de los que el modelo aprendía, así como los datos de salida (predicciones/
patrones) y su evaluación (rendimiento), pero como humanos no tenemos la capacidad de reproducir o
interpretar el funcionamiento del modelo específico de aprendizaje automático.
La necesidad de elaborar mecanismos que nos acerquen a la interpretación del modelo, surge en pos de
entender cómo obtiene buenos resultados el modelo en cuestión. A este punto lo denominamos como
interpretabilidad de los modelos.
Mejoras y auditorías.
¿Cuáles son las diferentes aproximaciones que podemos encontrar a la hora de diseñar un ciclo de vida para
modelos de aprendizaje automático?
Página 44 de 61
Aproximación a modelos heurísticos de optimización
En esta unidad vamos a tratar como podemos resolver problemas complejos con eficacia, así como con
procesos optimizados y aquellos elementos de control para asegurar obtener el mejor resultado posible o la
solución más aproximada.
Estas ideas vienen de largo y se las denomina como heurística. Su origen epistemológico se remonta
al griego clásico εὑρίσκειν significando “descubrir” y compartiendo la misma raíz que la expresión de
Arquímedes eureka.
Una definición más ajustada a la ciencia es la establecida por Bartholdi y Platzman (en 1988):
“Una heurística puede verse como un procesador de información que, deliberadamente, peor juiciosamente, ignora
cierta información. Ignorando información, una heurística se libra de gran parte del esfuerzo que debió haberse
requerido para leer los datos y hacer cálculos con ellos. Por otra parte, la solución producida por tal heurística es
independiente de la información ignorada, y de este modo no se ve afectada por cambios en tal información.
Idealmente, se busca ignorar información que resulta muy caro colectar y mantener, esto es, computacionalmente
caro de explotar y mantener, y que contribuye en poco a la precisión de la solución.”
Esta definición puede plantearse como la de una técnica que incrementa la eficiencia en un proceso de
búsqueda, obviando la completitud del problema. La heurística es en definitiva resaltar aquellos puntos
de mayor interés obviando aquellos que son porcentualmente menos interesantes.
En otras palabras, mide la adecuación de aquellas soluciones respecto al problema y cómo de cerca está de la
solución óptima. La razón de ser de una heurística es la de indicar dónde buscar la solución más provechosa
disponible. Esto se realiza a través de una puntuación por mérito en cada nodo del árbol, por ejemplo.
Tipos de heurísticas
Heurísticas de construcción
Encuentra una solución a un problema, intentando desde él ya la mayor optimización de esta.
Heurísticas de mejoramiento
Estas parten de una solución conocida de antemano con el propósito de mejorarla. Estas funcionan
independientemente de lo acertada o errónea de la solución de partida.
Página 45 de 61
Conocimiento de los algoritmos genéticos
Principios heurísticos
Los principios heurísticos refieren a aquellas aproximaciones orientadas a la búsqueda de una idea que
posibilite una solución; son a la vez el inicio y el medio para hallar dicha solución. Dentro de estos principios
destacan la analogía y la reducción (modelos).
Reglas heurísticas
Las reglas por su parte ejercen como procedimientos en los que se basa el proceso de búsqueda, esto es, los
medios que emplea en ella.
Estrategias heurísticas
Una estrategia refiere a la organización de los recursos empleados en el procesos de búsqueda (Hipótesis).
Gradiente descendente
“La derivada de una función mide la rapidez con la que cambia el valor de dicha función matemática, según cambie
el valor de su variable independiente. La derivada de una función es un concepto local, es decir, se calcula como el
límite de la rapidez de cambio media de la función en cierto intervalo, cuando el intervalo considerado para la
variable independiente se torna cada vez más pequeño. Por ello se habla del valor de la derivada de una función en
un punto dado”
Página 46 de 61
El empleo de este método de
optimización nos permite realizar
eficaz y automáticamente la prueba
de coeficientes en nuestros modelos
de aprendizaje automático.
En la ilustración, la pendiente es
aquello que denominamos gradiente;
minimizar el error implica descender el
punto de esa pendiente.
Los modelos basados en comportamiento animal o bio-inspirados refieren a aquellos métodos heurísticos
que se inspiran tanto en fenómenos físicos, teorías evolutivas o el propio comportamiento de ciertos seres
vivos. El objetivo es el de optimizar los resultados de forma eficiente para problemas y ámbitos distintos.
Página 47 de 61
Fue a mediados de los años setenta, cuando John Holland, propuso su modelo de optimización basado en
la teoría de la evolución. Posteriormente y de la mano con el incremento exponencial de la capacidad de
cómputo, se desarrollaron nuevos modelos basados en otros comportamientos de seres vivos y fenómenos
físicos. Alguno de estos modelos son los siguientes:
Cada algoritmo, aunque teóricamente puede ser empleado para cualquier problema de optimización debido
a sus características internas, suelen funcionar mejor en ciertas situaciones. Así, por ejemplo, los algoritmos
de colonias de hormigas son óptimos para tratar problemas de enrutamiento, y el algoritmo de colonia de
abejas para tratar problemas de combinatoria.
El algoritmo genético
El algoritmo genético toma su base en el principio de selección natural de la teoría de la evolución, aquella
que estipula que “no es el más fuerte de las especies la que sobrevive(...) sino la que mejor se adapta al cambio”.
Esta técnica, desarrollada a mediados de los setenta, resuelve problemas que otros modelos hasta la fecha
no podían, ya que estos algoritmos, basan la búsqueda de sus resultados en la selección natural y genética.
Hablamos de algoritmos en plural ya que son una parte de lo conocido como computación evolutiva.
Estos algoritmos funcionan a partir de una población de posibles resultados. Esta población de resultados, se
les aplica las reglas de la selección genética, al producir nuevos “hijos”/resultados en sucesivas generaciones.
A cada solución, o posible solución, se les puntúa según su fitness (adaptación) y aquellas con una mayor
puntuación se les incrementa la probabilidad de reproducción, es decir sobreviven los más fuertes. Con el paso
de generaciones hasta llegar al criterio preestablecido como óptimo.
Página 48 de 61
Algunas características de estos algoritmos es su dinamismo, ya que evolucionan con el tiempo, así como su
adecuación a problemas cambiantes.
Este algoritmo está orientado a la optimización por ello debes tener un conjunto de soluciones entre las cuales
se seleccionará la más óptima.
Fitness (adaptación)
Variación funcional
Si dentro de nuestra población inicial no hay una solución adecuada, se deben generar nuevas soluciones. Las
soluciones individuales sufrirán una serie de variaciones.
Página 49 de 61
Aplicaciones de los algoritmos genéticos
Generalmente los algoritmos de este tipo son usados para problemas de optimización aunque también se
los emplea en otras áreas:
Optimización
Refieren a aquellos problemas en los que hay que maximizar o minimizar un resultado o valor junto a una serie
de restricciones.
Este algoritmo se puede emplear para entrenarlas, sobre todo aquellas de tipo recurrente.
Finanzas
Usados para hallar el mejor parámetro en una negociación, así como en redes orientadas a las operaciones
financieras.
Economía
Procesamiento de imágenes
Programación
Programación de horarios.
Análisis ADN
Página 50 de 61
Diseño de ingeniería
El diseño de ingeniería se basa principalmente en el modelado y la simulación por computadora para hacer
que el proceso de diseño del ciclo sea rápido y económico. Se han utilizado algoritmos genéticos para optimizar
y proporcionar soluciones potentes.
Este es un problema bien conocido que muchas compañías de ventas han aplicado con éxito porque es
económico y asequible. Esto también se puede resolver mediante un algoritmo genético. tecnología robótica
Robótica
La aplicación de un algoritmo genético en el campo de la robótica es bastante amplia. Hoy en día, los
algoritmos genéticos se utilizan para crear robots de aprendizaje que se comportan como humanos y realizan
tareas humanas de forma cada vez menos automática.
Definición de cromosoma
“Un cromosoma (también a veces llamado genoma) es un conjunto de parámetros que definen una solución
propuesta al problema que el algoritmo genético está intentando resolver. El cromosoma se representa a menudo
como una serie de bits, aunque también se utilizan una variedad amplia de otras estructuras de datos”
Es la etapa en la que se determinan las características que hacen óptimas a un resultado (cromosoma).
Esto es realizado por una función cuyo objetivo es evaluar la viabilidad de las soluciones en una población,
asignando aquellos rasgos mejores por encima; ejerciendo como un diferenciador.
Página 51 de 61
Resolución de un problema usando algoritmos genéticos
Hay muchos problemas que se pueden resolver mediante algoritmos genéticos. Algunas de las siguientes
preguntas son:
Optimización de rutas
Utilizado para la optimización de rutas, puede encontrar la ruta más corta o rápida entre ciudades o regiones
en muy poco tiempo. En las ciudades inteligentes, también es útil tratar de reducir las emisiones de dióxido de
carbono.
Optimización de la tarea
Optimizarlos es necesario para realizar tareas en el menor tiempo posible. Mediante el uso de algoritmos
genéticos, los cálculos también se pueden realizar de forma rápida y eficiente.
Introducción
En la presente unidad, vamos a definir qué es una serie temporal, así como aquellos procedimientos cuyo
objetivo es la de realizar la predicción de valores en las mismas. Para empezar, se entiende por una serie
temporal a una sucesión de datos ordenados cronológicamente, pudiendo estar esto espaciados a
intervalos iguales o desiguales.
Como acabamos de decir, en esta unidad nuestro objetivo es ver qué tipo de predicciones podemos realizar
en las series temporales. A estos procedimientos se los denomina comúnmente como Forecasting.
Página 52 de 61
La característica esencial de las series temporales, es que las observaciones posteriores no son
independientes entre sí y deben analizarse en orden cronológico de las observaciones.
Los métodos estadísticos basados en la independencia de las observaciones no son adecuados para el
análisis de series temporales porque las observaciones en un momento dado, dependen de los valores de
series pasadas
a. Tendencias
b. Estacionalidad
c. Si aparecen outliers
Predicción
Se buscan normalmente predecir comportamientos futuros.
Página 53 de 61
Bases sobre componentes de las series temporales: tendencia, ciclo y
estacionalidad
Dentro
de los
objetivos descriptivos en las series temporales se trata de establecer aquellos componentes básicos dentro
de la serie temporal. Como hemos visto este enfoque no es el único, ni el idóneo en todas las circunstancias.
Es, sin embargo, especialmente útil en aquellas series en las que se encuentran ciertas tendencias.
Las componentes o fuentes de variación que se consideran habitualmente son las siguientes:
Tendencia
Se define como un cambio a largo plazo que se produce en relación a la media. La tendencia se identifica con
la evolución de la serie a largo plazo.
Efecto Estacional
Otras series temporales presentan cierta periodicidad, es decir, presentan variaciones en ciertos periodos de
tiempo (anual, mensual ...). Se pueden eliminar del conjunto de los datos al desestacionalizar la serie
Efecto cíclico
Refiere al componente de la serie que recoge los cambios periódicos de amplitud superior a un año. Se
tratan de movimientos normalmente irregulares alrededor de la tendencia, en las que, a diferencia de las
variaciones estacionales, tiene un período y amplitud variables, pudiendo clasificarse como cíclicos, cuasi
cíclicos o recurrentes.
Página 54 de 61
Componente Aleatoria
Al eliminar los componentes anteriores pueden persistir algunos de carácter aleatorio. Aquellas series más
orientadas a la predicción de fenómenos estudian estos últimos.
Página 55 de 61
Series estacionarias y no estacionarias
Estacionarias
Se estipula que una serie es estacionaria cuando son duraderas, esto es, cuando conceptos que hemos visto
anteriormente como la media y la varianza son constantes en el tiempo. Este punto tiene su reflejo gráfico
cuando los valores de una serie determinada se encuentran alrededor de una media constante y la varianza
respecto a esa media también los es en el tiempo. No hay incrementos o disminuciones repetitivas de sus
valores. Para estas series es importante el cálculo de la media o varianza, aunque también se les puede aplicar
cálculos de serie no estacionarias si previamente se han transformado.
No Estacionarias
Son series en las cuales la media y varianza no son constantes en el tiempo, es decir, cambian. Los cambios
en la media determinan una tendencia a incrementar o disminuir dentro de un periodo, por lo que la serie no
oscila alrededor de un valor constante.
Página 56 de 61
Análisis de anomalías
Entendemos por análisis de anomalías a la detección e identificación de valores o eventos raros de los
cuales intuimos que tienden a diferenciarse significativamente respecto a los datos de nuestra serie
temporal.
Ello es muy útil en muchas áreas de aplicación de series temporales ya que estos valores atípicos pueden
estar relacionados con fallos, eventos o cuestiones de cualquier tipo; en relación con nuestro objeto de
análisis.
Ejemplo de ello pueden ser desde la detección de fraude bancario hasta problemas de salud. La cuestión
relevante en este punto es establecer métodos que nos ayuden a detectar susodichas anomalías, ya que
en estructuras de datos simple y pequeñas es fácil, pero en aquellas más complejas no.
La visualización de las series temporales, puede proporcionarnos información, pero no en todas las
casuísticas la detección efectiva.
Detección anomalías con modelos supervisados
Al disponer de la información en su conjunto los datos son clasificados en función de si son anómalos o no.
A partir de estos conjuntos de datos, el modelo aprende a distinguir aquellos que son anómalos de los que
no lo son.
Por lo general estos conjuntos de datos se encuentran desbalanceados (demasiados datos legítimos en
comparación a los anómalos) por lo que se obtienen resultados sesgados. Para resolver esto se emplean los
conocidos como métodos basados en instancias (modificación de los datos) así como en algoritmos (bagging y
boosting).
En este caso, aunque sabes de su existencia, no conocemos cuáles de nuestros datos son anómalos, es
decir, no están etiquetados como tal; están mezclados con los legítimos.
Para esta situación existen varios modelos para ello; y que hemos tratado previamente:
Orientada para distribuciones que nos sean normales, así como de dimensiones muy altas.
Página 57 de 61
Suavizado exponencial
Se define como suavizado exponencial al uso de promedios de una variable en una serie temporal para
predecir su comportamiento/valor futuro.
Así pues, estos métodos se orientan a predecir qué sucederá suavizando la serie temporal; esto es,
reduciendo las fluctuaciones para vislumbrar la tendencia que no es visible a simple vista. Estas oscilaciones
suavizadas se obtienen realizando la media ponderada de los distintos valores.
La parte de exponencial se refiere a que las ponderaciones decrecen exponencialmente conforme nos
distanciamos del momento actual. Y simple refiere a su contraparte en las que se realizan operaciones
dobles de alisado.
Modelos autoregresivos
Definición
“es una representación de un proceso aleatorio, en el que la variable de interés depende de sus observaciones
pasadas. Específicamente, la variable de interés o de salida, depende linealmente de sus valores anteriores. Por esto
decimos que existe dependencia lineal entre las distintas observaciones de la variable"
Los modelos autorregresivos se caracterizan por “regresar” en sí mismos. Esto es, la variable dependiente y
la variable independiente son iguales con la diferencia que la variable dependiente estará en un momento del
tiempo siguiente al de la variable independiente. Decimos ordenados cronológicamente porque actualmente
nos encontramos en el momento del tiempo.
Al ser el objetivo el realizar una proyección a futuro, la variable dependiente deberá estar siempre, como
mínimo, en una unidad de tiempo más avanzado que el de la variable independiente. Nuestra atención debe
centrarse en el tipo de variable, la frecuencia de sus observaciones y el horizonte temporal de la proyección.
Página 58 de 61
Modelos univariantes y multivariantes
Definición
“La estadística multivariante trata de comprender los diferentes objetivos y antecedentes de cada una de las
diferentes formas de análisis multivariante y cómo se relacionan entre sí. La aplicación práctica de la estadística
multivariante a un problema particular puede involucrar varios tipos de análisis univariados y multivariados para
comprender las relaciones entre las variables y su relevancia para el problema que se está estudiando.
Cómo se pueden utilizar como parte de inferencia estadística, particularmente cuando varias cantidades diferentes
son de interés para el mismo análisis.
Ciertos tipos de problemas que involucran datos multivariados, como, por ejemplo, la regresión lineal simple y la
múltiple, generalmente no se consideran casos especiales de estadística multivariada porque el análisis se trata
considerando la distribución (univariada) condicional de una única variable respuesta dadas las otras variables”
Modelos ARIMA
“En estadística y econometría, en particular en series temporales, un modelo autorregresivo integrado de promedio
móvil o ARIMA (acrónimo del inglés autoregressive integrated moving average) es un modelo estadístico que utiliza
variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para una predicción hacia el futuro.
Se trata de un modelo dinámico de series temporales, es decir, las estimaciones futuras vienen explicadas por los
datos del pasado y no por variables independientes”
Si necesita realizar análisis estadísticos o técnicos complejos, puede ahorrar pasos y tiempo con el kit de
herramientas de análisis.
Se deben proporcionar datos y parámetros para cada análisis y la herramienta utilizará la función
estadística o las técnicas macro apropiadas para realizar los cálculos y mostrar los resultados en la tabla de
resultados. Además del marcador, algunas herramientas también generan gráficos.
Las funciones de análisis de datos, solo se pueden usar en una hoja de cálculo a la vez. Cuando analiza
datos de hojas de trabajo agrupadas, los resultados aparecen en la primera hoja y las tablas con formato en
blanco aparecen en el resto de las hojas de trabajo.
Para analizar otras hojas, actualice la herramienta de análisis para cada una de ellas.
Esta herramienta realiza ANOVA simple en datos de dos o más muestras. Este análisis proporciona una prueba
de la hipótesis de que cada muestra proviene de la misma distribución de probabilidad subyacente, no la
hipótesis alternativa de que la distribución de probabilidad subyacente no es la misma para todas las muestras.
Si solo tiene dos muestras, puede usar la función de hoja de cálculo T.TEST. Para más de dos muestras T.TEST,
no existe una generalización adecuada y, en su lugar, se puede llamar a un Anova unidireccional.
Página 59 de 61
Correlación
Las funciones de hoja de cálculo COEF.DE.CORREL y PEARSON calculan el coeficiente de correlación entre dos
medidas cuando se observa la medida de cada variable para cada uno de los N sujetos. (Cualquier observación
faltante para cualquier sujeto hará que ese sujeto sea omitido del análisis).
Cuando cada uno de los N sujetos tiene más de dos variables medidas, la correlación de la herramienta de
análisis es particularmente útil. Proporcionando la tabla de resultados, la matriz de correlación muestra el valor
COEF.DE.CORREL (o PEARSON) aplicado a cada posible par de variables de medida.
Tanto el coeficiente de correlación como la covarianza miden qué tan bien "fluctúan entre sí" las dos variables
medidas.
A diferencia de la covarianza, el coeficiente de correlación se escala para que su valor sea independiente de las
unidades en las que se representan las dos variables de medición.
Por ejemplo, si las dos medidas son peso y altura, el valor del coeficiente de correlación no cambiará cuando
convierta el peso de libras a kilogramos. Cualquier coeficiente de correlación debe estar entre -1 y +1
(inclusive).
Puede usar la herramienta de análisis de correlación para examinar cada par de medidas para determinar si
dos medidas tienden a tener covarianza, es decir, si los valores altos de una variable están correlacionados (a
favor) con un valor alto de la otra y si un valor bajo.
El valor de una variable tiende a ser positivo. correlacionados con valores bajos de otra variable (correlación
negativa) o si los valores de dos variables normalmente no están correlacionados (la correlación tiende a ser
cero ).
Suavizado exponencial
El valor pronosticado por el motor de suavizado exponencial se basa en el pronóstico del período anterior,
corregido por errores en pronósticos anteriores. La herramienta utiliza una constante de suavizado a, cuyo
tamaño determina qué tan preciso es el pronóstico para errores en pronósticos anteriores.
Gráficos e Histogramas
Herramienta de análisis de gráficos Calcula la frecuencia de datos y la frecuencia de datos completa y los datos
completos. Esta herramienta crea datos sobre la cantidad de valor en el conjunto de datos.
• Una buena comunicación en la comprensión de los objetivos: que la visión de conjunto sea compartida
Página 60 de 61
Características del proceso de gestión de Data Science:
Planificación
El volumen, así como la variedad de los datos en los proyectos necesita de la organización del Project Manager
para encontrar soluciones innovadoras y eficaces.
Análisis de equipo
Se extraen datos sobre experiencia previa en proyectos, habilidades de los miembros del equipo, formación
académica, formación adicional, revisiones de desempeño individual y de equipo, liderazgo, etc. Big data puede
proporcionar información sobre cómo organizar equipos de manera más efectiva. Los ejemplos incluyen la
optimización del tamaño y la estructura del equipo, las habilidades necesarias para construir equipos efectivos
o la selección de los líderes más efectivos para cada tipo de proyecto.
Gestión de riesgos
Los riesgos deben gestionarse para minimizar los impactos negativos en los resultados del proyecto, por lo
que los riesgos siempre deben documentarse. Cuando surge un riesgo y se convierte en un problema, se
deben documentar las soluciones a estos problemas. Generar toda esta información nos permitirá analizar
para mejorar la gestión de riesgos.
Gestión calidad
La gestión de calidad incluye muchas tareas en las fases de planificación, diseño, construcción y prueba. En
estas etapas de desarrollo, se debe preparar, procesar y analizar una gran cantidad de información. Esta
información incluye decisiones tomadas al desarrollar políticas, seleccionar estándares y umbrales de calidad
o aplicar estándares de calidad como los estándares ISO. Big data puede analizar esta información para
desarrollar nuevas técnicas de control y proceso de control de calidad, cuadros de mando para el seguimiento
de la calidad durante la ejecución del proyecto.
Gestión recursos
Los recursos del proyecto incluyen recursos humanos, infraestructura, tecnología, recursos financieros,
conocimientos, procesos y procedimientos. Al igual que en el proceso anterior, se recopila una gran cantidad
de información sobre el uso de recursos. Como tipo de recurso, unidad de medida, número de solicitudes,
cantidad utilizada, cantidad de recursos desperdiciados y mecanismo de control de uso de recursos. Dado que
los recursos a menudo se convierten en efectivo, el análisis de gestión de activos puede sacar conclusiones
sobre cómo mejorar la gestión de recursos, lo que resulta en ahorros de costos. Big data puede desempeñar
un papel importante en el desarrollo de nuevos procedimientos para la obtención, asignación y gestión de
recursos de proyectos.
Página 61 de 61