Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Características
Los Conjuntos de Datos, en ocasiones pueden ser pequeños mientras que otros son
tremendamente grandes en tamaño, en especial cuando cuentan con un Gran Número de
Características, que sean muy difícil de procesar.
Las características adicionales actúan como un ruido para el cual el modelo de Machine Learning
Métodos de Filtro
Métodos de envoltura
Métodos Integrados
Métodos de Selección de
Características
Métodos de Filtro
En la siguiente tabla puedes utilizarla para definir los Coeficientes De Correlación para
diferentes tipos de datos, en este caso, continuo y categórico
Correlacion de Pearson : El coeficiente de correlación de Pearson es una prueba que mide la relación
estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el
coeficiente no se encuentra representado adecuadamente.
El Coeficiente de Correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay
asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva.
Haciendo uso del teorema de Bayes, LDA estima la probabilidad de que una observación, dado
un determinado valor de los predictores, pertenezca a cada una de las clases de la variable
cualitativa, P(Y=k|X=x)P(Y=k|X=x). Finalmente se asigna la observación a la clase k para la que
la probabilidad predicha es mayor.
Métodos de envoltura
Métodos de Selección de
Características
Algunos ejemplos comunes de Métodos de Envoltura son los siguientes:
Selección hacia delante (Forward Selection) : Es un método iterativo en el que comenzamos sin tener
ninguna característica en el modelo. En cada iteración, seguimos agregando la función que mejor mejora
nuestro modelo hasta que la adición de una nueva variable no mejore el rendimiento del modelo.
Eliminación hacia atrás (Backward Selection) : Comenzamos con todas las características y eliminamos
la característica menos significativa en cada iteración, lo que mejora el rendimiento del modelo. Repetimos
esto hasta que no se observe ninguna mejora en la eliminación de características.
Eliminación de características recursivas (Recursive Feature Elimination) : Es un algoritmo de
optimización que busca encontrar el subconjunto de funciones con mejor rendimiento. Crea repetidamente
modelos y deja de lado la mejor o la peor característica de rendimiento en cada iteración.
Construye el siguiente modelo con las características de la izquierda hasta que se agotan todas las
características, luego clasifica las características según el orden de su eliminación.
Métodos de Selección de
Características
Algunos de los ejemplos más populares de estos métodos son la regresión LASSO y RIDGE,
que tienen funciones de penalización incorporadas para reducir el sobreajuste.
Ridge Regression: Aproxima a cero los coeficientes de los predictores pero sin llegar a excluir
ninguno.
¿Qué tienen en común los conjuntos de datos para la Detección de Fraudes en el Banco, o las
ofertas en el tiempo real en mercadeo o la detección de intrusos en redes?
CONJUNTO DE DATOS
DESBALANCEADO
Este tipo de conjunto de datos siempre plantea un problema en Machine Learning y Data
Mining , ya que la mayoría de los algoritmos son malos para manejarlos
Ahora que entendimos que es un Dataset Desequilibrado y por qué proporciona una
precisión de clasificación engañosa, veamos cómo podemos solucionar esto.
Sobre-muestreo aleatorio