Está en la página 1de 17

Métodos de Selección de

Características

Los Conjuntos de Datos, en ocasiones pueden ser pequeños mientras que otros son
tremendamente grandes en tamaño, en especial cuando cuentan con un Gran Número de
Características, que sean muy difícil de procesar.

 Las características adicionales actúan como un ruido para el cual el modelo de Machine Learning

o Dara Mining puede tener un rendimiento extremadamente bajo.

 El modelo tarda más tiempo en entrenarse.

 Asignación de recursos innecesarios para estas características.


Métodos de Selección de
Características

Selección de Características en los Proyectos de Machine Learning – Data Mining

La Selección de Características es el proceso de seleccionar las más importante y/o relevante


características de un conjunto de datos.
 Mejorar el rendimiento de predicción de los predictores, proporcionar predictores más rápidos y más
rentables
 Proporcionar una mejor comprensión del proceso subyacente que generó los datos.

 Métodos de Filtro
 Métodos de envoltura
 Métodos Integrados
Métodos de Selección de
Características

 Métodos de Filtro : Los métodos de filtro se utilizan generalmente como un paso de


preprocesamiento de datos, la selección de características es independiente de cualquier
algoritmo de Machine Learning o Data Mining.

Las características se clasifican según los puntajes estadísticos ( Correlación de las


características ) con la variable de resultado, ten en cuenta que la correlación es un término muy
contextual y varía de un trabajo a otro.
Métodos de Selección de
Características

 Métodos de Filtro

En la siguiente tabla puedes utilizarla para definir los Coeficientes De Correlación para
diferentes tipos de datos, en este caso, continuo y categórico

Característica / Continuo Categórico


Predicción
Continuo Correlacion de Pearson LDA
Categórico Anova Chi - Cuadrado
Métodos de Selección de
Características

Correlacion de Pearson : El coeficiente de correlación de Pearson es una prueba que mide la relación
estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el
coeficiente no se encuentra representado adecuadamente.

El Coeficiente de Correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay
asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva.

Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:

 La escala de medida debe ser una escala de intervalo o relación.


 Las variables deben estar distribuida de forma aproximada.
 La asociación debe ser lineal.
 No debe haber valores atípicos en los datos.
Métodos de Selección de
Características

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA) : El análisis de la varianza permite


contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la
hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a
su valor esperado.

Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa


comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o
de interés.
Métodos de Selección de
Características

ANÁLISIS DISCRIMINANTE LINEAL (LDA) : El Análisis Discriminante Lineal o Linear


Discrimiant Analysis (LDA) es un método de clasificación supervisado de variables cualitativas en
el que dos o más grupos son conocidos a priori y nuevas observaciones se clasifican en uno de
ellos en función de sus características.

Haciendo uso del teorema de Bayes, LDA estima la probabilidad de que una observación, dado
un determinado valor de los predictores, pertenezca a cada una de las clases de la variable
cualitativa, P(Y=k|X=x)P(Y=k|X=x). Finalmente se asigna la observación a la clase k para la que
la probabilidad predicha es mayor.

Teorema de Bayes : P(B|A)=P(AB)P(A)


Métodos de Selección de
Características

PRUEBA CHI-CUADRADO : Una prueba de chi-cuadrada es una prueba de hipótesis que


compara la distribución observada de los datos con una distribución esperada de los datos.

Existen varios tipos de pruebas de chi-cuadrada

1. Prueba de bondad de ajuste de chi-cuadrada


Este análisis se utiliza para probar qué tan bien una muestra de datos categóricos se ajusta a una
distribución teórica.

2. Pruebas de chi-cuadrada de asociación e independencia


Los cálculos para estas pruebas son iguales, pero la pregunta que se está tratando
de contestar puede ser diferente.
Métodos de Selección de
Características

 Métodos de envoltura
Métodos de Selección de
Características
Algunos ejemplos comunes de Métodos de Envoltura son los siguientes:

 Selección hacia delante (Forward Selection) : Es un método iterativo en el que comenzamos sin tener
ninguna característica en el modelo. En cada iteración, seguimos agregando la función que mejor mejora
nuestro modelo hasta que la adición de una nueva variable no mejore el rendimiento del modelo.
 Eliminación hacia atrás (Backward Selection) : Comenzamos con todas las características y eliminamos
la característica menos significativa en cada iteración, lo que mejora el rendimiento del modelo. Repetimos
esto hasta que no se observe ninguna mejora en la eliminación de características.
 Eliminación de características recursivas (Recursive Feature Elimination) : Es un algoritmo de
optimización que busca encontrar el subconjunto de funciones con mejor rendimiento. Crea repetidamente
modelos y deja de lado la mejor o la peor característica de rendimiento en cada iteración.
Construye el siguiente modelo con las características de la izquierda hasta que se agotan todas las
características, luego clasifica las características según el orden de su eliminación.
Métodos de Selección de
Características

 Métodos Integrados Combina las cualidades de los métodos de Filtro y Envoltura.

Se implementa mediante algoritmos que tiene su propio métodos de selección de


características incorporados.

Algunos de los ejemplos más populares de estos métodos son la regresión LASSO y RIDGE,
que tienen funciones de penalización incorporadas para reducir el sobreajuste.

Ridge Regression: Aproxima a cero los coeficientes de los predictores pero sin llegar a excluir
ninguno.

Lasso: aproxima a cero los coeficientes, llegando a excluir predictores.


CONJUNTO DE DATOS
DESBALANCEADO

¿Qué tienen en común los conjuntos de datos para la Detección de Fraudes en el Banco, o las
ofertas en el tiempo real en mercadeo o la detección de intrusos en redes?
CONJUNTO DE DATOS
DESBALANCEADO

Este tipo de conjunto de datos siempre plantea un problema en Machine Learning y Data
Mining , ya que la mayoría de los algoritmos son malos para manejarlos

Esto ocurre en casos como la detección de fraudes


con tarjetas de crédito, donde puede haber solo 1000
casos de fraude en más de un millón de
transacciones, lo que representa un escaso 0,1% del
conjunto de datos.
CONJUNTO DE DATOS
DESBALANCEADO

Problema de métricas en la medición del rendimiento de algoritmos en conjuntos de datos


desbalanceados.

Si tenemos un conjunto de datos


desequilibrado que contiene el 1% de una
clase minoritaria y el 99% de la clase
mayoritaria, un algoritmo puede predecir todos
los casos como pertenecientes a la clase
mayoritaria
CONJUNTO DE DATOS
DESBALANCEADO

Ahora que entendimos que es un Dataset Desequilibrado y por qué proporciona una
precisión de clasificación engañosa, veamos cómo podemos solucionar esto.

Recopilar más datos


Utilizar las métricas de evaluación correctas

Remuestreo del conjunto de datos


Sub-muestreo aleatorio

Sobre-muestreo aleatorio

También podría gustarte