Métodos de Selección de Características

Métodos de Selección de
Características
Los Conjuntos de Datos, en ocasiones pueden ser pequeños mientras que otros son
tremendamente grandes en tamaño, en especial cuando cuentan con un Gran Número de
Características, que sean muy difícil de procesar.
 Las características adicionales actúan como un ruido para el cual el modelo de Machine Learning
o Dara Mining puede tener un rendimiento extremadamente bajo.
 El modelo tarda más tiempo en entrenarse.
 Asignación de recursos innecesarios para estas características.

Características
Selección de Características en los Proyectos de Machine Learning – Data Mining
La Selección de Características es el proceso de seleccionar las más importante y/o relevante

características de un conjunto de datos.
 Mejorar el rendimiento de predicción de los predictores, proporcionar predictores más rápidos y más
rentables
 Proporcionar una mejor comprensión del proceso subyacente que generó los datos.
 Métodos de Filtro
 Métodos de envoltura
 Métodos Integrados
Características
 Métodos de Filtro : Los métodos de filtro se utilizan generalmente como un paso de

preprocesamiento de datos, la selección de características es independiente de cualquier
algoritmo de Machine Learning o Data Mining.
Las características se clasifican según los puntajes estadísticos ( Correlación de las

características ) con la variable de resultado, ten en cuenta que la correlación es un término muy
contextual y varía de un trabajo a otro.
Características
 Métodos de Filtro
En la siguiente tabla puedes utilizarla para definir los Coeficientes De Correlación para
diferentes tipos de datos, en este caso, continuo y categórico
Característica / Continuo Categórico

Predicción
Continuo Correlacion de Pearson LDA
Categórico Anova Chi - Cuadrado
Características
Correlacion de Pearson : El coeficiente de correlación de Pearson es una prueba que mide la relación
estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el
coeficiente no se encuentra representado adecuadamente.
El Coeficiente de Correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay
asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva.
Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:
 La escala de medida debe ser una escala de intervalo o relación.

 Las variables deben estar distribuida de forma aproximada.
 La asociación debe ser lineal.
 No debe haber valores atípicos en los datos.
Características
ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA) : El análisis de la varianza permite

contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la
hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a
su valor esperado.
Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa

comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o
de interés.
Características
ANÁLISIS DISCRIMINANTE LINEAL (LDA) : El Análisis Discriminante Lineal o Linear

Discrimiant Analysis (LDA) es un método de clasificación supervisado de variables cualitativas en
el que dos o más grupos son conocidos a priori y nuevas observaciones se clasifican en uno de
ellos en función de sus características.
Haciendo uso del teorema de Bayes, LDA estima la probabilidad de que una observación, dado
un determinado valor de los predictores, pertenezca a cada una de las clases de la variable
cualitativa, P(Y=k|X=x)P(Y=k|X=x). Finalmente se asigna la observación a la clase k para la que
la probabilidad predicha es mayor.
Teorema de Bayes : P(B|A)=P(AB)P(A)

Características
PRUEBA CHI-CUADRADO : Una prueba de chi-cuadrada es una prueba de hipótesis que

compara la distribución observada de los datos con una distribución esperada de los datos.
Existen varios tipos de pruebas de chi-cuadrada
1. Prueba de bondad de ajuste de chi-cuadrada

Este análisis se utiliza para probar qué tan bien una muestra de datos categóricos se ajusta a una
distribución teórica.
2. Pruebas de chi-cuadrada de asociación e independencia

Los cálculos para estas pruebas son iguales, pero la pregunta que se está tratando
de contestar puede ser diferente.
Características
 Métodos de envoltura
Características
Algunos ejemplos comunes de Métodos de Envoltura son los siguientes:
 Selección hacia delante (Forward Selection) : Es un método iterativo en el que comenzamos sin tener
ninguna característica en el modelo. En cada iteración, seguimos agregando la función que mejor mejora
nuestro modelo hasta que la adición de una nueva variable no mejore el rendimiento del modelo.
 Eliminación hacia atrás (Backward Selection) : Comenzamos con todas las características y eliminamos
la característica menos significativa en cada iteración, lo que mejora el rendimiento del modelo. Repetimos
esto hasta que no se observe ninguna mejora en la eliminación de características.
 Eliminación de características recursivas (Recursive Feature Elimination) : Es un algoritmo de
optimización que busca encontrar el subconjunto de funciones con mejor rendimiento. Crea repetidamente
modelos y deja de lado la mejor o la peor característica de rendimiento en cada iteración.
Construye el siguiente modelo con las características de la izquierda hasta que se agotan todas las
características, luego clasifica las características según el orden de su eliminación.
Características
 Métodos Integrados Combina las cualidades de los métodos de Filtro y Envoltura.
Se implementa mediante algoritmos que tiene su propio métodos de selección de

características incorporados.
Algunos de los ejemplos más populares de estos métodos son la regresión LASSO y RIDGE,
que tienen funciones de penalización incorporadas para reducir el sobreajuste.
Ridge Regression: Aproxima a cero los coeficientes de los predictores pero sin llegar a excluir
ninguno.
Lasso: aproxima a cero los coeficientes, llegando a excluir predictores.

CONJUNTO DE DATOS
DESBALANCEADO
¿Qué tienen en común los conjuntos de datos para la Detección de Fraudes en el Banco, o las
ofertas en el tiempo real en mercadeo o la detección de intrusos en redes?
CONJUNTO DE DATOS
DESBALANCEADO
Este tipo de conjunto de datos siempre plantea un problema en Machine Learning y Data
Mining , ya que la mayoría de los algoritmos son malos para manejarlos
Esto ocurre en casos como la detección de fraudes

con tarjetas de crédito, donde puede haber solo 1000
casos de fraude en más de un millón de
transacciones, lo que representa un escaso 0,1% del
conjunto de datos.
CONJUNTO DE DATOS
DESBALANCEADO
Problema de métricas en la medición del rendimiento de algoritmos en conjuntos de datos

desbalanceados.
Si tenemos un conjunto de datos

desequilibrado que contiene el 1% de una
clase minoritaria y el 99% de la clase
mayoritaria, un algoritmo puede predecir todos
los casos como pertenecientes a la clase
mayoritaria
CONJUNTO DE DATOS
DESBALANCEADO
Ahora que entendimos que es un Dataset Desequilibrado y por qué proporciona una
precisión de clasificación engañosa, veamos cómo podemos solucionar esto.
Recopilar más datos

Utilizar las métricas de evaluación correctas
Remuestreo del conjunto de datos

Sub-muestreo aleatorio
Sobre-muestreo aleatorio

Métodos de Selección de Características

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Métodos de Selección de Características

Cargado por

Copyright:

Formatos disponibles

Métodos de Selección de

o Dara Mining puede tener un rendimiento extremadamente bajo.

 El modelo tarda más tiempo en entrenarse.

 Asignación de recursos innecesarios para estas características.

Selección de Características en los Proyectos de Machine Learning – Data Mining

La Selección de Características es el proceso de seleccionar las más importante y/o relevante

 Métodos de Filtro : Los métodos de filtro se utilizan generalmente como un paso de

Las características se clasifican según los puntajes estadísticos ( Correlación de las

Característica / Continuo Categórico

Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:

 La escala de medida debe ser una escala de intervalo o relación.

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA) : El análisis de la varianza permite

Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa

ANÁLISIS DISCRIMINANTE LINEAL (LDA) : El Análisis Discriminante Lineal o Linear

Teorema de Bayes : P(B|A)=P(AB)P(A)

PRUEBA CHI-CUADRADO : Una prueba de chi-cuadrada es una prueba de hipótesis que

Existen varios tipos de pruebas de chi-cuadrada

1. Prueba de bondad de ajuste de chi-cuadrada

2. Pruebas de chi-cuadrada de asociación e independencia

 Métodos Integrados Combina las cualidades de los métodos de Filtro y Envoltura.

Se implementa mediante algoritmos que tiene su propio métodos de selección de

Lasso: aproxima a cero los coeficientes, llegando a excluir predictores.

Esto ocurre en casos como la detección de fraudes

Problema de métricas en la medición del rendimiento de algoritmos en conjuntos de datos

Si tenemos un conjunto de datos

Recopilar más datos

Remuestreo del conjunto de datos

También podría gustarte