Está en la página 1de 5

SELECCIÓN DE CARACTERISTICAS

Puede utilizar el módulo Selección de características basada en filtros para identificar el


subconjunto de columnas de entrada que tienen la mayor capacidad de predicción. En
general, la selección de características se refiere al proceso de aplicación de pruebas
estadísticas para introducir valores en una salida especificada a fin de determinar las
columnas que más se correlacionan con el resultado. El módulo Selección de
características basada en filtros proporciona varios algoritmos de selección de
características, que se aplican en función del tipo de tarea predictiva y los tipos de datos.
El módulo requiere como entrada un conjunto de datos que contiene dos o más columnas de
características.
A continuación se elige un método estadístico para aplicar. Cada uno tiene requisitos
diferentes: algunos requieren datos numéricos y otros pueden trabajar también con datos de
categorías.
El módulo tiene dos salidas: el primero es un conjunto de datos que contiene las
características principales (columnas) según se clasifican por eficacia predictiva. La
segunda salida es un conjunto de datos transformado que contiene las puntuaciones
numéricas que se asignan a las columnas seleccionadas.

Descripción de la selección de características basada en


filtros
La selección de características es el proceso de elegir aquellos los atributos del conjunto de
datos que son más relevantes para el problema de modelos de predicción en los que trabaja.
Al elegir las características correctas, puede mejorar potencialmente la precisión y eficacia
de la clasificación.
La selección de características también puede usarse para identificar los atributos
innecesarios, irrelevantes y redundantes del conjunto de datos. Al aplicar medidas
estadísticas, puede determinar qué columnas no contribuyen a la precisión del modelo de
predicción (o, de hecho, podrían disminuir la precisión del modelo) y quitarlas antes de
entrenar un modelo.
Selección de características basada en filtros usa diferentes pruebas estadísticas para
determinar el subconjunto de características que tienen la máxima eficacia predictiva. Se
elige una medida estadística para aplicar y el módulo calcula una puntuación para cada
columna que se ha usado como una característica. A continuación, las características se
clasifican por la puntuación y las columnas de característica, de manera que las mejores
puntuaciones se usan en la creación del modelo y el resto se mantienen en el conjunto de
datos pero no se usan para el análisis.
Uso de la selección de características
Para usar la selección de características, debe elegir un conjunto de datos de entrada que
contenga al menos dos columnas que son candidatas para usarse como características. Las
columnas que se pueden analizar dependen de la columna de destino y de la métrica usada
para calcular las puntuaciones.
Columna de destino
Para todos los métodos, excepto la selección de características basada en recuento,
debe especificar la única columna que actúa como etiqueta, o destino, para el
conjunto de datos. Haga clic en Iniciar el selector de columna para elegir la
columna de destino por nombre o por su índice (los índices son de base uno). El
módulo devolverá un error en la ejecución si elige una columna con un tipo de datos
erróneo, si no elige ninguna columna o demasiadas, o si elige una columna que no
puede ser una etiqueta.
Método de puntuación de características
A continuación, se elige el método estadístico que se desea usar para calcular las
puntuaciones de las características. Para obtener información detallada acerca de
estas puntuaciones, consulte la sección Notas técnicas.

 Correlación de Pearson

 Información mutua

 Correlación de Kendall

 Correlación de Spearman

 Chi cuadrado

 Puntuación de Fisher

 Basada en recuento

La elección del método de puntuación de selección de características que use


depende en parte del tipo de datos que tiene. Por ejemplo, algunos métodos
requieren datos numéricos; otros usuarios pueden trabajar con datos que representan
la clasificación. Si aplica un método de puntuación a una columna con un tipo de
datos que no admite el método, se asigna una puntuación de cero. Compruebe los
requisitos en la sección Notas técnicas antes de elegir un método.
Número de características deseadas
Para casi todos los métodos, puede especificar el número de las mejores
características que desea que se devuelvan. Cada método puntúa todas las columnas
de entrada, clasifica las características por puntuación en orden descendente y
devuelve solo aquellas con mejores características.
La excepción es la selección de características basada en recuentos que, de forma
predeterminada, procesa todas las columnas pasadas como entradas.

 El número mínimo de características que puede especificar es 1, pero se


recomienda que aumente este valor.

 Si el número especificado de características deseadas es mayor que el


número de columnas del conjunto de datos, se devuelven todas las
características.

Actuar solamente en columnas de caracter��stica


Si se selecciona esta opción, el método genera una puntuación solamente para las
columnas que han sido previamente marcadas como características. Si se desactiva
esta opción, el módulo comprobará cualquier columna que tenga un tipo de datos
adecuado.
Si una columna que quiere usar no está marcada como una característica, puede usar
el Editor de metadatos para marcarla como una columna de característica.
No se puede generar una puntuación de selección de características para cualquier
columna que se designe como una columna label o score.
Si desea definir un método de selección de características personalizado, puede usar el
módulo Ejecutar script de R.
Resultados
El módulo calcula un número de características para los parámetros y columnas de entrada
seleccionados y genera estos resultados:

 La primera salida es un conjunto de datos que contiene las columnas que se han
identificado con las mejores características, lo que significa que tenían las
puntuaciones de predicción más altas según la métrica seleccionada.

Este conjunto de datos también incluye la columna de destino seleccionada, en la


columna más a la izquierda de la tabla de salida. De este modo puede indicar el
destino con el que se ha hecho la correlación de las columnas.

Las columnas se ordenan por orden descendente de puntuación de importancia de la


característica.

 La segunda salida es una pequeña tabla que contiene solo los resultados de esas
columnas, según las métricas y los parámetros seleccionados.

Este conjunto de datos de salida no incluye columnas de etiqueta ni de puntuación.

 Si selecciona Basado en recuento como el método de selección de características,


los resultados son un poco diferentes. Genera una puntuación para cada columna del
conjunto de datos y los devuelve en su orden original.

Ejemplos
Puede ver ejemplos de cómo se utiliza este módulo explorando estos experimentos de
ejemplo en la galería de modelos:

 El ejemplo de cáncer de mama usa correlación de Pearson para encontrar las 15


mejores características.

Notas técnicas
 Si intenta usar un método de puntuación con una columna de un tipo de datos que el
método no admite, el módulo generará un error o se asignará una puntuación de
cero a la columna.
 Si una columna contiene valores lógicos de verdadero (true) y falso (false), se
procesan como True = 1 y False = 0.

 Para asegurarse de que una columna debe puntuarse como una característica, use el
módulo Editor de metadatos para establecer el atributo IsFeature.

 Una columna no puede ser una función si se ha designado como Label o


como Score.

Valores que faltan

 No puede especificar como una columna de destino (etiqueta) ninguna columna en


la que todos sus valores sean valores que faltan.

 Si una columna contiene valores que faltan, se omitirán al calcular la puntuación


para la columna.

 Si todos los valores de una columna designada como columna de característica son
valores que faltan, se asigna una puntuación de cero.

Requisitos
Los siguientes métodos de puntuación solo aceptan columnas de datos numéricos y lógicos:

 Correlación de Pearson

 Correlación de Kendall

 Correlación de Spearman

 Puntuación de Fisher (la restricción no se aplica a la columna de destino)

 Basada en recuento

Detalles de los métodos de selección de características


Selección de características basada en filtros proporciona una selección de pruebas
estadísticas ampliamente usadas para determinar el subconjunto de columnas de entrada
que tienen la máxima eficacia predictiva.
Correlación de Pearson
La estadística de correlación de Pearson o el coeficiente de correlación de Pearson
también se conoce en modelos estadísticos como el valor r. Para dos variables
cualesquiera, devuelve un valor que indica la fuerza de la correlación.
El coeficiente de correlación de Pearson se calcula tomando la covarianza de dos
variables y dividiendo por el producto de sus desviaciones estándar. El coeficiente
no se ve afectado por los cambios de escala en las dos variables.
Información mutua
El método de puntuación de información mutua mide la contribución de una
variable de cara a reducir la incertidumbre acerca del valor de otra variable (en este
caso, la etiqueta). Muchas variaciones de la puntuación de información mutua se
han diseñado para adaptarse a diferentes distribuciones.
La puntuación de información mutua es especialmente útil en selección de
características, ya que maximiza la información mutua entre la distribución conjunta
y las variables de destino en conjuntos de datos con muchas dimensiones.
Correlación de Kendall
La correlación de rangos de Kendall es una de varias estadísticas que miden la
relación entre clasificaciones de distintas variables ordinales o diferentes
clasificaciones de la misma variable. En otras palabras, mide la similitud de las
ordenaciones cuando se clasifican por las cantidades. Tanto este coeficiente como el
coeficiente de correlación de Spearman están diseñados para su uso con datos no
paramétricos y no normalmente distribuidos.
Correlación de Spearman
El coeficiente de Spearman es una medida no paramétrica de dependencia
estadística entre dos variables, que a veces se denota mediante la letra griega ro. El
coeficiente de Spearman expresa el grado en el que dos variables se relacionan
monotónicamente. También se denomina correlación de rangos de Spearman,
porque se puede usar con variables ordinales.
Chi cuadrado
La prueba de chi cuadrado bidireccional es un método estadístico que mide el grado
de aproximación de los valores esperados respecto a los reales. El método supone
que las variables son aleatorias y que se obtienen de un ejemplo adecuado de
variables independientes. La estadística de chi cuadrado resultante indica cómo de
diferentes son los resultados del resultado (aleatorio) esperado.
Puntuación de Fisher
La puntuación de Fisher (también llamada método de Fisher o puntuación de
probabilidad combinada de Fisher) a veces se denomina puntuación de la
información, ya que representa la cantidad de información que una variable
proporciona sobre algún parámetro desconocido del que depende.
La puntuación se calcula midiendo la varianza entre el valor esperado de la
información y el valor observado. Cuando la varianza se minimiza, la información
se maximiza. Puesto que la esperanza de la puntuación es cero, la información de
Fisher también es la varianza de la puntuación.
Basada en recuento
La selección de características basada en recuento es una manera sencilla y, al mismo, relativamente
eficaz de encontrar información acerca de los elementos de predicción. Se trata de un método no
supervisado de selección de características, lo que significa que no necesita una columna de
etiqueta. Este método cuenta las frecuencias de todos los valores y, a continuación, asigna una
puntuación a la columna según el recuento de frecuencia. Se puede usar para encontrar el peso de
la información en una característica determinada y reducir la dimensionalidad de los datos sin
perder información.

https://www.youtube.com/watch?v=DXFJicXBv5k

https://www.youtube.com/watch?v=efALr5apu-g

También podría gustarte