Está en la página 1de 2

Conceptos básicos

Instancias (dataset)

Ejemplos de entrada, muestra o entrenamiento. Deben ser suficientes (cantidad) y adecuados (caracterización)

Representación

Clases: Qué se quiere aprender y que valores puede tener. En clasificación, decidir la pertenencia de una
instancia a una clase.
Atributos: Definen las características de los ejemplos.
Valores de los atributos: Describe las formas de definir los valores de los atributos.

Etiquetado

Asignación de una clase a una instancia. En función del etiquetado del conjunto de estas:
- Aprendizaje supervisado: Existe un etiquetado previo de las instancias por parte de personas, programas o
entidades (oráculo)
- Aprendizaje no supervisado: No existe un etiquetado previo.

Preprocesamiento

Selección, organización y adecuación de las instancias a los requisitos de las entradas del algoritmo o estrategia
que se va a aplicar. Incluye: limpiado de datos, unificación de criterios de nomenclatura, unificación desde el punto
de vista lógico y representativo, distribución de los valores continuos en rangos...

Tratamiento de las entradas

Incremental:
Aprendizaje simbólico, elaboración incremental de hipótesis consistentes(describe los ejemplos etiquetados
como positivos y no describe a ningún negativo)
Simultáneo:
Árboles de decisión, regresión, Bayes, RNAs

Bias (sesgos)

Conocimientos, decisiones, parámetros, heurísticas u otros factores que son establecidos a priori que ayudan a
reducir la incertidumbre en la selección de hipótesis:
1. Definiendo restricciones sobre el espacio de hipótesis, p.ej. no aceptar las que pasen determinado umbral o en
representación lógica permitir solo la forma conjuntiva.
2. Definiendo criterios de preferencia entre las hipótesis, p.ej. preferir las más cortas o sencillas o definir una
función que asigne valor a las hipótesis.
3. Combinar las dos anteriores, aplicando preferencia sobre un conjunto restringido de hipótesis.

Ruido

Errores no intencionados de los datos, de carácter aleatorio y esporádico, como atributos inadecuados, omitidos o
válidos pero equivocados.

Las estrategias tolerantes a fallos son capaces de aislar el ruido, asumiendo un porcentaje de error
en la respuesta.

Error de la muestra y error real

El error de la muestra es el que presentan los datos de entrenamiento con respecto a la distribución real de la
población.
El error real corresponde a la proporción de errores sobre un número importante de nuevos casos que
convergen asintóticamente con la distribución real de la población.
El sobreajuste (overfitting) consiste en generar modelos o seleccionar hipótesis que describan
demasiado fielmente los ejemplos tratados y realicen una mala predicción sobre el resto de
individuos de la población (pérdida de la generalidad)

Algoritmos
Espacio de Versiones
Algoritmo AQ
Algoritmo FOIL
Árboles de decisión ID3
Árboles de Regresión M5
Naïve-Bayes
K-Means
K-NN
RNA
Mapas Auto-organizados
SVM
Aglomerativa
Q-Learning

También podría gustarte