Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IDM 2021
Errores de Clasificacion
Errores de Testeo
– Errores cometidos en el conjunto de testeo
Errores de Generalización
– Error esperado de un modelo sobre una selección aleatoria de
registros de la misma distribución
Ejemplo
o : 5200 instancias
• Generadas de una
distribución uniforme
Árbol de Decisión
Árbol de Decisión
Aproximación:
– Tomemos 50 analistas del mercado
– Cada analista efectúa 10 predicciones aleatorias
– Elija el analista que efectúe la mayor cantidad de predicciones
correctas
Desventaja:
– Hay menos datos disponibles para entrenamiento
Selección del Modelo:
Incorporación de la Complejidad del Modelo
Idea Base: La navaja de Occam
– Dados dos modelos con errores de generalización similares, uno debiera preferir
el modelo mas simple en relación con el modelo mas complejo
e(TL) = 4/24
+: 3 +: 5 +: 1 +: 3 +: 3 e(TR) = 6/24
-: 0 -: 2 -: 4 -: 0 -: 6
+: 3 +: 2 +: 0 +: 1 +: 3 +: 0 =1
-: 1 -: 1 -: 2 -: 2 -: 1 -: 5
Estimado de Resustitución:
– Emplea el error de entrenamiento como una estimación optimista del error de
generalización
– Se lo suele denominar estimación optimista del error
e(TL) = 4/24
e(TR) = 6/24
+: 3 +: 5 +: 1 +: 3 +: 3
-: 0 -: 2 -: 4 -: 0 -: 6
+: 3 +: 2 +: 0 +: 1 +: 3 +: 0
-: 1 -: 1 -: 2 -: 2 -: 1 -: 5
Post-Poda (Post-pruning)
– Hacer crecer completamente el árbol
– Reemplazo de sub-árbol
◆ Recortar los nodos de un árbol de decisión de abajo hacia arriba (bottom-up)
◆ Si el error de generalización mejora luego del recorte, reemplazar el sub-árbol
por un nodo hoja
◆ La etiqueta de clase del nodo hoja queda determinada por la clase
mayoritaria de las instancias en el subárbol.
– Crecimiento de los sub-arboles
◆ Reemplazar los subárboles con la rama mas frecuentemente empleada
Ejemplo de Post-Poda
Error de Entrenamiento (Antes del Split) = 10/30
A1 A4
A2 A3
Proposito:
– Estimar la performance del clasificador en datos no vistos previamente (conjunto
de testeo)
Holdout
– Reservar k% para entrenamiento y (100-k)% para testeo
– Submuestreo aleatorio: Holdout repetido
Cross validation
– Partir el conjunto en k conjuntos disjuntos
– k-fold: entrenar en k-1 particiones y testear en la remanente
– Leave-one-out: k=n
Ejemplo de Cross-validation
3-fold cross-validation