Comparación de Dos Métodos

Comparación de dos métodos de
aprendizaje sobre el mismo

problema
 Carlos Alonso González

 Grupo de Sistemas Inteligentes
 Departamento de Informática
 Universidad de Valladolid
Contenido
1. Motivación
2. Test de hipótesis
3. Varias ejecuciones: Test de student
4. Test de student remuestreado corregido
2
1. Motivación
 Suponer un problema y dos métodos de aprendizaje
 Pregunta habitual: ¿Cuál de los dos métodos de

aprendizaje es preferible utilizar?
 La respuesta no es sencilla pues depende del criterio

utilizado
 Simplificación: preferir el método con menor tasa de

error
3
Primera aproximación
 Estimar la tasa de error mediante validación cruzada,

elegir el de menor error
 Suficiente en muchas aplicaciones
 Para disminuir la varianza debida a la elección de la
partición: validación cruzada repetida
 Insuficiente si
 Aplicación crítica
 Investigación
4
2. Test de hipótesis
 Demostrar de forma convincente que un método es

mejor que otro
 Desde un punto de vista estadístico: las diferencias
observadas no se deben al azar.
 Hipótesis nula: las diferencias entre las tasas de error

no son significativamente diferentes
5
Situación ideal: datos ilimitados
 Para cada tamaño de conjunto de

entrenamiento
 Seleccionar suficientes conjuntos de entrenamiento y
prueba de forma independiente
 Estimar tasas de error media
 Calcular intervalos de confianza para la diferencia (si
suficientes conjuntos independientes, normal)
 Si el intervalo de confianza contiene el cero, no se
puede rechazar la hipótesis nula: las diferencias no
son significativas
6
En la realidad: datos limitados
 Pequeño número de estimaciones para obtener la media

 Peor aún: mala estimación de la varianza (varianza
muestral)
 Incluso si suficientes datos, procedimiento muy costoso
 Habitualmente, planteamiento alternativo sobre un

conjunto de datos limitado
7
Planteamiento del problema
8
Limitaciones de los test de hipótesis
 Varios test de hipótesis para este problema

 Cada uno establece requisitos diferentes sobre los
conjuntos de datos y métodos de entrenamiento y prueba
 Errores relacionados con
 Violación de estos requisitos
 Exigencias excesivas (insuficientes) del test
 Error Tipo I: Detectar diferencias cuando no las hay

 Rechazar la hipótesis nula cuando no deben
 Error de Tipo II: No detectan diferencias existentes

 Aceptar la hipótesis nula cuando no deben
9
3. Varias ejecuciones: Test de
Student (t test)
 Suponer que podemos estimar la tasa de error media de

los algoritmos 𝐴 y 𝐵 sobre distintos conjuntos de datos,
independientes, del mismo tamaño
 Queremos determinar si las tasas de error son
significativamente diferentes
 Como no conocemos la verdadera varianza, las medias
siguen al distribución t-student
 El test tiene más capacidad de discriminación si las
muestras están pareadas
10
Estimación de las medias (I)
 Disponemos de k conjuntos de datos independientes del

mismo tamaño
 𝑥1 , ⋯ , 𝑥𝑘 e 𝑦1 , ⋯ , 𝑦𝑘 estimaciones de la tasas de error
obtenidas
 Dividiendo aleatoriamente cada conjunto en 𝑇𝑖 , 𝑃𝑖 , 𝑖 = 1, ⋯ 𝑘
 Pareada: ambos métodos usan los mismos 𝑇𝑖 y 𝑃𝑖 para
estimar 𝑥𝑖 e 𝑦𝑖
 Estimación de las medias: 𝑥̅ e 𝑦�
 Valores verdaderos de las medias: µ𝑥 y µ𝑦
𝑆𝑥2 𝑆𝑦2
 Intervalos de confianza para las medias: y
𝑘 𝑘
 Con 𝑆𝑥2 y 𝑆𝑦2 la varianza muestral estimada a partir de las
tasas de error
11
Estimación de las medias (II)
𝑆𝑥2 𝑆𝑦2
 (𝑥̅ − µ𝑥 )/ y (𝑦� − µ𝑦 )/ siguen una distribución t-
𝑘 𝑘
Student con 𝑘 − 1 grados de libertad
12
Distribución de las medias
 Para decidir si 𝑥̅ e 𝑦� son significativamente diferentes,

consideramos la media de las diferencias, 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
 Legítimo porque las observaciones están pareadas
 𝑑̅ = 𝑥̅ − 𝑦� también sigue un distribución t-Student con
𝑘 − 1 grados de libertad
𝑑�
 El estadístico 𝑡 = , con 𝑆𝑑2 la varianza muestral de 𝑑̅ ,
𝑆𝑑2 /𝑘
también sigue una distribución de t-Student con

(𝑘— 1) grados de libertad
 Hipótesis nula: las medias son iguales, la diferencia es
cero (el intervalo de confianza del estadístico contiene
al 0)
13
Test de Student
 Determinar el nivel de confianza (habitualmente 5%)

 Si la diferencia es significativa con un nivel α%, hay una
probabilidad (100 − α)% de que las medias difieran
 Si se usan tablas de una cola, dividir por dos porque el test es de
dos colas
 Buscar en las tablas de (𝑘 − 1) grados de libertad el
valor de 𝑧 para α/2
 Si 𝑡 ≤ −𝑧 o 𝑡 ≥ 𝑧, rechazar la hipótesis nula: la diferencia
es significativa
14
Realización práctica del test de
Student
 El test de Student es válido cuando disponemos de

conjuntos de datos independientes
 En la práctica, no disponemos de 𝑘 conjuntos

independientes
 Variantes
 Test de Student remuestreado pareado
 Validación cruzada con test de Student remuestreado
pareado
 Test de Student remuestreado pareado corregido
15
4. Test de Student remuestreado
 Realización práctica del test de Student

 El test de Student es válido cuando disponemos de
conjuntos de datos independientes
 En la práctica, no disponemos de 𝑘 conjuntos
independientes
 Alternativa: el test se realizan con extrayendo repetidas

veces conjuntos de entrenamiento y prueba del mismo
conjunto de datos disponible
 Variantes
 Test de Student remuestreado pareado
 Validación cruzada con test de Student remuestreado
pareado
 Test de Student remuestreado pareado corregido
16
Test de Student remuestreado
pareado
 Disponemos de un único conjunto de datos 𝐷

 Generamos aleatoriamente 𝑘 conjuntos de
entrenamiento, 𝑇𝑘 (y 𝑘 de prueba, 𝑃𝑘 = 𝐷 − 𝑇𝑘 )
 Aplicamos test de Student a los 𝑘 conjuntos.
 Inconveniente: ni 𝑇𝑘 ni 𝑃𝑘 son independientes

 Se obtienen del mismo 𝐷
 Además solapamiento de distintos 𝑇𝑘 y 𝑃𝑘
 Consecuencia: error de Tipo I inaceptable

 No utilizar este test
 Que es popular
17
Validación cruzada con test de
Student remuestreado pareado
 Disponemos de un único conjunto de datos 𝐷

 Validación cruzada de 𝑘 particiones, pareada
 En cada partición, calcular 𝑥𝑖 y 𝑦𝑖
 Test de Student sobre 𝑑̅ = 𝑥̅ − 𝑦�, calculando el
𝑑�
estadístico 𝑡 =
𝑆𝑑2 /𝑘
 Mejora sobre el anterior: los conjuntos de prueba 𝑃𝑖 no

se solapan (los podríamos considerar independientes)
 Aun así los 𝑇𝑖 no son independientes y se solapan
 Error Tipo I aceptable, bajo error tipo II
 Habitualmente, 10 particiones
18
Estimaciones dependientes por
reutilización de datos
 Si se dispone de pocos datos: reutilización

 Por ejemplo, validación cruzada repetida (pareada)
 Las estimaciones no son independientes
 Diferencias no significativas pueden convertirse en
significativas
 Debido al factor 1/(𝑘 × 𝑅) que afecta a la varianza muestral
𝑑̅
𝑡=
𝑆𝑑2
𝑘×𝑅
 Si 10 repeticiones de 10-XV dividimos 𝑆𝑑2 por 100

 El error de Tipo I puede ser inaceptable
19
Test de Student remuestreado
corregido
1
 Heurística: sumar una constante a
𝑘×𝑅
 Test heurístico: test t remuestreado corregido:
𝑑̅
𝑡=
1 𝑛
+ 2 𝑆𝑑2
𝑘 × 𝑅 𝑛1
con k: número de experimentos, n1: instancias de
entrenamiento, n2 instancias de prueba
𝑛2 1
 Para 10 validaciones cruzadas de 10 particiones: 𝑘 × 𝑅 = 100, =
𝑛1 9
 Error de tipo I aceptable
20
Conclusiones
 No hay un criterio único para comparar dos algoritmos

de aprendizaje sobre un conjunto de datos
 Validación cruzada y test de Student remuestrado

(corregido) son habituales
 Todos los métodos deben considerarse como

aproximaciones al problema pues se violan las
condiciones del test
 Especialmente la independencia
21
Bibliografía
 Thomas G. Dietterich. Approximate statistical test for

comparing supervised classification learning algorithms.
Neural Computation, 10(7):1895–1923, 1998.
 Claude Nadeau and Yoshua Bengio. Inference for the
generalization error. Machine Learning, 52(239–281),
2003.
22

Comparación de Dos Métodos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Comparación de Dos Métodos

Cargado por

Copyright:

Formatos disponibles

Comparación de dos métodos de

aprendizaje sobre el mismo

 Carlos Alonso González

 Suponer un problema y dos métodos de aprendizaje

 Pregunta habitual: ¿Cuál de los dos métodos de

 La respuesta no es sencilla pues depende del criterio

 Simplificación: preferir el método con menor tasa de

 Estimar la tasa de error mediante validación cruzada,

 Demostrar de forma convincente que un método es

 Hipótesis nula: las diferencias entre las tasas de error

 Para cada tamaño de conjunto de

 Pequeño número de estimaciones para obtener la media

 Incluso si suficientes datos, procedimiento muy costoso

 Habitualmente, planteamiento alternativo sobre un

 Varios test de hipótesis para este problema

 Error Tipo I: Detectar diferencias cuando no las hay

 Error de Tipo II: No detectan diferencias existentes

 Suponer que podemos estimar la tasa de error media de

 Disponemos de k conjuntos de datos independientes del

 Para decidir si 𝑥̅ e 𝑦� son significativamente diferentes,

también sigue una distribución de t-Student con

 Determinar el nivel de confianza (habitualmente 5%)

 El test de Student es válido cuando disponemos de

 En la práctica, no disponemos de 𝑘 conjuntos

 Realización práctica del test de Student

 Alternativa: el test se realizan con extrayendo repetidas

 Disponemos de un único conjunto de datos 𝐷

 Inconveniente: ni 𝑇𝑘 ni 𝑃𝑘 son independientes

 Consecuencia: error de Tipo I inaceptable

 Disponemos de un único conjunto de datos 𝐷

 Mejora sobre el anterior: los conjuntos de prueba 𝑃𝑖 no

 Si se dispone de pocos datos: reutilización

 Si 10 repeticiones de 10-XV dividimos 𝑆𝑑2 por 100

 Error de tipo I aceptable

 No hay un criterio único para comparar dos algoritmos

 Validación cruzada y test de Student remuestrado

 Todos los métodos deben considerarse como

 Thomas G. Dietterich. Approximate statistical test for

También podría gustarte