Está en la página 1de 22

Comparación de dos métodos de

aprendizaje sobre el mismo


problema

 Carlos Alonso González


 Grupo de Sistemas Inteligentes
 Departamento de Informática
 Universidad de Valladolid
Contenido

1. Motivación
2. Test de hipótesis
3. Varias ejecuciones: Test de student
4. Test de student remuestreado corregido

2
1. Motivación

 Suponer un problema y dos métodos de aprendizaje

 Pregunta habitual: ¿Cuál de los dos métodos de


aprendizaje es preferible utilizar?

 La respuesta no es sencilla pues depende del criterio


utilizado

 Simplificación: preferir el método con menor tasa de


error

3
Primera aproximación

 Estimar la tasa de error mediante validación cruzada,


elegir el de menor error
 Suficiente en muchas aplicaciones
 Para disminuir la varianza debida a la elección de la
partición: validación cruzada repetida

 Insuficiente si
 Aplicación crítica
 Investigación

4
2. Test de hipótesis

 Demostrar de forma convincente que un método es


mejor que otro
 Desde un punto de vista estadístico: las diferencias
observadas no se deben al azar.

 Hipótesis nula: las diferencias entre las tasas de error


no son significativamente diferentes

5
Situación ideal: datos ilimitados

 Para cada tamaño de conjunto de


entrenamiento
 Seleccionar suficientes conjuntos de entrenamiento y
prueba de forma independiente
 Estimar tasas de error media
 Calcular intervalos de confianza para la diferencia (si
suficientes conjuntos independientes, normal)
 Si el intervalo de confianza contiene el cero, no se
puede rechazar la hipótesis nula: las diferencias no
son significativas

6
En la realidad: datos limitados

 Pequeño número de estimaciones para obtener la media


 Peor aún: mala estimación de la varianza (varianza
muestral)

 Incluso si suficientes datos, procedimiento muy costoso

 Habitualmente, planteamiento alternativo sobre un


conjunto de datos limitado

7
Planteamiento del problema

8
Limitaciones de los test de hipótesis

 Varios test de hipótesis para este problema


 Cada uno establece requisitos diferentes sobre los
conjuntos de datos y métodos de entrenamiento y prueba
 Errores relacionados con
 Violación de estos requisitos
 Exigencias excesivas (insuficientes) del test

 Error Tipo I: Detectar diferencias cuando no las hay


 Rechazar la hipótesis nula cuando no deben

 Error de Tipo II: No detectan diferencias existentes


 Aceptar la hipótesis nula cuando no deben

9
3. Varias ejecuciones: Test de
Student (t test)

 Suponer que podemos estimar la tasa de error media de


los algoritmos 𝐴 y 𝐵 sobre distintos conjuntos de datos,
independientes, del mismo tamaño
 Queremos determinar si las tasas de error son
significativamente diferentes
 Como no conocemos la verdadera varianza, las medias
siguen al distribución t-student
 El test tiene más capacidad de discriminación si las
muestras están pareadas

10
Estimación de las medias (I)

 Disponemos de k conjuntos de datos independientes del


mismo tamaño
 𝑥1 , ⋯ , 𝑥𝑘 e 𝑦1 , ⋯ , 𝑦𝑘 estimaciones de la tasas de error
obtenidas
 Dividiendo aleatoriamente cada conjunto en 𝑇𝑖 , 𝑃𝑖 , 𝑖 = 1, ⋯ 𝑘
 Pareada: ambos métodos usan los mismos 𝑇𝑖 y 𝑃𝑖 para
estimar 𝑥𝑖 e 𝑦𝑖
 Estimación de las medias: 𝑥̅ e 𝑦�
 Valores verdaderos de las medias: µ𝑥 y µ𝑦
𝑆𝑥2 𝑆𝑦2
 Intervalos de confianza para las medias: y
𝑘 𝑘
 Con 𝑆𝑥2 y 𝑆𝑦2 la varianza muestral estimada a partir de las
tasas de error

11
Estimación de las medias (II)

𝑆𝑥2 𝑆𝑦2
 (𝑥̅ − µ𝑥 )/ y (𝑦� − µ𝑦 )/ siguen una distribución t-
𝑘 𝑘
Student con 𝑘 − 1 grados de libertad

12
Distribución de las medias

 Para decidir si 𝑥̅ e 𝑦� son significativamente diferentes,


consideramos la media de las diferencias, 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
 Legítimo porque las observaciones están pareadas
 𝑑̅ = 𝑥̅ − 𝑦� también sigue un distribución t-Student con
𝑘 − 1 grados de libertad
𝑑�
 El estadístico 𝑡 = , con 𝑆𝑑2 la varianza muestral de 𝑑̅ ,
𝑆𝑑2 /𝑘

también sigue una distribución de t-Student con


(𝑘— 1) grados de libertad
 Hipótesis nula: las medias son iguales, la diferencia es
cero (el intervalo de confianza del estadístico contiene
al 0)

13
Test de Student

 Determinar el nivel de confianza (habitualmente 5%)


 Si la diferencia es significativa con un nivel α%, hay una
probabilidad (100 − α)% de que las medias difieran
 Si se usan tablas de una cola, dividir por dos porque el test es de
dos colas
 Buscar en las tablas de (𝑘 − 1) grados de libertad el
valor de 𝑧 para α/2
 Si 𝑡 ≤ −𝑧 o 𝑡 ≥ 𝑧, rechazar la hipótesis nula: la diferencia
es significativa

14
Realización práctica del test de
Student

 El test de Student es válido cuando disponemos de


conjuntos de datos independientes

 En la práctica, no disponemos de 𝑘 conjuntos


independientes

 Variantes
 Test de Student remuestreado pareado
 Validación cruzada con test de Student remuestreado
pareado
 Test de Student remuestreado pareado corregido

15
4. Test de Student remuestreado

 Realización práctica del test de Student


 El test de Student es válido cuando disponemos de
conjuntos de datos independientes
 En la práctica, no disponemos de 𝑘 conjuntos
independientes

 Alternativa: el test se realizan con extrayendo repetidas


veces conjuntos de entrenamiento y prueba del mismo
conjunto de datos disponible
 Variantes
 Test de Student remuestreado pareado
 Validación cruzada con test de Student remuestreado
pareado
 Test de Student remuestreado pareado corregido
16
Test de Student remuestreado
pareado

 Disponemos de un único conjunto de datos 𝐷


 Generamos aleatoriamente 𝑘 conjuntos de
entrenamiento, 𝑇𝑘 (y 𝑘 de prueba, 𝑃𝑘 = 𝐷 − 𝑇𝑘 )
 Aplicamos test de Student a los 𝑘 conjuntos.

 Inconveniente: ni 𝑇𝑘 ni 𝑃𝑘 son independientes


 Se obtienen del mismo 𝐷
 Además solapamiento de distintos 𝑇𝑘 y 𝑃𝑘

 Consecuencia: error de Tipo I inaceptable


 No utilizar este test
 Que es popular

17
Validación cruzada con test de
Student remuestreado pareado

 Disponemos de un único conjunto de datos 𝐷


 Validación cruzada de 𝑘 particiones, pareada
 En cada partición, calcular 𝑥𝑖 y 𝑦𝑖
 Test de Student sobre 𝑑̅ = 𝑥̅ − 𝑦�, calculando el
𝑑�
estadístico 𝑡 =
𝑆𝑑2 /𝑘

 Mejora sobre el anterior: los conjuntos de prueba 𝑃𝑖 no


se solapan (los podríamos considerar independientes)
 Aun así los 𝑇𝑖 no son independientes y se solapan
 Error Tipo I aceptable, bajo error tipo II
 Habitualmente, 10 particiones

18
Estimaciones dependientes por
reutilización de datos

 Si se dispone de pocos datos: reutilización


 Por ejemplo, validación cruzada repetida (pareada)
 Las estimaciones no son independientes
 Diferencias no significativas pueden convertirse en
significativas
 Debido al factor 1/(𝑘 × 𝑅) que afecta a la varianza muestral
𝑑̅
𝑡=
𝑆𝑑2
𝑘×𝑅

 Si 10 repeticiones de 10-XV dividimos 𝑆𝑑2 por 100


 El error de Tipo I puede ser inaceptable

19
Test de Student remuestreado
corregido
1
 Heurística: sumar una constante a
𝑘×𝑅
 Test heurístico: test t remuestreado corregido:
𝑑̅
𝑡=
1 𝑛
+ 2 𝑆𝑑2
𝑘 × 𝑅 𝑛1
con k: número de experimentos, n1: instancias de
entrenamiento, n2 instancias de prueba
𝑛2 1
 Para 10 validaciones cruzadas de 10 particiones: 𝑘 × 𝑅 = 100, =
𝑛1 9

 Error de tipo I aceptable

20
Conclusiones

 No hay un criterio único para comparar dos algoritmos


de aprendizaje sobre un conjunto de datos

 Validación cruzada y test de Student remuestrado


(corregido) son habituales

 Todos los métodos deben considerarse como


aproximaciones al problema pues se violan las
condiciones del test
 Especialmente la independencia

21
Bibliografía

 Thomas G. Dietterich. Approximate statistical test for


comparing supervised classification learning algorithms.
Neural Computation, 10(7):1895–1923, 1998.
 Claude Nadeau and Yoshua Bengio. Inference for the
generalization error. Machine Learning, 52(239–281),
2003.

22

También podría gustarte