Está en la página 1de 14

Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

MENOS ES MÁS: SELECCIÓN DEL REFERENTE ADECUADO


ING CONJUNTO DE DATOS PARA LA CLASIFICACIÓN DE SERIE DE TIEMPO

Autores anónimos
Documento bajo revisión doble ciego

RESUMEN

En este documento, hemos propuesto una nueva canalización para el análisis de panorama de
conjuntos de datos de aprendizaje automático que nos permite comprender mejor un panorama
de problemas de evaluación comparativa, nos permite seleccionar una cartera diversa de
conjuntos de datos de evaluación comparativa y reducir la presencia de sesgo de evaluación de
rendimiento a través de la evaluación de arranque. Al combinar un gran corpus de representación
multidominio de características específicas de series temporales y los resultados de un gran
estudio empírico de referencia de clasificación de series temporales (TSC), mostramos la
capacidad de la canalización para señalar problemas con no redundancia y representatividad. en
el punto de referencia. Al observar la discrepancia entre los resultados empíricos de la evaluación
de arranque y las prácticas recientemente adaptadas en la literatura de TSC al introducir métodos
novedosos, advertimos sobre los efectos potencialmente dañinos de ajustar los métodos en
ciertas partes del paisaje (a menos que este sea un objetivo explícito y deseado de el estudio).
Finalmente, proponemos un conjunto de conjuntos de datos distribuidos uniformemente en el
espacio del paisaje que se debe considerar al comparar nuevos métodos TSC.

1 INTRODUCCIÓN

La evaluación del rendimiento de algoritmos confiable e imparcial es primordial en la investigación de aprendizaje


automático (ML), debido a su papel indispensable en la identificación de las fortalezas y debilidades de los algoritmos
existentes, el seguimiento de las mejoras realizadas por los algoritmos recién introducidos y la determinación de
direcciones para futuros esfuerzos de investigación. (Cawley y Talbot, 2010). Dicha evaluación está condicionada a la
existencia de conjuntos de datos de referencia de alta calidad, que normalmente están sujetos a los requisitos de alta
representatividad, no redundancia, escalabilidad, reutilización, verificación experimental e inclusión de casos positivos
y negativos (Sarkar et al. ., 2020; Schaafsma & Vihinen, 2018; Bartz-Beielstein et al., 2020). El papel de la
representatividad se destaca especialmente por el hecho de que la baja diversidad de instancias en las bibliotecas de
referencia puede conducir al desarrollo de algoritmos que se ajustan para lograr buenos resultados en las instancias
de referencia, sin tener en cuenta su generalización a instancias diversas o nunca antes vistas, y haciendo seguro que
el rendimiento es invariable a ciertas propiedades de la instancia (Smith-miles et al., 2014).

La necesidad de generar un benchmark de series temporales ha sido reivindicada durante mucho tiempo. Eamon et al.
(Keogh & Kasetty, 2003) argumentan que la baja calidad de la evaluación empírica se manifiesta en diferentes tareas
como la indexación de clústeres, la clasificación y la segmentación. Además, los autores identifican el sesgo de datos,
definido como el uso consciente o inconsciente de un conjunto de datos de prueba en particular para confirmar el
hallazgo deseado, como uno de los principales obstáculos para la evaluación y comparación justas de algoritmos de
series temporales. Además, muestran que muchos de los avances reivindicados en la literatura tienen poca
generalización a otros problemas e introducen la necesidad de ensamblar conjuntos de datos de referencia grandes y
heterogéneos, que brindan una buena cobertura de todo el espectro de propiedades de series temporales, como
estacionariedad, suavidad, simetría. , entre otras propiedades relevantes de series de tiempo. Desde entonces, se han
dedicado esfuerzos a mitigar el problema del sesgo de datos en la evaluación de algoritmos de series temporales
aumentando la cantidad de conjuntos de datos de referencia disponibles. Sin embargo, la parte que a menudo se pasa
por alto es la evaluación de la medida en que los puntos de referencia satisfacen los requisitos de calidad introducidos
anteriormente y qué partes del panorama del problema cubren.

El repositorio de conjuntos de datos de clasificación y agrupación de series temporales de la Universidad de California,


Riverside (UCR) (Dau et al., 2018), ha sido uno de los principales contribuyentes a la mejora de la evaluación.

1
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

ción de algoritmos que abordan la tarea de clasificación multiclase de datos de series temporales. A lo largo de los años, el repositorio se
ha ido ampliando gradualmente y actualmente contiene 128 conjuntos de datos. En un estudio reciente, los autores de (Bagnall et al., 2016)
informaron mil artículos publicados que utilizaron al menos uno de los conjuntos de datos del repositorio (Dau et al., 2018). Debido a su uso
frecuente en la evaluación de algoritmos existentes y recientemente introducidos, la afirmación de su calidad es de vital importancia.

Según una encuesta realizada para la última expansión del repositorio de la UCR en 2018, los investigadores más activos en la comunidad
de minería de datos de series temporales señalaron las siguientes direcciones para seguir mejorando el repositorio: la inclusión de series
temporales más largas, conjuntos de datos de longitud variable , conjuntos de datos de múltiples variables, conjuntos de datos altamente
desequilibrados y conjuntos de datos con conjuntos de entrenamiento muy pequeños, adecuados para comparar técnicas de aumento de
datos. Este es un indicador de que los profesionales de las series temporales eran conscientes de la falta de representatividad en el punto
de referencia y propusieron una expansión del trabajo para abordar estas preocupaciones y otras críticas al repositorio (Hu et al., 2015).
Creemos que se requiere una mayor investigación de la cobertura de las propiedades de la serie temporal proporcionadas por el punto de
referencia, para revelar áreas potencialmente desconocidas del espacio de características (es decir, el panorama del problema) que están
sobrerrepresentadas o subrepresentadas, es decir, para identificar problemas. con no redundancia y representatividad.

En este estudio, presentamos una canalización de evaluación comparativa general para el análisis panorámico de conjuntos de datos de
ML y mostramos su aplicabilidad en los conjuntos de datos de clasificación de series temporales (TSC) de UCR.
Al generar una representación compartida de las instancias pertenecientes a los diferentes conjuntos de datos dentro del punto de
referencia, generamos un espacio vectorial del problema que nos permite realizar un análisis complementario del punto de referencia, es
decir, determinar el grado en que las instancias de todos los conjuntos de datos se complementan entre sí. para producir una mejor
cobertura del panorama del problema de referencia. El muestreo de este espacio problemático permite la generación de subconjuntos de
instancias de problemas con redundancia reducida y mayor representatividad, que usamos para identificar posibles discrepancias en la
evaluación de los algoritmos TSC existentes y advertir sobre los efectos potencialmente dañinos de ajustar los métodos en ciertas partes
del paisaje. . Las contribuciones del artículo se pueden resumir en las siguientes:

• Introducir una canalización general para el análisis de la cobertura del espacio problemático mediante conjuntos de datos de

referencia. • Evaluar en qué medida el benchmark UCR satisface los requisitos de calidad de los
redundancia y representatividad.

• Proporcionar instrucciones para una evaluación más justa de los algoritmos de series de tiempo logrados mediante una selección
cuidadosa de la cartera de conjuntos de datos de referencia.

• Para seleccionar un algoritmo que funcione bien en todo el panorama de distribuciones de conjuntos de datos, debemos
seleccionar uniformemente un conjunto de conjuntos de datos de referencia; muestree la misma cantidad de conjuntos de
datos de todas las distribuciones y luego seleccione el algoritmo que funciona mejor. • Para seleccionar un algoritmo que

funcione bien para una aplicación específica, primero en función de las representaciones compartidas del nuevo conjunto de
datos, debemos seleccionar el grupo que consta de conjuntos de datos con distribuciones similares y luego seleccionar el
algoritmo de mejor rendimiento (y no buscar en todas las distribuciones de conjuntos de datos ).

2 TRABAJO RELACIONADO

Análisis del espacio de instancias. La metodología más estrechamente relacionada con la canalización presentada en este documento
reside en la metodología Instance Space Analysis (ISA) (Smith-Miles et al., 2014). ISA es una metodología de visualización para la
evaluación comparativa que emplea el análisis de la distribución de representaciones de vectores de características de instancias de
conjuntos de datos para comprender cómo las características de las instancias afectan el rendimiento del algoritmo, analizando la diversidad
de instancias comparativas e identificando áreas del espacio de instancias donde ciertos algoritmos funcionan mejor. que otros para admitir
la selección automática de ritmos de algoritmos. Además, se extiende a la generación de instancias que maximizan la diferencia de
rendimiento entre algoritmos para resaltar sus fortalezas y debilidades. ISA ya ha sido probado para diferentes tareas de aprendizaje de
ML, incluida la clasificación (Munoz et al., 2017), la regresión (Munoz et al., 2021) y la agrupación (dos Santos Fernandes et al., 2021). Su
˜ ˜
aplicación también se muestra en diferentes problemas, como la secuenciación de automóviles (Sun et al., 2020), la programación fuerzadelaboral
la
rotativa (Kletzander et al., 2020) y la detección de valores atípicos (Kandanaarachchi et al., 2019). Varios estudios recientes también
abordaron la cobertura de los problemas de optimización de un solo objetivo y de múltiples objetivos e investigaron su distribución en el
espacio del problema para crear conjuntos de referencia más imparciales (Skvorc et al., 2020; Yap et al., 2020; Lang & Engelbrecht , 2021).
La principal diferencia del oleoducto recién propuesto con el ÿ

2
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

ISA es que realiza análisis solo en el espacio de características (es decir, el paisaje del problema), enfocándose solo en la
distribución del conjunto de datos sobre el espacio del problema y no investigando las relaciones con el espacio de
desempeño. Esto significa que el análisis no se ve afectado por los algoritmos de ML involucrados en el análisis, y ayuda a
comprender el panorama del problema sin importar en qué algoritmos de ML se probará más.

Estudios TSC. Hicimos una descripción general de 8 artículos recientes sobre TSC publicados durante el último año
(2020-2021) (Anthony Bagnall & Keogh, 2021), donde se introdujeron métodos novedosos. Seleccionamos estos documentos
porque queremos comprobar cuáles son las prácticas de evaluación comparativa más utilizadas en la actualidad.
Del análisis realizado a estos artículos, concluimos que, si bien todos estos artículos se publicaron poco después de la última
actualización del archivo de la UCR (en 2018), los autores comparan los algoritmos con la versión anterior, es decir, con los
85 conjuntos de datos de la versión 2015 del archivo, que son todas series temporales univariadas de longitud fija. De los 8
artículos que revisamos, cuatro de ellos (Cabello et al., 2020; Fawaz et al., 2020; Dempster et al., 2020; Shifaz et al., 2020)
utilizan la versión 2015 del archivo de la UCR, uno de los cuales (Fawaz et al., 2020) utiliza un conjunto de datos TSC
univariante sintético adicional, con la intención de controlar la longitud de los datos de la serie temporal, así como el número
de clases y su distribución en el tiempo. Solo uno de estos cuatro estudios (Dempster et al., 2020) realiza una evaluación
adicional de su metodología propuesta en los 43 conjuntos de datos recientemente agregados a la versión 2018 del archivo
UCR. Una cosa importante a tener en cuenta aquí es que los análisis de referencia en el archivo de la versión UCR 2018 se
realizan en 112 de los 128 conjuntos de datos, eliminando cualquier conjunto de datos que tenga una longitud desigual o
que contenga valores faltantes, se proporciona un resumen de estos 112 conjuntos de datos en (Matthew Middlehurst, 2021)

1.
Un cambio adicional que es común (Middlehurst et al., 2021; 2020a;b) es eliminar el conjunto de datos Fungi, ya
que solo proporciona un único caso de tren para cada clase. Del análisis realizado, concluimos que el enfoque de evaluación
comparativa más comúnmente utilizado es involucrar todos los conjuntos de datos que están disponibles en alguna versión
del repositorio de UCR y luego realizar un análisis estadístico del rendimiento de los algoritmos logrado en ellos.

3 LÍNEA DE ANÁLISIS DEL PAISAJE

La Figura 1 presenta la canalización propuesta para el análisis del paisaje de los conjuntos de datos de ML. Consta de tres
partes: i) definición de una representación compartida: donde se calculan las características de las instancias de datos (es
decir, características) (es decir, extracción de características) para definir una representación compartida entre diferentes
conjuntos de datos; ii) análisis complementario: donde las instancias de datos se agrupan para encontrar instancias similares
(ya sea del mismo conjunto de datos o de diferentes) que cubran el mismo espacio problemático. Este análisis nos ayuda a
comprender cómo las instancias de diferentes conjuntos de datos se complementan entre sí para producir un buen punto de
referencia; y iii) evaluación estadística de arranque, donde los resultados del análisis del paisaje se utilizan para seleccionar
una cartera de conjuntos de datos de referencia para participar en la prueba de hipótesis del rendimiento de los algoritmos de ML.

Para demostrar cómo se ejecuta la canalización propuesta, consideramos un caso de uso en el análisis de series de tiempo
univariado. Los cuadros grandes presentados en la figura son los pasos que se realizan para un problema de ML arbitrario.
Los detalles dentro de los recuadros son específicos para el problema de ML, es decir, la clasificación de series de tiempo
demostrada aquí. En el resto de la sección, todas las partes de la tubería se analizan con más detalle específicamente para
datos de series temporales. En general, la aplicabilidad de la metodología está relacionada con la existencia de representación
compartida (es decir, meta-características) para el problema de ML que se está resolviendo, lo cual es completamente otro
objetivo y no es el enfoque de este documento. Sin embargo, hoy en día, con el enorme progreso realizado en el aprendizaje
de representaciones, encontrar una representación para diferentes tareas de aprendizaje de ML no debería ser un problema.
La idea clave detrás de la representación o encontrar un conjunto de metacaracterísticas compartidas en diferentes conjuntos
de datos es proyectarlos en el mismo espacio incrustado.

3.1 DEFINICIÓN DE UNA REPRESENTACIÓN COMPARTIDA / EXTRACCIÓN DE CARACTERÍSTICAS

La metodología de análisis del paisaje requiere una representación compartida de las instancias de los diferentes conjuntos
de datos. Los conjuntos de datos se originan en varios dominios de aplicación donde las diferentes características de la serie
temporal pueden ser relevantes. Por ejemplo, la presencia o ausencia de una determinada forma en la serie temporal (p. ej.,
la ausencia del intervalo T en la fibrilación supraventricular) es relevante a la hora de distinguir las especificidades de las
diferentes clases al clasificar las señales de ECG (Kaplan Berkaya et al., 2018). ). En

1
https://sites.google.com/view/icdm-cif/home

3
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

Extracción Análisis análisis


de características complementario estadístico

Agrupación
Bases de datos tsfresh COMO
jerárquica Prueba de hipótesis

Figura 1: canalización de análisis de paisaje para conjuntos de datos de ML. (Los iconos del diagrama de flujo están tomados
de (SL, 2021))

otros conjuntos de datos que describen el problema de la detección de movimiento, por ejemplo, las características que
representan la ráfaga de la señal (por ejemplo, mayor estacionariedad temporal) son más importantes.

Teniendo en cuenta los diversos problemas como parte del punto de referencia UCR TSC, consideramos un amplio conjunto
de extractores de características de series temporales de múltiples dominios recopilados en tsfresh (Christ et al., 2018). Tsfresh
es una biblioteca para la extracción de características globales y locales de series temporales. Las características recopiladas
se originan en diversas áreas científicas, lo que produce diversas vistas complementarias sobre las instancias de series
temporales individuales. En general, consideramos 8 grupos de características, a saber: características estadísticas, teóricas
de la información, basadas en modelos, estacionarias, fractales, basadas en frecuencia (transformada de Fourier y wavelet),
simbólicas y específicas de dominio. En este trabajo, usamos 794 características para cada conjunto de datos.

3.2 ANÁLISIS COMPLEMENTARIO

Para evaluar las diferencias estructurales entre las instancias del conjunto de datos, realizamos un análisis complementario
sobre las instancias. El análisis complementario se realiza en dos pasos: aprender una representación de mapa autoorganizado
(SOM) y agrupar las representaciones SOM aprendidas para encontrar instancias de datos similares.

Representación de mapas autoorganizados. Usamos SOM como un paso previo para el agrupamiento, ya que la reducción
de la dimensionalidad y el agrupamiento en cuadrícula es un ajuste natural al contrastar las estructuras cuantificables y
topográficas del espacio de representación de instancias (Yang et al., 2012). Además, favorece la interpretación de las
similitudes entre las instancias de datos (Kaski & Lagus, 1996). La calidad de los SOM generados se evalúa en términos del
error de cuantificación y el error topográfico. Al entrenar un modelo SOM, ambas medidas están sujetas a minimización. Dado
que la evaluación se trata como un problema de optimización multiobjetivo (es decir, dos objetivos), el resultado de la evaluación
es un frente de Pareto, que consta de soluciones que son pares de cuantización y errores topográficos. Para seleccionar el
mejor SOM, adoptamos una estrategia de toma de decisiones basada en maximizar la cantidad de varianza explicada como
medida de calidad.

Agrupación jerárquica. El resultado de SOM es un mapa que consta de celdas compuestas por las diferentes instancias de
series temporales que se encuentran dentro. Cada una de las celdas está representada por su libro de códigos prototípico
único. La cantidad de celdas de SOM puede ser grande, lo que lleva a una especificación excesiva de las propiedades
compartidas entre las diferentes instancias. Para fomentar el uso práctico de las asignaciones obtenidas (por ejemplo, al
acceder al rendimiento de los diferentes algoritmos), agrupamos aún más los libros de códigos de SOM. Los libros de códigos
se agruparon utilizando un agrupamiento jerárquico aglomerativo. El grupo que se obtiene para cada libro de códigos se asigna
además a todas las instancias de datos de series temporales que le pertenecen. Por tanto, se consigue un mayor nivel de
especificación de las instancias. En última instancia, esto mejora la interpretabilidad y la comprensión del análisis del paisaje.

3.3 ANÁLISIS ESTADÍSTICO

El resultado del análisis del paisaje es una distribución de los conjuntos de datos (es decir, grupos de conjuntos de datos) a lo
largo del panorama del problema. Usamos los grupos para seleccionar una cartera de conjuntos de datos de referencia que se
distribuirá uniformemente en todo el panorama del problema. Además, la cartera seleccionada se utilizará para realizar un
análisis estadístico del rendimiento de los algoritmos. Se requiere este tipo de selección de cartera de conjuntos de datos de
referencia para proporcionar una evaluación justa y sólida, no sesgada por una representatividad excesiva o insuficiente en el
espacio del problema que puede ser favorable solo para algunos algoritmos ajustados en esas partes del panorama del
problema.

4
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

Matriz de cobertura. La distribución de los conjuntos de datos en el panorama del problema se proporciona como una
matriz de cobertura. En la matriz de cobertura, las filas corresponden a los diferentes conjuntos de datos y las columnas
a los diferentes conglomerados. Como tal, proporciona información sobre el porcentaje de cada conjunto de datos que
pertenece a cada clúster. Dado que el mismo conjunto de datos se puede distribuir entre diferentes clústeres (es decir,
tener algún porcentaje de instancias que les pertenecen), los conjuntos de datos entre clústeres pueden superponerse.
Para evaluar el grado en que el punto de referencia puede proporcionar una evaluación justa y sólida, debemos garantizar
una cobertura uniforme sobre el panorama del problema. Para evitar la redundancia en la selección de conjuntos de
datos entre diferentes conglomerados, se deben identificar los conjuntos de datos representativos de cada conglomerado.
Por lo tanto, adoptamos una técnica de umbral que especifica el porcentaje de instancias de conjuntos de datos que
deben conservarse en el clúster, de modo que el conjunto de datos se considere representativo del propio clúster.

Prueba de hipótesis. Para probar el resultado de la cartera seleccionada de conjuntos de datos de referencia, se
compararon 14 algoritmos de clasificación de clases múltiples utilizando la precisión como medida de rendimiento. Nos
gustaría señalar que no estamos entrenando los algoritmos de series temporales de clasificación multiclase, sino que
estamos utilizando los resultados de rendimiento de los algoritmos que están disponibles públicamente en (Ruiz et al.,
2021). La comparación se realizó utilizando un enfoque de arranque que involucró la prueba de hipótesis del rendimiento
de los algoritmos (es decir, comparar los algoritmos varias veces utilizando diferentes carteras seleccionadas de conjuntos
de datos de referencia). Al comparar los algoritmos varias veces en diferentes muestreos de los representantes de cada
grupo, probamos la consistencia y solidez del resultado estadístico (es decir, si existe significación estadística entre el
rendimiento de los algoritmos). El enfoque de ping de arranque nos permite explorar si los resultados son sólidos si
repetimos la prueba de hipótesis utilizando diferentes conjuntos de datos de referencia que cubren uniformemente el
espacio de todas las posibles distribuciones de conjuntos de datos.

4 EVALUACIÓN

En esta sección, proporcionamos detalles sobre los datos y los experimentos realizados. Realizamos los experimentos
utilizando el repositorio UCR, que contiene 128 conjuntos de datos (Dau et al., 2018).2

4.1 EXTRACCIÓN DE CARACTERÍSTICAS

Para representar las instancias en un espacio de representación compartido, usamos 63 métodos de funciones de la
biblioteca tsfresh. Parametrizamos los métodos de funciones con sus valores predeterminados, un procedimiento que
resultó en 794 funciones para cada uno de los 128 conjuntos de datos. Debido a la escasez de conjuntos de datos con
longitudes desiguales de la serie temporal por clase, como artefacto potencial en el punto de referencia, se excluyeron
15 conjuntos de datos en los experimentos posteriores. En total, el benchmark se presentó con 113 conjuntos de datos
(la lista de los conjuntos de datos incluidos en este estudio está disponible en nuestro repositorio de GitHub). Algunas de
las características no eran computables para conjuntos de datos específicos y se eliminaron. Para tener en cuenta el
espacio vectorial numérico, se eliminaron todas las características no numéricas. Finalmente, esto resultó en un total de
324 características utilizadas en el análisis. No realizamos ninguna selección de funciones adicional, porque las instancias
provienen de diferentes naturalezas de series temporales. Además, probamos la expresividad de todas las funciones
introducidas para representar instancias de series temporales.

4.2 ANÁLISIS COMPLEMENTARIO

Representación de SOM. Utilizamos el paquete kohonen R (Wehrens et al., 2007; Wehrens & Kruis selbrink, 2018)
para generar SOM con una topología hexagonal y un radio en el rango de 2,65 a -2,65. La tasa de aprendizaje se fijó
inicialmente en 0,05 y disminuyó a 0,01, en un conjunto de 100 actualizaciones, y se utilizó la suma de cuadrados como
función de distancia. Estos son los valores predeterminados para los parámetros en la versión 3.0.10 de la biblioteca
kohonen. Para encontrar el mejor SOM para los datos, utilizamos una búsqueda en cuadrícula de mapas cuadrados a
partir de 25 × 25 a 50 × 50. El rango se eligió mediante experimentación empírica a priori, utilizando la fórmula del informe
de Kohonen como fórmula inicial para estimar la cuadrícula del SOM. .
Para seleccionar el mejor SOM, el resultado de la evaluación es un frente óptimo de Pareto (es decir, un conjunto de
aproximación), con dos soluciones no dominadas (configuraciones SOM: 35×35 y 48×48). Al final, optamos por trabajar
con 48×48 SOM, ya que tiene un mayor porcentaje de varianza explicada (es decir, 89,49%).

2
Para fines de reproducibilidad, abrimos el código, los datos y todos los resultados que complementan
el documento en https://anonymous.4open.science/r/stamp-C6F2/README.md. Los experimentos se
realizaron en un sistema con CPU Intel i7 9750H y 16 GB de memoria con Ubuntu 18.04.

5
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

Con las configuraciones seleccionadas, terminamos con 2.304 celdas representadas con sus libros de códigos.
Los resultados para SOM 35×35 tienen un porcentaje de varianza explicada del 85,65%.

Agrupación jerárquica. Las celdas de SOM representadas con sus libros de códigos se agruparon aún más con un
agrupamiento jerárquico aglomerado (paquete de Python scikit-learn versión 0.24.2 (Pe dregosa et al., 2011)) para formar
menos grupos. Los grupos de SOM se fusionaron en función del enlace promedio y la distancia del coseno entre los
vectores del libro de códigos. La distancia del coseno se usa a menudo cuando se agrupan datos de alta dimensión
debido a que depende solo de la dirección de los vectores y no de su longitud. En comparación con otras medidas de
distancia comúnmente utilizadas (Euclidiana, Manhattan, etc.), la distancia del coseno no es tan sensible a los valores
atípicos (Shirkhorshidi et al., 2015) y, por lo tanto, se seleccionó como la medida de distancia más adecuada. Debido a
la presencia de valores atípicos, el uso de métricas sensibles a valores atípicos como la distancia euclidiana produjo un
grupo con una mayoría de elementos y pocos grupos pequeños.
Al realizar un agrupamiento jerárquico, la decisión debe tomarse sobre la cantidad de agrupamientos que queremos
como resultado. Con base en la maximización de las puntuaciones de la silueta de la distancia del coseno (Rousseeuw,
1987), una métrica que determina la calidad del agrupamiento en función de la distancia media dentro del cúmulo y la
distancia media del cúmulo más cercano, se determinó que un número local óptimo de agrupamientos era 6. El uso de
una mayor cantidad de conglomerados puede producir conglomerados que tienen puntajes de silueta más altos, donde
los conjuntos de datos se fragmentan/distribuyen en múltiples conglomerados. Sin embargo, para determinar la cantidad
de grupos, también tuvimos en cuenta la pureza de los grupos y minimizamos el número de instancias del mismo
conjunto de datos pertenecientes a diferentes grupos.

4.3 EVALUACIÓN ESTADÍSTICA

Matriz de cobertura. La Figura 2 muestra la distribución de los conjuntos de datos dentro de los conglomerados, es
decir, el porcentaje de instancias de conjuntos de datos que pertenecen a cada conglomerado. Como se puede ver en la
Figura 2, 46 de los conjuntos de datos pertenecen solo a un grupo. El uso de solo uno de estos conjuntos de datos no
cubrirá todo el panorama del problema y puede conducir a una evaluación sesgada. También podemos observar que
uno de los clústeres contiene instancias de un solo conjunto de datos, que son el 0,02 % de las instancias del conjunto
de datos UWaveGestureLibraryZ. Esto indica que hay partes del panorama que no están completamente cubiertas por el
punto de referencia e introduce una dirección para una mayor extensión con nuevas instancias. Los clústeres 1 a 6
contienen instancias de 65, 53, 7, 68, 55 y 1 conjunto de datos único, respectivamente. En promedio, cada clúster
contiene instancias de 41,5 conjuntos de datos diferentes, lo que significa que aunque el punto de referencia contiene
una gran cantidad de conjuntos de datos, las instancias en estos conjuntos de datos cubren áreas similares del espacio
de la instancia del problema, es decir, el punto de referencia no satisface la calidad de no redundancia. requisito.

También podemos observar que las instancias de algunos conjuntos de datos de naturaleza similar se distribuyen de manera similar.
racimos Por ejemplo, todas las instancias de los conjuntos de datos SemgHandGenderCh2, SemgHandMovementCh2,
SemgHandSubjectCh2 se asignan al clúster cinco, todas las instancias de los conjuntos de datos ProximalPhalanx
OutlineAgeGroup, ProximalPhalanxOutlineCorrect, ProximalPhalanxTW pertenecen al clúster cuatro, todas las instancias
de los conjuntos de datos NonInvasiveFetalECGThorax1 y NonInvasiveFetalECGThorax2 están en el clúster uno, etc.
casos en los que no todas las instancias de un conjunto de datos se distribuyen en un solo grupo, las instancias de
diferentes conjuntos de datos que son de naturaleza similar se distribuyen en los mismos grupos. Tales ejemplos son los
conjuntos de datos CricketX, CricketY, CricketX y los conjuntos de datos Freez erRegularTrain y FreezerSmallTrain. Esto
sugiere que los SOM y la subsiguiente agrupación pueden capturar conjuntos de datos relacionados y mapearlos cerca
en el espacio vectorial.

Resultados de la prueba de hipótesis. Para seleccionar los conjuntos de datos representativos de cada conglomerado
que pueden participar más en la comparación, establecemos un umbral del 90 % (consulte la matriz de cobertura, Figura
2). Significa que un conjunto de datos puede ser representativo de un clúster, si el clúster contiene al menos el 90 % de
las instancias del conjunto de datos. El umbral se seleccionó con fines ilustrativos. Usando este criterio, seleccionamos
23, 9, 5, 25, 16 conjuntos de datos para el primer, segundo, tercero, cuarto y quinto grupo, respectivamente.
El sexto conglomerado se omitió del muestreo, ya que no tenía un conjunto de datos representativo y contenía solo el
0,02 % de las instancias en el único conjunto de datos presente. También se probaron diferentes umbrales (es decir, 50
%, 80 % y 100 %) y los resultados están disponibles en nuestro repositorio de GitHub. Excluimos cinco conjuntos de
datos del análisis, ya que no se habían probado todos los algoritmos en ellos: Fungi, NonInvasiveFetalECGThorax1,
HandOutlines, NonInvasiveFetalECGThorax2 y FordB.

Cada comparación se realizó mediante la prueba de Friedman (paquete R scmamp versión 0.2.55 (Calvo & Santafe,
2015)) y se utilizó la prueba posthoc de Nemenyi (paquete R PMCMR versión 4.3 (Pohlert, 2014)) para encontrar si
existe significancia estadística. entre el rendimiento de todas las comunicaciones por pares

6
Machine Translated by Google
En revisión como documento de conferencia en ICLR 2022

0,00 0,00 0,00 0,00 100,00 0,00 0,14 0,69 0,00 99,17 0,00 0,00 0,00 75,00 0,00 25,00 0,00 0,00
0,00 0,38 0,00 99,62 0,00 0,00 76,78 0,47 0,00 100,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00
0,00 22,75 0,00 0,00 2,78 1,11 0,00 96,11 0,00 99,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00
0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 11,47 0,00 81,20
100,00 0,00 0,00 0,00 0,00 0,00 42,50 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 7,33 0,00
0,00 57,50 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00
97,50 2,50 0,00 0,00 0,00 0,00 0,00 11,51 2,34 96,26 0,00 0,93 0,47 0,00 100,00 0,00 0,13 44,93 0,00 50,80 4,13 0,00 0,00 0,00
0,00 3,66 84,84 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00
95,83 0,00 0,00 4,17 0,00 0,00 0,00 0,00 99,78 0,00 0,00 0,00 0,22 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00
100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
0,00 0,86 0,00 0,00 99,14 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 100,00 0,00 85,00 0,42 0,00 14,58
0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 9,00 0,00 0,00 91,00 0,00 0,00 0,00
0,00 0,00
0,00 98,40 0,00 0,00 1,60 0,00
0,20 63,00 0,00 29,00 7,80 0,00 0,64 26,15 8,27 0,00 0,00 91,73 0,00 0,00 44,09 9,77
0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00
0,00 1,54 71,67 0,00 0,00 0,18 45,95 0,00
0,00 100,00 0,00 0,00
1,41 18,97 0,00 4,23 75,38 0,00 0,38 26,67 0,00 0,00 0,00 17,97 82,03 0,00 0,00 97,87
0,00 0,82 0,00 99,18 0,00 0,00
0,00 1,41 71,54 0,00 0,00 1,07 1,07 0,00
99,99 0,00 0,00 0,01 0,00 0,00
0,00 0,03 0,00 99,97 0,00 0,00 99,07 0,00 4,13 95,87 0,00 0,00 0,00 0,00 4,20 95,80
0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,18
0,00 0,93 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00
0,00 99,38 0,44 0,00
0,00 0,00 FreezerSmallTrain Fungi GunPoint GunPointAgeSpan GunPointMaleVersusFemale GunPointOldVersusYoung Ham HandOutlines Haptics Herring HouseTwenty InlineSkate InsectEPGRegularTrain InsectEPGSmallTrain InsectWingbeatSound ItalyPowerDemand LargeKitchenAppliances Lightning2 Lightning7 Mallat Meat MedicalImages MiddlePhalanxOutlineAgeGroup MiddlePhalanxOutlineCorrect MiddlePhalanxTW MixedShapesRegularTrain MixedShapesSmallTrain MoteStrain NonInvasiveFetalECGThorax1 NonInvasiveFetalECGThorax2 OSULeaf OliveOil PhalangesOutlinesCorrect Phoneme PigAirwayPressure PigArtPressure PigCVP Plane
0,00 0,00
65,49 33,73 0,00 0,69 0,10 0,00
0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00 0,00 2,45 0,44 0,00
PowerCons ProximalPhalanxOutlineAgeGroup ProximalPhalanxOutlineCorrect ProximalPhalanxTW RefrigerationDevices Rock ScreenType SemgHandGenderCh2 SemgHandMovementCh2 SemgHandSubjectCh2 ShapeletSim ShapesAll SmallKitchenAppliances SmoothSubspace SonyAIBORobotSurface1 SonyAIBORobotSurface2 StarLightCurves Strawberry SwedishLeaf Symbols SyntheticControl ToeSegmentation1 ToeSegmentation2 Trace TwoLeadECG TwoPatterns UMD UWaveGestureLibraryAll UWaveGestureLibraryX UWaveGestureLibraryY UWaveGestureLibraryZ Wafer Wine WordSynonyms Worms WormsTwoClass Yoga

0,00 0,00 0,00 67,33 32,67 0,00 6,34 38,06


0,00 100,00 0,00 0,00 15,07 82,03 0,00
0,00 13,43 42,16 0,00 22,29 39,76 0,00 21,69
0,00 11,50 0,00 3,00 85,50 0,00 0,38 98,22 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00
ACSF1 Adiac ArrowHead BME Beef BeetleFly BirdChicken CBF Car Chinatown ChlorineConcentration CinCECGTorso Coffee Computers CricketX CricketY CricketZ Crop DiatomSizeReduction DistalPhalanxOutlineAgeGroup DistalPhalanxOutlineCorrect DistalPhalanxTW ECG200 ECG5000 ECGFiveDays EOGHorizontalSignal EOGVerticalSignal Earthquakes ElectricDevices EthanolLevel FaceAll FaceFour FacesUCR FiftyWords Fish FordA FordB FreezerRegularTrain

16,27 0,00
0,00 0,88 0,52 0,00 0,00 100,00 0,00 0,00
0,00 0,00 0,00 75,00 25,00 0,00
0,00 100,00 0,00 0,00 0,00 0,00 68,37 0,00 0,00 0,00 0,00 100,00 0,00 0,00 100,00 0,00
0,34 99,66 0,00 0,00 0,00 0,00 0,00 0,00 0,00
31,22 0,28 0,14 0,00 80,66 0,00 17,82 0,14 0,00 0,00 0,00 0,00 100,00 0,00 0,00 0,00 0,00
1,38 0,00 0,00 100,00 0,00 0,00
0,00 0,00 0,00 0,00 100,00 0,00 0,44 56,12 9,98 27,59 0,00 57,15 5,27 0,00 100,00 0,00 0,56 0,56 0,00 97,22 1,67 0,00
0,00 42,96 0,47 0,00 0,00 0,00 0,00 0,00 99,75 0,02 0,00 0,22 0,00 0,00 75,19 3,08
100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,13 0,00 100,00 0,00 0,00 0,00 0,00 0,00 20,59 4,52 0,00 21,17 0,56 0,00 67,57 6,34 0,00 25,82
0,00 99,87 0,00 0,00 63,57 11,31 0,00 0,27 0,00
0,89 6,25 0,00 92,86 0,00 0,00 1,24 11,07 100,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 76,22 3,71 0,00 19,50 0,56 0,02
0,00 0,04 87,64 0,00 100,00 0,00 0,00 0,00 12,06 0,00 83,93 4,01 0,00 100,00 0,00
50,50 23,87 0,00 9,39 16,24 0,00 99,71 0,29 0,43 0,00 0,00 0,00 99,57 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
0,00 0,00 0,00 0,00 0,02 0,06 0,00 0,00 99,92 0,00 100,00 0,00 0,00 0,00 0,00 0,00 100,00 17,24 66,74 0,00 7,96 8,07 0,00
0,00 0,00 59,30 1,55 0,00 38,76 0,39 0,00 59,30 1,55
0,04 0,00 0,00 0,00 99,96 0,00 0,13 0,70 0,00 0,00 0,00 0,00 0,00 100,00 0,00 0,00 67,14 0,00 38,76 0,39 0,00 96,21 0,00 0,00 3,76
99,17 0,00 0,00 0,00 32,86 0,00 0,00 0,03 0,00

Figura 2: Mapa de calor del porcentaje de instancias de conjuntos de datos que pertenecen a cada clúster.

parisons (es decir, múltiples correcciones de valores p de comparación por pares). El nivel de significación se fijó en 0,05. La
prueba de Nemenyi proporciona un valor p para cada par de algoritmos probados en los conjuntos de datos seleccionados.
Si los valores p son mayores o iguales que el nivel de significación, la hipótesis nula no se rechaza (es decir, traducimos esto a
1), de lo contrario, existe una significación estadística entre el desempeño del par de algoritmos comparados (es decir,
traducimos esto a 0).

La Tabla 1 presenta el resultado estadístico de la comparación por pares de algoritmos cuando todos los conjuntos de datos
están involucrados en la comparación (es decir, en nuestro caso 108, después de eliminar 5 conjuntos de datos para los cuales
no se probaron algunos de los algoritmos). Esta es la práctica de evaluación comparativa más utilizada en artículos publicados
recientemente. Mirando los resultados, parece que hay muchos pares de algoritmos donde se encuentra significación
estadística. Sin embargo, debemos tener cuidado al involucrar todos los conjuntos de datos, ya que los conjuntos de datos no
se distribuyen uniformemente en el paisaje que también es visible desde la matriz de cobertura. Esto significa que incluir más
conjuntos de datos de la misma parte del paisaje está a favor de algunos de los algoritmos y el resultado estadístico es
cuestionable.

Tabla 1: Resultados estadísticos obtenidos para cada par de algoritmos en los que se utilizan los 108 conjuntos de datos en la
comparación. Cada celda presenta 1 o 0, donde 1 indica que no hay significancia estadística entre el desempeño del par de
algoritmos y 0 en caso contrario.

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
Catch22 0,00 HIVE-
COTEv1 0 0,00 InceptionTime
0,00 0,00
ProximityForest 1,00 RISE
1,00 0,00 1,00
ROCKET 0,00 ResNet 1,00S- 0,00 0,00 0,00
BOSS 1,00 STC 1,00 0,00 0,00 0,00
1,00 0,00 1,00 1,00 0,00 0,00 1,00
0,00 0,00 0,00 0,00 1,00 0,00 0,00
0,00 0,00 0,00 1,00 0,00 0,00 1.00
0,00 0,00 1,00 0,00 1.00 1.00
TS-JEFE 0.00 0.00 1.00 1.00 0.00 0.00 1.00 0.00 0.00 0.00
TSF 1.00 1,00 0,00 0,00 0,00 1,00 1,00 0,00 0,00 0,00 0,00 0,00
COMADREJA 1.00 0,00 0,00 0,00 0,00 1,00 1,00 0,00 1,00 1,00 1,00 0,00 0,00
cBOSS 1.00 0,00 0,00 0,00 0,00 1,00 1,00 1,00 0,00 1,00 1.00

Dado que los diferentes algoritmos pueden funcionar de manera diferente en la distribución de diferentes conjuntos de datos
(es decir, grupos de conjuntos de datos), realizamos la prueba de hipótesis comparando los algoritmos en los conjuntos de
datos representativos de cada grupo por separado. Para ello, realizamos este análisis para el primer, cuarto y quinto
conglomerado cuando el umbral de selección de los representantes se fijó en el 90%. Se omitieron los grupos segundo, tercero
y sexto debido a que la cantidad de conjuntos de datos representativos es inferior a 10 y no es suficiente para hablar sobre la
significación estadística (es decir, consulte los detalles sobre la prueba de Friedman (Eftimov & Korosec, 2020)). Los resultados
ÿ

obtenidos se presentan en el Apéndice A.1 (ver Tabla 3). Usando los resultados presentados en la tabla, podemos ver que
existen algoritmos que tienen diferentes desempeños usando diferentes grupos de conjuntos de datos. Por ejemplo, usando los
representantes del primer grupo

7
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

no existe significación estadística entre los algoritmos HIVE-COTEv1 0 y S-BOSS. Los mismos resultados también son
ciertos cuando se utilizan los conjuntos de datos representativos del quinto grupo, mientras que existe una significación
estadística entre ellos si los representantes del cuarto conjunto de datos están involucrados en la comparación. Dichos
resultados indican indirectamente que los resultados estadísticos dependen de la cantidad de conjuntos de datos que
se incluirán de cada grupo. Si la cantidad de conjuntos de datos no se distribuye de manera uniforme en todos los
grupos, los resultados estadísticos estarán sesgados hacia el grupo representado con la mayor cantidad de conjuntos
de datos (es decir, la estadística de prueba seleccionada se ve afectada).

Para realizar la prueba de hipótesis de arranque para comparar el rendimiento de 14 algoritmos de clasificación de
clases múltiples, seleccionamos conjuntos de datos que son representativos de cada grupo. El proceso de comparación
se realizó tres veces con respecto al número de conjuntos de datos representativos muestreados de cada grupo. Los
tamaños de muestra utilizados son 2, 3 y 4, lo que significa que los algoritmos se compararon utilizando 10, 15 y 20
conjuntos de datos, respectivamente. En el Apéndice A.2 proporcionamos pautas empíricas sobre cuántos conjuntos
de datos se deben muestrear por conglomerado que depende de la distribución de la matriz de cobertura.
Para cada tamaño de muestra, la comparación se realizó 30 veces (30 veces seleccionando 10, 15 y 20 conjuntos de
datos), para verificar la solidez de los resultados estadísticos. Todas las carteras seleccionadas de conjuntos de datos
de referencia que participan en las comparaciones están disponibles en nuestro repositorio de GitHub. Al repetir esto
30 veces para cada tamaño de muestra por separado y al realizar una suma para cada par de algoritmos, probamos
la solidez de los resultados estadísticos. El enfoque de conteo es solo un indicador si los mismos resultados estadísticos
(es decir, el escenario de corrección de hipótesis múltiples) son sólidos si lo repetimos usando diferentes conjuntos de
datos de referencia que cubrirán uniformemente el espacio de todas las posibles distribuciones de conjuntos de datos.
Se puede encontrar más información sobre el diseño de comparación estadística en el Apéndice A.3.

Las tablas 2a y 2b presentan los resultados estadísticos de arranque obtenidos para cada par de algoritmos donde el
tamaño de muestra de los conjuntos de datos representativos se estableció en 2 y 3, respectivamente. Los resultados
obtenidos cuando el tamaño de las muestras se establece en 4 se presentan en el Apéndice A.4. Cada celda presenta
el número de comparaciones donde no hay significancia estadística entre el desempeño del par de algoritmos, siendo
el número máximo de tales comparaciones 30. Podemos concluir que si el número de tales comparaciones es mayor
a 15 entonces no hay significación estadística entre los rendimientos de los algoritmos y viceversa. Mirando las tablas,
podemos concluir que el resultado estadístico entre los pares de algoritmos es casi consistente ya que proporcionan
resultados estadísticos sólidos. Por ejemplo, independientemente del tamaño de la muestra de los conjuntos de datos
representativos de cada grupo (es decir, 2, 3 o 4), no hay significación estadística de los rendimientos entre (Catch22
y BOSS, todos los tamaños de muestra arrojan 30 de 30) . También hay una pequeña cantidad de inconsistencias
cuando cambia el tamaño de la muestra de los conjuntos de datos representativos (es decir, solo en 3 de los 88 pares).
Por ejemplo, no hay significación estadística entre el desempeño de los algoritmos (TSF y TS-CHIEF) cuando
muestreamos 2 representantes de cada grupo (20 de 30), sin embargo, sí hay significancia estadística entre sus
desempeños cuando muestreamos 3 o 4 representantes de cada clúster (10 de 30 y 2 de 30, respectivamente). No
hay significancia estadística entre los desempeños de (ROCKET y TSF) cuando los tamaños de muestra son 2 o 3 (25
de 30 y 16 de 30, respectivamente), sin embargo, hay una significación estadística cuando el tamaño de muestra se
establece a 4 (7 de 30 comparaciones). También se obtienen los mismos resultados para el par (RISE y TS-CHIEF).

Esto indica que algunos de los algoritmos también pueden tener diferentes desempeños en la misma parte del espacio
del paisaje, lo que abre más caminos para analizar su comportamiento de manera más extensa, centrándose en el
análisis de instancias y las diferentes transformaciones de instancias de datos que se presentan allí.
El enfoque de arranque proporciona resultados estadísticos robustos y reproducibles, lo que no es el caso cuando
diferentes conjuntos de datos están involucrados en la práctica más utilizada. Esto significa que no importa cuántos
conjuntos de datos se incluyan en la comparación (es decir, en nuestro caso 10, 15 o 20), los resultados estadísticos
serán los mismos si cubrieron uniformemente el panorama del problema.

Al realizar un análisis de sensibilidad de seleccionar diferentes umbrales para elegir a los representantes (es decir,
50%, 80%, 90% y 100%), se obtienen resultados estadísticos similares. Tener un umbral más bajo (en nuestro caso
del 50%) indica la presencia de más inconsistencias estadísticas entre pares de algoritmos con respecto a diferentes
tamaños de muestra para el muestreo. En tal caso, esto es de esperar ya que un representante del conjunto de datos
cubre más o igual que la mitad del conjunto de datos y la otra parte podría distribuirse entre los otros grupos. La parte
restante del paisaje del conjunto de datos distribuido en otro/s grupo/s también puede estar a favor de algunos
algoritmos relacionados con esa/esas partes del paisaje. Tener un valor de umbral mayor también significa que se
seleccionan conjuntos de datos más homogéneos como representantes, donde la mayoría de sus instancias (es decir,
el paisaje que cubrieron) pertenecen al mismo grupo.

8
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

En un escenario ideal, deberíamos seleccionar un conjunto de datos que esté distribuido uniformemente en todos los clústeres.
Sin embargo, tal conjunto de datos que se distribuye uniformemente en el panorama del problema no existe.
La selección del umbral para los conjuntos de datos representativos está relacionada con la cantidad de conglomerados. Para seleccionar
ello, se debe investigar la distribución del porcentaje de cobertura de la matriz de cobertura.
Los valores de umbral más altos son más bienvenidos ya que garantizan la pureza de los representantes.
Una forma posible de determinar el número de agrupaciones es también teniendo en cuenta la pureza de las agrupaciones, es decir
minimizando las instancias del mismo conjunto de datos que pertenecen a diferentes clústeres.

Tabla 2: Resultados estadísticos de bootstrapping obtenidos para cada par de algoritmos donde el tamaño de la muestra
de los conjuntos de datos representativos se selecciona con un umbral del 90 %. Cada celda presenta el número de
comparaciones (de 30) donde no se observa significación estadística entre los pares.

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
Coger22 30.00
HIVE-COTEv1 0 30,00 2.00
InceptionTime 30,00 13.00 30.00
ProximityForest 30,00 RISE 28,00 28,00 30.00
30,00 ROCKET 30,00 23,00 29,00 30.00
30,00 ResNet 30,00 S- 7,00 30,00 30,00 29.00 26.00
BOSS 30,00 24,00 30,00 30,00 30,00 30,00 30.00
30,00 30,00 30,00 30,00 30,00 30.00 30.00
STC 30.00 TS- 30,00 30,00 30,00 30,00 30,00 30,00 30,00 30.00
JEFE 30.00 TSF 30.00 6,00 30,00 30,00 29,00 25,00 30,00 30,00 30,00 30,00
COMADREJA 30,00 16,00 23,00 30,00 30,00 25,00 30,00 30,00 30,00 20,00
30.00 cBOSS 30.00 29,00 29,00 30,00 30,00 30,00 29,00 30,00 30,00 30,00 30,00 30,00
29,00 30,00 30,00 30,00 30,00 30,00 30,00 30,00 30,00 30,00 30,00 30.00

(a) Tamaño de la muestra 2

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
Coger22 30.00
HIVE-COTEv1 0 20,00 0.00
InceptionTime 30,00 14.00 30.00
ProximityForest 30,00 RISE 29.00 24.00 30.00
30,00 ROCKET 30,00 7,00 30,00 30.00
27,00 ResNet 30,00 S- 3,00 30,00 30,00 28.00 18.00
BOSS 30,00 STC 26,00 28,00 30,00 30,00 30,00 29.00
30,00 30,00 27,00 30,00 30,00 30,00 29,00 30.00
26,00 30,00 30,00 30,00 30,00 30,00 30.00 30.00
TS-JEFE 25,00 TSF 0,00 30,00 30,00 28,00 12,00 30,00 27,00 28.00 28.00
30,00 30,00 6,00 26,00 30,00 30,00 16,00 30,00 30,00 30,00 10,00
COMADREJA 30,00 30,00 25,00 30,00 30,00 30,00 29,00 30,00 30,00 30,00 23,00 30,00
cBOSS 30,00 29,00 26,00 30,00 30,00 30,00 29,00 30,00 30,00 30,00 26.00 30.00 30.00

(b) Tamaño de la muestra 3

5 CONCLUSIONES

En este documento, hemos propuesto una nueva canalización para el análisis panorámico de conjuntos de datos de ML que nos ayuda
comprender el panorama del problema, nos permite seleccionar una cartera diversa de conjuntos de datos de referencia, y
reducir el sesgo de la evaluación del desempeño utilizando una evaluación de arranque. Los resultados llevados a cabo
El uso de datos de series temporales para la clasificación de clases múltiples ha demostrado que los datos más robustos y reproducibles
se obtienen resultados estadísticos de benchmarking en comparación con los resultados obtenidos por las prácticas de benchmarking
más utilizadas. Además, el nuevo oleoducto propuesto no proporciona una
oportunidad de seleccionar manualmente conjuntos de datos que conducen al resultado deseado del estudio. Además, un análisis de
sensibilidad de los hiperparámetros y técnicas utilizadas en cada paso de la canalización.
será investigado con más detalle. Por lo tanto, diferentes representaciones de series temporales compartidas, como
T-Loss (Franceschi et al., 2019), DTCR (Ma et al., 2019), and TNC (Tonekaboni et al., 2020) will
probarse en lugar de la representación tsfresh para verificar si pueden conducir a resultados estadísticos reproducibles
resultados. Además, diferentes técnicas de reducción de dimensionalidad como PCA (Wold et al., 1987)
también se probará en lugar de SOM, ya que en muchas tareas de ML hay una pequeña cantidad de conjuntos de datos
disponible para la evaluación comparativa. Finalmente, dicha selección de una cartera de conjuntos de datos de referencia también será
investigado para vincular el panorama del problema con el rendimiento logrado por los algoritmos de ML más
en la dirección de los estudios de metaaprendizaje (Vanschoren, 2018).

Con este estudio, no desalentamos el uso de cualquier conjunto de datos TSC existente, todos ellos deben ser
incluido en el repositorio existente. Los profesionales aún pueden usar todos los conjuntos de datos para desarrollar
nuevos algoritmos o resolver un escenario de aplicación específico. El estudio mostró que debemos tomar gran
cuidado al decidir qué conjuntos de datos estarán involucrados en el análisis estadístico de un recién introducido
método. Aún más, para un conjunto de datos TSC recién introducido en el futuro, la canalización propuesta puede
utilizarse como criterio para decidir si el conjunto de datos debe incluirse en una cartera de conjuntos de datos de referencia
O no. Esto se puede hacer observando el panorama del problema que cubre. si es lo mismo
el panorama del problema también está cubierto por otros conjuntos de datos, no hay razón para incluir el conjunto de datos en el
cartera de conjuntos de datos de referencia, y viceversa.

9
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

REFERENCIAS

William Vickers Anthony Bagnall, Jason Lines y Eamonn Keogh. la uea y la ucr
repositorio de clasificación de series temporales (artículos tsc recientes seleccionados), 2021. URL www.
timeseriesclassification.com.

A. Bagnall, Jason Lines, Aaron Bostrom, J. Large y Eamonn J. Keogh. La gran serie del tiempo
horneado de clasificación: una revisión y evaluación experimental de avances algorítmicos recientes.
Minería de datos y descubrimiento de conocimientos, 31:606 – 660, 2016.

Thomas Bartz-Beielstein, Carola Doerr, Jakob Bossek, Sowmya´ Chandrasekaran,


˜ Tome Eftimov,
Andreas Fischbach, Pascal Kerschke, Manuel Lopez-Ib a´nez, Katherine Mary Malan, Jason H.
Moore, Boris Naujoks, Patryk Orzechowski, Vanessa Volz, Markus Wagner y Thomas Weise.
Benchmarking en optimización: mejores prácticas y problemas abiertos. CoRR, abs/2007.03488, 2020.
URL https://arxiv.org/abs/2007.03488.
Néstor Cabello, Elham Naghizade, Jianzhong Qi y Lars Kulik. Series temporales rápidas y precisas
clasificación a través de búsqueda de intervalo supervisada. En 2020 Conferencia internacional IEEE sobre datos
Minería (ICDM), págs. 948–953. IEEE, 2020.

Borja Calvo y Guzmán Santafé. scmamp: Comparación estadística de múltiples algoritmos en múltiples problemas.
The R Journal, Aceptado para publicación, 2015.

Gavin C. Cawley y Nicola LC Talbot. Sobre el ajuste excesivo en la selección del modelo y el subsiguiente sesgo de
selección en la evaluación del desempeño. Revista de investigación sobre aprendizaje automático, 11(70):2079–2107,
2010. URL http://jmlr.org/papers/v11/cawley10a.html.

Maximilian Christ, Nils Braun, Julius Neuffer y Andreas W. Kempa-Liehr. Función de serie temporal
extracción sobre la base de pruebas de hipótesis escalables (tsfresh, un paquete de python). neurocomputacion,
307:72–77, 2018.

Hoang Anh Dau, Anthony J. Bagnall, Kaveh Kamgar, Chin-Chia Michael Yeh, Yan Zhu,
Shaghayegh Gharghabi, Chotirat Ann Ratanamahatana y Eamonn J. Keogh. El archivo de series
temporales de la UCR. CoRR, abs/1810.07758, 2018. URL http://arxiv.org/abs/1810.07758.
Angus Dempster, Franc¸ois Petitjean y Geoffrey I Webb. Rocket: clasificación de series de tiempo excepcionalmente
rápida y precisa utilizando núcleos convolucionales aleatorios. Minería de datos y conocimiento
Descubrimiento, 34(5):1454–1495, 2020.

Luiz Henrique dos Santos Fernandes, Ana Carolina Lorena y Kate Smith-Miles. Hacia la comprensión de los problemas
y algoritmos de agrupamiento: un análisis del espacio de instancias. Algoritmos, 14(3):95,
Marzo 2021. doi: 10.3390/a14030095. URL https://doi.org/10.3390/a14030095.
ÿ

Tomé Eftimov y Peter Korosec. Análisis estadísticos para algoritmos de optimización estocástica meta-heurística: tutorial
de Gecco 2020. En Proceedings of the 2020 Genetic and Evolutionary Compu tation Conference Companion, págs.
724–746, 2020.

Hassan Ismail Fawaz, Benjamin Lucas, Germain Forestier, Charlotte Pelletier, Daniel F Schmidt,
Jonathan Weber, Geoffrey I Webb, Lhassane Idoumghar, Pierre-Alain Muller y Franc¸ois Petit jean. Inceptiontime:
encontrar alexnet para la clasificación de series temporales. Minería de datos y conocimiento
Descubrimiento, 34(6):1936–1962, 2020.

Jean-Yves Franceschi, Aymeric Dieuleveut y Martin Jaggi. Representación escalable no supervisada


aprendizaje para series temporales multivariadas. En la Trigésima Tercera Conferencia sobre Procesamiento de Información Neural
Systems, volumen 32. Curran Associates, Inc., 2019.

Bing Hu, Yanping Chen y Eamonn Keogh. Clasificación de series temporales de transmisión bajo supuestos más
realistas. Minería de datos y descubrimiento de conocimientos, 30(2):403–437, junio de 2015. doi: 10.
1007/s10618-015-0415-0. URL https://doi.org/10.1007/s10618-015-0415-0.
Sevvandi Kandanaarachchi, Mario A. Muñoz y Kate Smith-Miles. Análisis del espacio de instancias para la detección
de valores atípicos no supervisados. En Actas del 1er Taller de Evaluación y Experimentación
Diseño en Minería de Datos y Aprendizaje Automático en el mismo lugar que la Conferencia Internacional SIAM
on Data Mining (SDM 2019), Calgary, Alberta, Canadá, 4 de mayo de 2019, págs. 32–41, 2019. URL
http://ceur-ws.org/Vol-2436/article_4.pdf.

10
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

Selcan Kaplan Berkaya, Alper Kursat Uysal, Efnan Sora Gunal, Semih Ergin, Serkan Gunal y M. Bilginer Gulmezoglu.
Una encuesta sobre el análisis de ecg. Control y procesamiento de señales biomédicas, 43:216–235, 2018.

Samuel Kaski y Krista Lagus. Comparación de mapas autoorganizados. En Redes neuronales artificiales: ICANN 96,
págs. 809–814. Springer Berlín Heidelberg, 1996. doi: 10.1007/3-540-61510-5 136.
URL https://doi.org/10.1007/3-540-61510-5_136.

Eamonn Keogh y Shruti Kasetty. Minería de datos y descubrimiento de conocimientos, 7(4):349–


371, 2003. doi: 10.1023/a:1024988512476. URL https://doi.org/10.1023/a: 1024988512476.

Lucas Kletzander, Nysret Musliu y Kate Smith-Miles. Análisis del espacio de instancias para un
problema de programación de personal. Annals of Mathematics and Artificial Intelligence,
89(7):617–637, abril de 2020. doi: 10.1007/s10472-020-09695-2. URL https://doi.org/10.1007/
s10472-020-09695-2.

Ryan Dieter Lang y Andries Petrus Engelbrecht. Un banco exploratorio basado en el análisis del paisaje
conjunto de marcas. Algoritmos, 14(3):78, 2021.

Qianli Ma, Jiawei Zheng, Sen Li y Gary W Cottrell. Representaciones de aprendizaje para la agrupación de series
temporales. Avances en los sistemas de procesamiento de información neuronal, 32:3781–3791, 2019.

Anthony Bagnall Matthew Middlehurst, James Large. Información y datos de respaldo para el
documento "el clasificador de bosque de intervalo canónico (cif) para la clasificación de series
temporales", 2021. URL https://sites.google.com/view/icdm-cif.

Matthew Middlehurst, James Large y Anthony Bagnall. El clasificador de bosque de intervalo canónico (cif) para la
clasificación de series de tiempo. En la Conferencia Internacional IEEE de 2020 sobre Big Data (Big Data), págs.
188–195. IEEE, 2020a.

Matthew Middlehurst, James Large, Gavin Cawley y Anthony Bagnall. El clasificador de conjunto de diccionario temporal
(tde) para la clasificación de series temporales. En Conferencia Europea Conjunta sobre Aprendizaje Automático y
Descubrimiento de Conocimiento en Bases de Datos, págs. 660–676. Springer, 2020b.

Matthew Middlehurst, James Large, Michael Flynn, Jason Lines, Aaron Bostrom y Anthony Bagnall. Hive-cote 2.0: un
nuevo metaconjunto para la clasificación de series temporales. preimpresión de arXiv arXiv:2104.07551, 2021.

˜
Mario A. Muñoz, Laura Villanova, Davaatseren Baatar y Kate Smith-Miles. Espacios de instancia
para la clasificación de aprendizaje automático. Machine Learning, 107(1):109–147, diciembre
de 2017. doi: 10. 1007/s10994-017-5629-5. URL https://doi.org/10.1007/s10994-017-5629-5.
´ ˜
Mario Andrés Muñoz, Tao Yan, Matheus R. Leal, Kate Smith-Miles, Ana Carolina Lorena, Gisele L.
ˆ
Pappa y Rómulo Madureira Rodrigues. Un análisis de espacio de instancias de problemas de regresión.
ACM Transactions on Knowledge Discovery from Data, 15(2):1–25, abril de 2021. doi: 10.1145/
3436893. URL https://doi.org/10.1145/3436893.

F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Pretten hofer, R. Weiss, V.
Dubourg, J. Vanderplas, A. Passos, D Cournapeau, M. Brucher, M. Perrot y E. Duchesnay. Scikit-learn: aprendizaje
automático en Python. Revista de investigación sobre aprendizaje automático, 12:2825–2830, 2011.

Thorsten Pohlert. El paquete de comparación múltiple por pares de rangos medios (PMCMR), 2014.
URL https://CRAN.R-project.org/package=PMCMR. paquete R.

Peter J Rousseeuw. Siluetas: una ayuda gráfica para la interpretación y validación del análisis de conglomerados.
Revista de matemáticas computacionales y aplicadas, 20: 53–65, 1987.

Alejandro Pasos Ruiz, Michael Flynn, James Large, Matthew Middlehurst y Anthony Bagnall.
El gran horneado de clasificación de series temporales multivariadas: una revisión y evaluación experimental de los
avances algorítmicos recientes. Minería de datos y descubrimiento de conocimientos, 35(2):401–449, 2021.

11
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

Anasua Sarkar, Yang Yang y Mauno Vihinen. Conjuntos de datos de referencia de variación: actualización, criterios,
calidad y aplicaciones. Base de datos, 2020, 02 2020. ISSN 1758-0463. doi: 10.1093/base de datos/baz117. URL
https://doi.org/10.1093/database/baz117. baz117.

Gerard CP Schaafsma y Mauno Vihinen. Representatividad de los conjuntos de datos de referencia de variación.
BMC Bioinformatics, 19(1), noviembre de 2018. doi: 10.1186/s12859-018-2478-6. URL https: //
doi.org/10.1186/s12859-018-2478-6.

Ahmed Shifaz, Charlotte Pelletier, Franc¸ois Petitjean y Geoffrey I Webb. Ts-jefe: un algoritmo forestal escalable y
preciso para la clasificación de series temporales. Minería de datos y descubrimiento de conocimientos, 34(3):742–
775, 2020.

Ali Seyed Shirkhorshidi, Saeed Aghabozorgi y Teh Ying Wah. Un estudio de comparación sobre medidas de similitud
y disimilitud en la agrupación de datos continuos. PloS uno, 10(12):e0144059, 2015.
ÿ
ÿ

Urban Skvorc, Tome Eftimov y Peter Koro sec. Comprender el espacio del problema en la
optimización numérica de un solo objetivo mediante el análisis exploratorio del paisaje.
Computación blanda aplicada, 90:106138, mayo de 2020. doi: 10.1016/j.asoc.2020.106138.
URL https://doi.org/10. 1016/j.asoc.2020.106138.

Freepik Company SL Iconos vectoriales y stickers gratis - png, svg, eps, psd, css, 2021. URL
https: //www.flaticon.com/.

Kate Smith-miles, Davaatseren Baatar, Brendan Wreford y Rhyd Lewis. Hacia medidas objetivas del rendimiento de
los algoritmos en el espacio de instancias. Computers & Operations Research, págs. 12 a 24, 2014.

Kate Smith-Miles, Davaatseren Baatar, Brendan Wreford y Rhyd Lewis. Hacia medidas objetivas del rendimiento de
los algoritmos en el espacio de instancias. Computers & Operations Research, 45: 12–24, 2014.

Yuan Sun, Samuel Esler, Dhananjay Thiruvady, Andreas T. Ernst, Xiaodong Li y Kerri Morgan.
Análisis del espacio de instancias para el problema de secuenciación de automóviles, 2020.

Sana Tonekaboni, Danny Eytan y Anna Goldenberg. Aprendizaje de representación no supervisado para series de
tiempo con codificación de vecindad temporal. En Conferencia Internacional sobre Representaciones de
Aprendizaje, 2020.

Joaquín Vanschoren. Metaaprendizaje: una encuesta. preimpresión de arXiv arXiv:1810.03548, 2018.

Ron Wehrens y Johannes Kruisselbrink. Mapas autoorganizados flexibles en kohonen 3.0. Diario
de software estadístico, 87(1):1–18, 2018.

Ron Wehrens, Lutgarde MC Buydens, et al. Mapas autoorganizados y superorganizados en r: el kohonen


paquete. Revista de software estadístico, 21(5):1–19, 2007.

Svante Wold, Kim Esbensen y Paul Geladi. Análisis de componentes principales. Quimiometría y
sistemas de laboratorio inteligentes, 2(1-3):37–52, 1987.

Le Yang, Zhongbin Ouyang y Yong Shi. Un método de agrupamiento modificado basado en mapas autoorganizados
y sus aplicaciones. Procedia Computer Science, 9:1371–1379, 2012. doi: 10.1016/j.procs.
2012.04.151. URL https://doi.org/10.1016/j.procs.2012.04.151.

Estefanía Yap, Mario A. Muñoz, Kate Smith-Miles y Arnaud Liefooghe. Análisis del espacio de
instancias de problemas de optimización combinatoria multiobjetivo. En 2020 Congreso IEEE
sobre Computación Evolutiva (CEC). IEEE, julio de 2020. doi: 10.1109/cec48606.2020.9185664.
URL https: //doi.org/10.1109/cec48606.2020.9185664.

12
Machine Translated by Google

En revisión como documento de conferencia en ICLR 2022

Tabla 3: Resultados estadísticos obtenidos para cada par de algoritmos cuando todos los conjuntos de datos representativos de
cada grupo está involucrado en la comparación por separado (seleccionado con un umbral del 90%). cada celda
presenta 1 o 0, donde 1 indica que no existe significación estadística entre el desempeño de
el par de algoritmos y 0 en caso contrario.

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
Coger22 1.00
HIVE-COTEv1 0 0,00 0.00
InceptionTime 1,00 0.00 1.00
ProximityForest 1.00 0.00 1.00 1.00
RISE 1,00 1,00 0,00 1,00 1.00
ROCKET 0,00 ResNet 0,00 1,00 1,00 1,00 0,00
1,00 S-BOSS 1,00
STC 0,00 1,00 1,00 1,00 1,00 1,00 1.00
1,00 TS-CHIEF 0,00 0,00 1,00 1,00 1,00 1,00 1,00
1,00 1,00 1.00
TSF 1,00 0,00 1,00 1,00 0,00 1,00 1,00
1,00 1,00 1,00 1.00
WEASEL 1,00 0,00 1,00 1,00 1,00 1,00 1,00 1.00 1.00
1,00 0,00 1,00 0,00 1,00 1,00 1,00 1,00 0,00
0,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
cBOSS 1.00 1.00 0.00 1.00 1.00 1.00 0.00 1.00 1.00 1.00 0.00 1.00 1.00

(a) Primer grupo.

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
22 capturas 1.00
HIVE-COTEv1 0 0.00 0.00
Hora de inicio 1.00 0.00 1.00
ProximidadBosque 1.00 1.00 1.00 1.00
RISE 1,00 1,00 0,00 1,00 1.00
ROCKET 0,00 ResNet 0,00 1,00 1,00 1,00 0,00
1,00 S-BOSS 1,00
STC 1,00 1,00 1,00 1,00 1,00 1,00 1.00
1,00 TS-CHIEF 0,00 1,00 0,00 1,00 1,00 1,00 1,00
1,00 0,00 1.00
TSF 1,00 1,00 1,00 1,00 0,00 1,00 1,00
1,00 1,00 1,00 1.00
WEASEL 1,00 cBOSS 0,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 0.00 1.00
1,00 1,00 0,00 1,00 0,00 1,00 1,00 1,00 1,00 0,00
1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
1,00 0,00 1,00 0,00 1,00 0.00 1.00 1.00

(b) Cuarto grupo.

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
Coger22 1.00
HIVE-COTEv1 0 1,00 0.00
InceptionTime 1,00 1,00 1.00
ProximityForest 1,00 RISE 1,00 1,00 0,00 1.00
ROCKET 1,00 1,00 0,00 1.00 1.00
1,00 1,00 1.00 1.00 1.00
ResNet 1.00 1.00 0.00 1.00 1.00 1.00 1.00
S-JEFE 1,00 STC 1,00 1,00 1,00 1,00 1,00 1,00 1.00
1,00 TS-JEFE 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1.00
1,00 TSF 1,00 0,00 1,00 1,00 1,00 1,00 1,00 0,00 1.00 1.00
COMADREJA 1,00 0,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 0,00
1,00 cBOSS 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00
1,00 1,00 1,00 1,00 1,00 1,00 1,00 1.00 1.00 1.00

(c) Quinto grupo.

UN APÉNDICE

A.1 RESULTADOS ESTADÍSTICOS OBTENIDOS A TRAVÉS DE LOS CONJUNTOS DE DATOS DE CADA CLUSTER
POR SEPARADO.

A.2 DIRECTRICES EMPÍRICAS SOBRE CUÁNTOS CONJUNTOS DE DATOS DEBEN SER MUESTRADOS POR CLUSTER

En nuestros experimentos, los conjuntos de datos se han distribuido en 6 grupos, o en realidad en 5 grupos,
donde solo un pequeño porcentaje de un conjunto de datos pertenece al sexto grupo. Empezamos a muestrear con
2 conjuntos de datos de cada grupo y terminó con 10 conjuntos de datos. Esto se hizo desde el momento requerido
no se cumplen las condiciones para el uso seguro de la prueba paramétrica y tenemos muestras pareadas, por lo que
ÿ

debemos continuar con la prueba no paramétrica de Friedman (Eftimov & Korosec, 2020). Para usar la prueba de Friedman,
debemos tener al menos 10 conjuntos de datos para cumplir con la condición de que la prueba de Friedman
la estadística seguirá la distribución Chi-cuadrado. Además, continuamos seleccionando 3 y 4 conjuntos de datos por
agrupar por separado, terminando con 15 y 20 conjuntos de datos. Los resultados mostraron que los resultados estadísticos
obtenidos con 10, 15 o 20 conjuntos de datos son robustos (es decir, casi iguales). El número mínimo de
conjuntos de datos que deben incluirse depende de la prueba estadística ómnibus que se utilizará (es decir, en
la mayoría de los casos, la prueba de Friedman es apropiada aquí), por lo que necesitamos tener al menos 10 conjuntos de datos
que se distribuirá uniformemente en todos los clústeres. El número máximo de conjuntos de datos que se pueden
seleccionado debe ser el número de representantes del grupo más pequeño.

13
Machine Translated by Google
En revisión como documento de conferencia en ICLR 2022

A.3 DISEÑO DE PRUEBAS DE HIPÓTESIS

Cada experimento de arranque es un evento independiente que implica una corrección de hipótesis múltiples
método. Dentro de cada uno, el conjunto de 14 algoritmos de series temporales de clasificación multiclase se compara utilizando un
conjunto de 10, 15 o 20 conjuntos de datos de referencia. La comparación involucra muestras pareadas.
escenario y dado que no se cumplen las condiciones requeridas para el uso seguro de las pruebas paramétricas,
la prueba estadística ómnibus adecuada es la no paramétrica de Friedman. Para ver entre qué parejas
de algoritmos existe significancia estadística, utilizamos además la prueba de Nemenyi que se desarrolla
para todas las comparaciones por pares contra todas. La prueba de Nemenyi implica un método de corrección de hipótesis múltiples,
donde los valores de p se corrigen utilizando la corrección de Bonferroni. Así que cada comparación es una separada
caso de comparar los algoritmos utilizando un conjunto de conjuntos de datos de referencia. Para probar si la misma estadística
el resultado se reproducirá si seguimos el enfoque de selección presentado en este documento, repetimos
cada comparación 30 veces utilizando diferentes conjuntos de conjuntos de datos de referencia. Lo común que somos
cuidar es que la selección de los conjuntos de datos sea siempre uniforme en todas las distribuciones de conjuntos de datos. El
enfoque de conteo es solo un indicador si se obtienen los mismos resultados estadísticos (hipótesis múltiple).
escenario de corrección) son robustos si lo repetimos usando diferentes conjuntos de datos de referencia que uniformemente
cubrir el espacio de todas las posibles distribuciones de conjuntos de datos.

A.4 RESULTADOS ESTADÍSTICOS DE BOOTSTRAPPING CUANDO EL NÚMERO DE MUESTRAS


LOS REPRESENTANTES POR CLÚSTER ESTÁN ESTABLECIDOS EN 4

Tabla 4: Resultados estadísticos de bootstrapping obtenidos para cada par de algoritmos donde la muestra
tamaño de los conjuntos de datos representativos (seleccionados con un umbral del 90 %). Cada celda presenta el número de
comparaciones de 30, donde no hay significancia estadística entre el desempeño del par
de algoritmos.

BOSS Catch22 HIVE-COTEv1 0 InceptionTime ProximityForest RISE ROCKET ResNet S-BOSS STC TS-CHIEF TSF WEASEL
Coger22 30.00
HIVE-COTEv1 0 16.00 0.00
InceptionTime 30.00 4,00 30.00
ProximityForest 30.00 23,00 22.00 30.00
SUBIDA 30.00 30,00 2.00 25.00 30.00
ROCKET 22,00 ResNet 0,00 30,00 30,00 27.00 4.00
30,00 S-BOSS 30,00 20,00 25,00 30,00 30,00 30,00 30.00
STC 30,00 TS-CHIEF 29,00 17,00 30,00 30,00 30,00 26,00 30.00
20,00 TSF 30,00 19,00 28,00 30,00 30,00 29,00 29,00 30,00 30.00
0,00 30,00 30,00 27,00 3,00 30,00
30,00 30,00 29,00 25.00 28.00
30,00 2,00 23,00 7,00 29,00 30,00 30,00 2.00
COMADREJA 30.00 26,00 17.00 30,00 30,00 30,00 27.00 30,00 30,00 30,00 22.00 30.00
cBOSS 30.00 28,00 16.00 29,00 30,00 30,00 22.00 30,00 30,00 30,00 23.00 30.00 30.00

(a) Tamaño de la muestra 4

14

También podría gustarte