Futura Generación de Sistemas Informáticos

Futura generación de sistemas informáticos 102 (2020) 190-197
listas de contenidos ofrecidos en ScienceDirect
Futura generación de sistemas informáticos
revista Página de inicio: www.elsevier.com/locate/fgcs
una máquina, en enfoque de aprendizaje para la predicción de la pérdida de paquetes en los flujos de la ciencia
Anna Giannakou una , * , Dipankar Dwivedi segundo , Sean Peisert una

una Departamento de Tecnología de la Ciencia y de datos, Laboratorio Nacional Lawrence Berkeley, California, EE.UU.
segundo Departamento de Geoquímica, Nacional Lawrence Berkeley Lab, California, EE.UU.
reflejos
• La pérdida de paquetes en las transferencias de datos científicos afecta a la disponibilidad de datos.

• La pérdida de paquetes se manifiesta a través de retransmisiones de paquetes.
• Nuestro marco utiliza la regresión del bosque aleatorio para predecir retransmisiones de paquetes con hasta un 97% de precisión.
• Robusto en cambios de nivel.
• Probado en las transferencias de datos de tamaño arbitrario.
información del artículo resumen
Historia del artículo: Redes de ciencia y sus aplicaciones alojadas requieren transferencias de datos grandes y frecuentes, pero estas transferencias están sujetas a una
Recibido el 1 de de marzo de 2019 degradación del rendimiento de la red, incluyendo demoras de espera y de paquetes de gotas. Sin embargo, la dinámica de la red conocidos a lo largo de
Recibido en forma 14 revisado en junio de 2.019 Accepted 25
la instrumentación con acceso limitado complican la creación de un método preciso que predice diferentes aspectos del rendimiento de las transferencias
de julio de 2.019
de datos. En este estudio, desarrollamos una herramienta de aprendizaje máquina ligera para predecir la retransmisión de paquetes de extremo a extremo
Disponible en línea 1 de agosto de 2019
en los flujos de ciencias de tamaño arbitrario. También identificamos el conjunto mínimo de mediciones de ruta y de destino necesarios como
palabras clave: características de entrada en nuestro predictor con el fin de lograr una alta precisión. En nuestro proceso de evaluación demostró nuestro predictor bajos
La pérdida de paquetes de red tiempos de entrenamiento y fue capaz de proporcionar estimaciones precisas (97% -99%) para las retransmisiones de paquetes de transferencias de datos
rendimiento de tamaños arbitrarios. Los resultados también manifiestan que la nuestra solución fue capaz de predecir el comportamiento de retransmisión
Redes de ciencia de regresión de los razonablemente bien (66%), incluso para los datos inéditos Si la formación y las pruebas de datos tenían estadísticas similares.
bosques al azar
© 2019 Elsevier Todos los derechos reservados.
1. Introducción eventos de degradación después de que ocurran y hasta la fecha no existe un método científico
que predice diferentes eventos de rendimiento negativo está disponible para redes de ciencia.
aplicaciones de la ciencia redes huésped que procesar grandes cantidades de datos derivados de
un conjunto diverso de experimentos complejos. Menudo- veces, estas aplicaciones requieren grandes Soluciones que predicen diferentes aspectos del rendimiento TCP, tales como el rendimiento o
y frecuentes transferencias de datos con los requisitos de rendimiento de red explícitas, tales como la la predicción de la pérdida de paquetes, son en gran medida cados centraron en torno dos
entrega de datos a alta velocidad. En consecuencia, estas transferencias se vuelven muy sensibles a enfoques: fórmula de base y historia-basada
los eventos de degradación de rendimiento. Incluso la más mínima cantidad de pérdida de paquetes predicciones. Fórmula a base de métodos de predecir aspectos de rendimiento usando
puede aumentar significativamente el tiempo de transferencia de datos en general [ 1 ], Que en el expresiones matemáticas que relacionan la variable predicha a propiedades de la ruta y de
contexto de experimentos complejos puede ser interpretada de retrasos en la disponibilidad de datos. destino final, como Round Trip Time (RTT) o el tamaño de la ventana del receptor. En la mayoría
Con el fin de garantizar la disponibilidad oportuna de datos, redes de ciencia cuentan con sistemas de los casos, las mediciones de las propiedades mencionadas anteriormente se recolectan
CATed dedicación (por ejemplo, perfSONAR [ 2 ]) Que son capaces de detectar e informar sobre utilizando diferentes herramientas de medición de red activos o pasivos. Un defecto común de fórmula
eventos de degradación de rendimiento (por ejemplo, aumento de la latencia, la degradación de de base enfoques es que están muy afectados por las implementaciones de TCP en constante
rendimiento). Sin embargo, estos sistemas de transferencia informan evolución, por lo que manteni- miento de hasta modelos basados en la fórmula de fecha un
proceso engorroso. Por otra parte, historia-basada enfoques producen un pronóstico de series de
tiempo del atributo deseado (por ejemplo, pérdida de paquetes), basado en mediciones derivadas
de las transferencias de archivos anteriores, recogidos EI- Ther pasivamente (por ejemplo,
* Autor correspondiente. mediante el seguimiento de un enlace) o activamente (por ejemplo,
Correos electrónicos: agiannakou@lbl.gov (A. Giannakou), DDwivedi@lbl.gov

(D. Dwivedi), sppeisert@lbl.gov (S. Peisert).
https://doi.org/10.1016/j.future.2019.07.053
0167-739X / © 2019 Elsevier Todos los derechos reservados.
A. Giannakou, D. Dwivedi y S. Peisert / futura generación Computer Systems 102 (2020) 190-197 191
que llevan a cabo las transferencias de archivos de diferente tamaño). Aunque para determinados Mirza et al. [ 4 ] Proponer una herramienta de estimación del caudal basado en máquinas
aspectos del rendimiento TCP, historia-basada enfoques tienden a ser más preciso que fórmula de de vectores soporte. La herramienta utiliza múltiples características de nivel de flujo como
base predicciones [ 3 ], Las soluciones existentes se centran principalmente en la predicción de entrada con el fin de predecir el rendimiento de extremo a extremo. A pesar de la precisión de
rendimiento de la red. su solución es considerablemente mayor que los métodos basados en la historia estándar,
El objetivo de este trabajo es el desarrollo de una herramienta de aprendizaje automático sólo se evaluó sobre trazas de red tificial ar- donde sólo se consideraron las rutas de red
ligero precisa para predecir la pérdida de paquetes de extremo a extremo, mani- fested en el específicos. Además, la herramienta no ha sido probado en un alto volumen de tráfico y el
número de paquetes retransmitidos en los flujos de ciencias de tamaño arbitrario. Creemos que la medio ambiente científico.
comprensión de la naturaleza de las retransmisiones de paquetes permitiría a los científicos y los
operadores de red para mitigar la pérdida de paquetes a través de diferentes técnicas de acogida Nunes et al. [ 5 ] utilizar el Marco de expertos máquina técnica de aprendizaje con el
o reconfiguración de flujo. Investigamos la hipótesis de que el paquete retransmisiones se deben fin de proporcionar estimaciones precisas del tiempo de ida y vuelta (RTT) en las
a una combinación de factores relacionados con el '' ruta 'seleccionado' junto con la configuración transferencias TCP. Su marco se adapta rápidamente el valor previsto en base a la
de red anfitrión final. Se argumenta que la exactitud de soluciones basadas en la fórmula puede distancia promedio de RTT previamente predicha a partir del valor real. La solución
ser aumentada por una herramienta que tiene en cuenta las mediciones de la trayectoria y de propuesta se consigue una reducción en el número de paquetes retransmitidos pero el
acogida atributos de las transferencias de datos anteriores. proceso de eva- nente no incluía pruebas con grandes transferencias de archivos o
enlaces de redes congestionadas. Hu et al. [ 6 ] Apuntar en la predicción de RTT entre
dos pares IP específicas (emisor / receptor) en función de su distancia geográfica. Los
Hacia nuestro objetivo de desarrollar un marco analítico sólido para la predicción de la autores recogen sus propias trazas de red mediante el descubrimiento (utilizando
retransmisión nos centramos nuestros esfuerzos en responder a las siguientes preguntas: 1. ¿Cuáles traceroute) los routers intermedios ser- fuente de interpolación y pares de destino.
son necesarias propiedades de la ruta o combinación de propiedades de la ruta con el fin de generar Luego, utilizan la diferencia entre dos pings a fin de calcular las latencias intermedias.
una predicción de tasa Accu? Hacer diferentes combinaciones de parámetros de entrada demuestran Su enfoque no ha sido probado en el contexto del tráfico de la ciencia o de pares de
diferentes niveles de precisión? 2. ¿Es necesario tener en cuenta fin de acogida (es decir, cliente / origen / destino que pertenecen a diferentes organizaciones científicas (con gran
servidor) los parámetros de configuración de red en nuestra predicción? 3. ¿Podemos generar distancia geográfica entre ellos).
predicciones precisas para la transferencia de datos de tamaños arbitrarios? y, finalmente, 4. ¿Cómo

robusta es una historia basada en los cambios en el comportamiento de soluciones de transferencia
de datos? (Por ejemplo, cuando las propiedades de ruta cambian significativamente o cuando los
anfitriones finales se reconfiguran). Paxson et al. [ 7 ] Llevó a cabo un estudio empírico exhaustivo del comportamiento de
TCP se centra en el modelado de diferentes patrones de pérdida de paquetes. Aunque este
trabajo expone una plétora de otras cuestiones, así (por ejemplo, cola retrasos, cuellos de
botella, etc.) También demostró que la distribución de la duración de pérdida de paquetes a
Las contribuciones de este trabajo son:
través de diferentes transferencias TCP granel exhibe varianza infinita. Barford et al. [ 8 ]
• Una máquina herramienta de aprendizaje basado en el peso ligero aleatoria Para- Ampliar este trabajo por medio de buceo en la relación entre la gran latencia trans fer y
est regresión que es capaz de predecir retransmisiones de paquetes en los flujos de eventos de pérdida de paquetes individuales y el servidor / cliente retrasos relacionados. Los
ciencias de tamaño arbitrario. Nuestra predictor tiene en cuenta una combinación de autores se centran sólo en el tráfico HTTP y trazas Alyze an- obtenidos a partir de sólo ocho
propiedades de ruta (incluyendo RTT) y parámetros de host (tales como TCP anfitriones en estrecha proximidad entre sí. Además, su análisis se limitó a los tamaños de
ventana máxima congestión) con el fin de predecir el número de paquetes archivos pequeños (hasta 3,2 MB). Ghasemi et al. [ 9 ] Investigar el efecto de remitente mala
retransmitidos en cada flujo de red. configuración / receptor (por ejemplo, tampón receptor pequeño o servidor lento) a la pérdida
de paquetes y el rendimiento general TCP en entornos de nube. Su trabajo identifica los
• Una evaluación completa de nuestra solución propuesta hecha con restos de flujo del mundo efectos del fin de acogida URACIÓN config en mal desempeño de las transferencias TCP. Su
real que representan las transferencias de datos entre diferentes instalaciones científicas y / o análisis sólo incluye datos de un solo par cliente / servidor de la realización de una pequeña
usuarios finales en todo el mundo. Evaluamos nuestro predictor usando los datos de flujo que transferencia de archivos de 1 MB. Aunque la solución da resultados satisfactorios en
siguen múltiples rutas de red que exhiben un comportamiento fundamentalmente diferentes en comparación con la realidad del terreno, no ha sido evaluada en el contexto de grandes
términos de los parámetros relacionados con TCP (por ejemplo, Round Trip Time, disponible transferencias de datos científicos de alta frecuencia.
rendimiento, etc.). Medimos La exactitud de orientación de nuestra herramienta en diferentes

subconjuntos de los parámetros de entrada con el fin de hacer una recomendación sobre la
combinación más adecuada de la trayectoria y el anfitrión de propiedades relacionadas. Para
gene- predicciones comió en diferentes tamaños, que a propósito entrenar y probar en
En cuanto al desarrollo de expresiones matemáticas que relacionan Cor- diferentes aspectos
conjuntos de datos con las transferencias que oscilan entre unos pocos cientos de megabytes
del rendimiento de TCP con la pérdida de paquetes Abouzeid et al. [ 10 ] Usar un modelo estocástico
a varios gigabytes. El trabajo se organiza de la siguiente manera: Sección 2 describe el trabajo
para predecir el rendimiento de red basado en eventos de pérdida de paquetes de ráfagas. El
relacionado y la Sección 3 describe los conjuntos de datos individuales que se utilizan para el
proceso de evaluación incluyó solamente trazas de paquetes generados a partir de ns simulaciones
análisis, así como la colección y herramientas de agregación utilizado. Nuestra solución y la
tor [ 11 ]. Parisi et al. [ 12 ] Usar cadenas de Markov para correlacionar las pérdidas de paquetes
arquitectura se presenta en detalle en la Sección 4 . aspectos importantes de evaluación y los
debido a tiempo de espera y el rendimiento de flujo de TCP. Su análisis es sólo teórico, sin datos de
resultados obtenidos se presentan en la Sección 5 . Por último, se concluye con importantes
flujo de red reales. Altman et al. [ 13 ] También derivar un modelo estocástico para la pérdida de
observaciones y sugerencias para el trabajo futuro en la Sección 7 .
paquetes y el rendimiento de flujo de la incorporación de tamaño de la ventana del remitente. Los
autores crean larga vida conexiones TCP con grandes transferencias de archivos con el fin de
poner a prueba su enfoque. Sin embargo, el conjunto de datos analizados sólo incluye tres
conexiones TCP.
2. Trabajo relacionado Nuestro trabajo se diferencia de los enfoques descritos anteriormente en dos elementos
fundamentales: En primer lugar, predecimos retransmisión de paquetes en el contexto de las
En esta sección se describe soluciones que utilizan técnicas de aprendizaje automático para transferencias de datos científicos que utilizan trazas de red real a partir de los flujos de datos de tamaño
la predicción de diferentes aspectos del rendimiento de las conexiones TCP. a continuación arbitrario. En segundo lugar, nuestra formación y Test- conjuntos de datos de ING incluyen transferencias
presentamos algunos estudios empíricos para un rendimiento TCP seguido por los modelos entre anfitriones finales en diferentes ubicaciones geográficas (es decir, que varían respectivamente
matemáticos que se utilizan para predecir los diferentes aspectos de un flujo TCP. valores RTT) y los parámetros de configuración de red.
192 A. Giannakou, D. Dwivedi y S. Peisert / futura generación Computer Systems 102 (2020) 190-197
3. datos tabla 1
las características de entrada y su representación TSTAT. Las variables de
entrada campo Tstat

Esta sección describe los datos que se utilizó para probar nuestra solución. Presentamos
las características disponibles y la herramienta de recogida de flujo se utilizó, así como las Tamaño del archivo file_size_MB
duración de caudales duración
modificaciones realizadas en los datos originales.
rendimiento throughput_Mbps
IP de origen src_geoip
Nuestro modelo de predicción de la pérdida de paquetes opera en los datos de flujo. Se define IP de destino dst_geoip
un flujo de red como un identificador de cinco tupla de IP de origen, IP de destino, puerto de origen, ventana de congestión TCP inicial tcp_cwin
puerto de destino y el protocolo de comunicación (TCP o UDP). Nuestros datos se recogen de los 10 RTT promedio tcp_rtt_avg
sistemas mencionados como Los nodos de transferencia de datos (DTNs) ubicada en el Investigación
Centro de Computación Científica Nacional de Energía (NERSC) [ 14 ]. DTNs son explícitamente
dedicado y afinado para realizar grandes transferencias de datos entre la instalación científica
4.0.1. Bosque aleatorio (RF)
NERSC y la comunidad científica exter- nos. Ellos tienden a tener baja latencia, tarjetas de interfaz
Random Bosque Regresor (RFR), demuestra varias propiedades que lo hacen adecuado
de red de alto ancho de banda (NIC) y los sistemas de I / O de- firmado para limitar los cuellos de
para nuestra solución: 1. Se puede aceptar múltiples características o combinación de
botella relacionados con el disco. Una variedad de herramientas tales como Globus [en línea 15 ] Y
características [ 19 ] Y utilizar todos ellos para generar la predicción para el número de paquetes
GridFTP [ dieciséis ] Se utilizan típicamente con el fin de automatizar la transferencia de grandes
retransmitidos. Además, RFR tiene la capacidad de mostrar la importancia de las diferentes
conjuntos de datos.
características de entrada en el resultado predicción. 2. La entrada proporcionada a la RFR no
necesita estar en cualquier forma paramétrica específica en contraposición con los estrictos
soluciones basadas en la fórmula. Por último, 3. RFR tiene bajos costes computacionales y
Se recogieron los datos de flujo como de cada DTN utilizando el '' herramienta de
exhibe pequeños tiempos de entrenamiento para grandes conjuntos de datos que incluyen
monitorización 'TSTAT' [ 17 ]. Tstat es capaz de agregar trazas de paquetes en flujos y derivar
cientos de miles de transferencia de datos.
estadísticas detalladas y métricas de rendimiento para cada flujo. La agrupación de paquetes en
flujos es particularmente útil para optimizar la eficiencia en el procesamiento de grandes
cantidades de datos de la red. A diferencia de otras herramientas de recolección de flujo como
Para describir mejor la RFR, en primer lugar describir un árbol de regresión y el
NetFlow [ 18 ], Tstat registros no muestreada datos de la red y también calcula un conjunto más
bosque. Un bosque es un conjunto de árboles ( Figura 1 ); árboles de regresión se crean
amplio de características de rendimiento (la lista completa de los 53 indicadores se pueden
mediante la partición de las muestras (es decir, los nodos raíz en grupos homogéneos
encontrar aquí [ 17 ]). Además, para garantizar el anonimato de los hosts de origen y destino,
[nodos]). Este proceso se repite re- cursively hasta los nodos terminales no están
dejamos caer el último octeto de direcciones IP de origen y destino.
definidas. Cada fracción se elige de acuerdo con un criterio de reparto y de los valores
de una variable seleccionada. La respuesta de las variables de entrada se puede
predecir, simplemente siguiendo el camino de un árbol desde el nodo raíz hasta el nodo
En nuestro análisis sólo utilizamos los datos de flujo donde el porcentaje de retransmisiones de
terminal. El valor de respuesta predicho se calcula RFR promediando la predicción
paquetes es mayor que cero. Optamos por los flujos que demuestran la pérdida de paquetes y
probabilística de la ble ensem- de árboles en ese nodo terminal [ 20 ]. Para nuestro
descarte '' perfecto '', las transferencias de datos sin pérdidas.
modelo de bosque aleatorio, aprovechamos la RandomForestClassifier [ 21 ] Como parte
del paquete scikit-learn [ 22 ] Con los parámetros por defecto.
4. Solución propuesta
Para evitar el overfitting, K veces (cinco veces) de validación cruzada se utilizó para predecir
En esta sección, describimos nuestra solución propuesta junto con el subconjunto de
el comportamiento de retransmisión. Además, también ofrecemos la importancia relativa de las
características utilizadas como entrada, así como cualquier dato preprocesado hizo.
características para elegir el mejor subconjunto de entradas para la predicción de la pérdida de
paquetes con la máxima precisión.
Nuestra herramienta predice el porcentaje de paquetes retransmitidos para transferencias de datos
TCP de tamaño arbitrario basado en la transferencia de datos anteriores. Por transferencia mediciones
incluyen una combinación de métricas de configuración fin de acogida junto con las métricas
relacionadas a la ruta. Nuestra solución tiene como objetivo abordar dos cuestiones fundamentales: 4.1. Selección de características
Con el fin de seleccionar el conjunto óptimo de características para la predicción de nuestro

1. ¿Qué trayectoria y final propiedades del host proporcionan la predicción cura más
primer lugar hay que investigar la relación entre las principales causas de retransmisiones de
AC- de retransmisiones por flujo? y
paquetes y las métricas de nivel de flujo disponibles en nuestras bases de datos. Desde
2. ¿Existe un valor de confianza que podemos incluir en nuestras predicciones?
retransmisiones se deben principalmente a la pérdida física a lo largo de la ruta seleccionada y
puesta a punto de la red anfitrión final subóptima, diferentes combinaciones de propiedades del host
Predecir el número (y porcentaje respectivamente) de paquetes retransmitidos puede final (por ejemplo, el segmento max TCP tamaño) y las medidas relacionadas a la ruta (por ejemplo,
formularse como un problema de regresión de predecir el valor de un número de valor real (es Round Trip Time) necesitan ser tenido en cuenta a nuestro modelo. Observamos que la
decir, número de paquetes retransmitidos) basado en múltiples las distintas prestaciones de incorporación de todas las medi- surements recogidos 52 Tstat proporcionaría una solución
entrada de valor real. Cada transferencia de datos está representado por un conjunto de excesivamente generalizada con entradas coste computacional arrugado. El conjunto de
características características seleccionadas se muestra en la tabla 1 . Una variedad de estudios [ 8 , 24 , 25 ] Han
x = {x 1, X 2, . . . , X yo} ∈ R. Cada X yo por ejemplo, es una característica observada, el tamaño del archivo demostrado la relación entre el rendimiento de TCP (en términos de rendimiento y pérdida de
que se transfiere, ventana de congestión de TCP, el tiempo promedio de viaje, etc. Se da Nuestro paquetes) y diferentes mediciones del nivel del flujo tales como el tamaño de archivo (un parámetro
objetivo X para predecir el número de paquetes retransmitidos y ∈ R. Esto se logra mediante la host-controlado), el tiempo de ida y vuelta (un parámetro relacionadas a la ruta) y ventana de
formación de la predictor usando datos de entrenamiento, es decir, las transferencias de datos congestión (un parámetro host-controlado también). Con base en los resultados presentados en los
anteriores con características conocidas y el número correspondiente medido (y porcentaje) de estudios mencionados, las siete características seleccionadas proporcionan una represen- tación
paquetes retransmitidos. precisa de los dos factores del huésped y la ruta relacionados que influyen en la pérdida de
paquetes en las transferencias de red científicas. Con el fin de hacer que nuestra herramienta
El marco analítico que aplicamos a este problema es Ran- dom Bosque de
regresión, una técnica de aprendizaje de máquina establecido adecuado para la
regresión multivariante. Se discuten detalles de RFR en la siguiente sección.
Figura 1. Un Random Bosque Regresor (modificado a partir de [ 23 ]).
robusta a cambios de nivel (es decir, cuando las propiedades de ruta cambian de forma significativa)
optamos por la incorporación de la promedio tiempo de ida y vuelta para cada flujo. Los valores medios de
suavizar las variaciones de RTT relacionadas con aumento de la latencia debido a un camino
congestionado.
Con el fin de aumentar la calidad y aplicabilidad de nuestro lución so- formamos a nuestro
predictor en una amplia gama de tamaños de archivo, a diferencia de las soluciones que se dirigen
a transferencias sólo a granel o pequeños archivos [ 4 ].
5. Evaluación
En esta sección describimos nuestra metodología para la evaluación de nuestra solución, y los
conjuntos de datos utilizados. Concluimos nuestro análisis con una discusión sobre los resultados
obtenidos.
Figura 2. retransmitir los datos que muestran una variabilidad significativa en todo momento.
5.1. Metodología
Tabla 2
composición conjunto de datos. conjunto
Nuestro enfoque de la evaluación se centra en dos direcciones:
de datos Duración Año
1. ¿Qué tan bien se puede predecir con nuestra solución de retransmisiones de paquetes en las transferencias
Los conjuntos de datos para probar la RFR
de datos científicos o tamaño arbitrario? DataSet1 Jan 28 1-Feb 2017
2. ¿Tiene la variabilidad de la distribución característica en diferentes conjuntos de datos afecta a la Dataset2 De julio de 30 1-Nov 2017
Dataset3 Jan 28 1-Feb 2018
capacidad de nuestra solución para proporcionar razonablemente buena precisión?
Conjuntos de datos para las pruebas de estacionalidad
Dataset4 Feb 28 1-Feb 2017
Para responder a la primera pregunta formamos a nuestro modelo RFR con flujos de un Dataset5 Feb 28 1-Feb 2018
Dataset6 Ene 31 1-Jan 2017
conjunto de datos (véase la Sección 5.2 para la descripción detallada) y registrar su precisión
Dataset7 Ene 31 1-Jan 2018
cuando se prueba en diferentes conjuntos de datos. Además se analiza si las técnicas de
reducción de ruido (por ejemplo, suavizado de datos) mejorarían la exactitud de nuestras
predicciones. Para responder a la segunda pregunta se calcula la precisión de nuestra solución
cuando se prueba en los conjuntos de datos que son un año de diferencia. Dependiendo del datos suavizados utilizando el Smoothing automática de Atención Priorización algoritmo (ASAP)
valor obtenido, llevamos a cabo una correlación anal-Ysis que nos permite identificar si las como se describe en (Sección 5.3 ). A diferencia de otros predictores [ 4 ], Donde tanto la
diferentes características de entrada mantienen la misma importancia a través de conjuntos de formación y la prueba de tráfico era artificial, nuestra solución utiliza los registros de flujo de
datos. transferencias de datos científicos reales de tamaño arbitrario. Por otra parte, en las
transferencias de archivos generados en laboratorio artificiales paráme- tros de configuración de
host y las propiedades de ruta se fijan estrictamente en valores explícitos (véase la sección de
5.2. Conjuntos de datos evaluación de [ 4 ]). Sin embargo, la entrada del nuestro predictor cuenta con distribución
demostrar mayor variabilidad que aumenta la robustez de nuestro enfoque bajo diferentes
Los conjuntos de datos utilizados para el entrenamiento y prueba de nuestra solución se describen en Tabla condiciones de red. Por último, nuestra solución está entrenado en una amplia gama de
2. tamaños de transferencia que oscilan entre unos pocos cientos de megabytes a varios
Se evaluó la RFR con los datos recogidos en tres momentos diferentes: 01-2 2017 gigabytes.
(dataset1); Julio al noviembre de 2017 (Dataset2); y 01-2 2018 (dataset3) ( Tabla 2 ). Para
entender diferentes aspectos del rendimiento de las transferencias de datos, hemos
probado la capacidad de la RFR para predecir el comportamiento de retransmisión para 5.3. suavizado de los datos
diferentes combinaciones de conjuntos de datos: (a) individualmente dataset1, Dataset2 y

dataset3 (b) combinar todos los conjuntos de datos (dataset1, Dataset2, dataset3) y (3) a También se evaluó la RFR suavizando la formación y las pruebas de datos. La razón de
través de conjuntos de datos (por ejemplo, la formación en dataset1 y pruebas en ser de suavización fue que el ruido de pequeña escala a menudo oscurece las tendencias a
Dataset2; formación sobre Dataset2 y pruebas en dataset3; formación sobre dataset1 y gran escala. Por lo tanto, algoritmos de aprendizaje automático (por ejemplo, RFR) no
pruebas en dataset3). Todas estas evaluaciones se realizaron sobre los datos en bruto, funcionan razonablemente bien en la presencia de ruido en los datos. Con suavizado, es
así posible conservar la estructura a gran escala de los datos mientras se quita como
Fig. 3. La reducción de ruido (por ejemplo, suavizado) mejora la precisión de la predicción.
Tabla 3
Predicción precisión del comportamiento de retransmisión de RFRs para diferentes conjuntos de datos con y sin
suavizado.
Precisión sin alisado Suavizado con

exactitud
Dataset1, Dataset2, Dataset3, y todos los conjuntos de 60% 97% -99%

datos
El entrenamiento el 17 feb, y probando el 17 <2% 66%

ene
El entrenamiento el 18 feb, y probando el 18 <2% <2%

Ene;
El entrenamiento el 17 feb, y probando el 18
ene
Tabla 4
La correlación de las retransmisiones con características de entrada. Los valores de correlación son diferentes en varios
conjuntos de datos, por ejemplo, tcp_win_max varía de 0,08 (que se muestra en azul) a 0,15. Variable
Fig. 4. Los datos muestran diferentes distribuciones para diferentes momentos. los X- eje Y muestra los contenedores que
Correlación (conjunto de datos Correlación (ene 17 y Correlación (feb corresponden a rangos específicos de la media RTT, mientras que la
completo) 18 de ene) 17 y 18 de y- eje es la frecuencia de ciento retransmite (el número de muestras) para cada bin.
febrero)
tcp_rtt_avg 0.29 0.26 0.25

tcp_initial_cwin 0,19 0.18 0.16
tcp_win_max 0.15 0.08 0.10
diferentes conjuntos de datos. Figura 2 muestra el porcentaje de retransmitidos (porcentaje
retransmite) versus promedio RTT para diferentes tiempos. retransmite por ciento muestran una
variabilidad significativa. Aunque ciento retransmite son consistentes en la parte mayor de piezas
todo el ruido posible. Para suavizar los datos, se utilizó para la priorización automática específicas de algunos conjuntos de datos, existen diferencias sutiles en porcentaje retransmite a
Smoothing Atención (ASAP) en el algoritmo de serie temporal desarrollado por Stanford través de conjuntos de datos (por ejemplo, 18 de enero con julio a noviembre de 2017). El mismo
Infolab [ 26 ]. ASAP hace uso del modelo de agregación de ventana deslizante y realiza comportamiento se observó en porcentaje retransmite con otras variables de entrada, tales como
hiper ajuste de parámetros para seleccionar automáticamente una ventana para que los el rendimiento (Mbps) y la duración (no se muestra) (ver Tabla 4 ).
datos conservan las tendencias a largo plazo. Más detalles sobre el algoritmo de ASAP
se pueden explorar en [ 26 ].
6.2. la variabilidad de características
6. Resultados y discusión
Aunque la RFR predice el comportamiento de retransmisión con moderada (sin
6.1. Exactitud suavizado) de alta precisión (con suavizado), no funcionan bien con los escenarios en los
que hay datos que no se ven, como se muestra en Tabla 3 (A excepción de la formación el
Hemos probado precisión de la predicción de RFR para el porcentaje de retransmisiones (por 17 de febrero y las pruebas en enero 17 escenarios). Para examinar este comportamiento
ciento retransmite desde aquí después) usando combinación diferentes de variables de entrada. anómalo se analizaron críticamente los datos y se realizó un análisis de correlación. Tabla 3 presenta
La precisión de pre dicción de un RFR se estimó utilizando R 2 valores. Los resultados usando el análisis de correlación de retransmisiones con diferentes características de entrada y Fig.
pasante poner [Mbps], la duración y el RTT se muestran en la Tabla 3 . A medida que nuestros 6 muestra varias funciones en diferentes momentos. Es claro a partir de los valores de
resultados demuestran precisión de la predicción era moderado. Pusimos a prueba la precisión correlación que la importancia relativa de cada variable de entrada varía en el tiempo. Esto
de la RFR después del suavizado de los datos y se encontró que suavizado significativamente se puede atribuir al hecho de que la retransmisión de paquetes de flujos de red a granel
mejorado la precisión de la predicción ( Tabla 3 ). también puede verse afectada por la competencia flujos simultáneos de diferente tipo de
tráfico.
Fig. 3 , Que muestra el porcentaje retransmite como una serie temporal de los datos en bruto
de datos, así suavizadas, demuestra que el ruido de pequeña escala ASAP algoritmo
eliminado mientras se mantienen las tendencias a gran escala. Por lo tanto, la RFR se Es evidente a partir Fig. 6 que la variabilidad a través de factores no es constante en el
comportó mejor después del suavizado debido a los datos más limpios. Con el fin de investigar tiempo. Por ejemplo, el por ciento retransmite son pequeñas mientras que los valores de
los resultados curacy ac- moderados, se analiza el comportamiento de las retransmisiones en rendimiento son altas con promedio intermedia los valores de RTT en enero de 2017. En
comparación, el por ciento retransmite,
7. Conclusiones y trabajo futuro
En este trabajo se investigó el tema de la pérdida de paquetes mani- fested través de

retransmisiones de paquetes en las transferencias de datos científicos. Se presenta un marco de
aprendizaje máquina multi-variable que predice retransmisiones de paquetes para la transferencia
de archivos de tamaño arbitrario. Hemos sido capaces de identificar el conjunto mínimo de
mediciones de ruta y de destino que deben utilizarse como características de entrada para las
predicciones precisas y robustas Ating gene-. Nuestro marco, basado en regresión aleatoria
Bosque, demuestra tiempos cortos de capacitación y es capaz de proporcionar estimaciones
precisas para las retransmisiones de paquetes que se producen en las transferencias de datos de
tamaños arbitrarios.
Hemos evaluado nuestro marco de conjuntos de datos que contienen un número diferente de los
flujos exhiben significativamente diferentes buciones distribu- de las características de entrada. En
nuestro análisis hemos sido capaces de correlacionar diferentes factores con el comportamiento de
retransmisión. Nuestros modelos RFR a cabo razonablemente bien en todos los conjuntos de datos.
Fig. 5. Los datos muestran distribuciones uniformes para diferentes momentos. los X- eje Y muestra los contenedores que También se encontró que el suavizado de ruido reducido en los datos mediante la eliminación de
corresponden a rangos específicos de la media RTT, mientras que la
eventos atípicos y mejoró significativamente las predicciones. En adi- ción, variables de entrada
y- eje es la frecuencia de ciento retransmite (el número de muestras) para cada bin.
mostraron diferentes distribuciones para diferentes momentos (por ejemplo, 17 de Enero vs. 17 de
febrero); Sin embargo, el suavizado no cambió las distribuciones. Con el fin de dar cuenta de los
eventos de pérdida de paquetes de valores atípicos, tenemos la intención de evaluar la precisión de
nuestro marco sin las técnicas de suavizado.
rendimiento, y RTT promedio de los valores son todos altos en enero de 2018. Estos resultados
sugieren que la importancia relativa de cada característica cambia con el tiempo.
Aunque este trabajo es un primer paso para mejorar el rendimiento y la calidad de las
Higos. 4 y 5 muestran histogramas de ciento retransmite con RTT promedio. los X- eje y transferencias de datos científicos, tiene algunas limitaciones. modelo de predicción de nuestro
muestra el número de ciento retransmite muestras presentes en un intervalo de la media marco fue construido utilizando sólo Random Bosque de regresión (debido a su flexibilidad en los
RTT. La anchura bin en el Y- eje corresponde a un rango específico de la media de RTT. parámetros de entrada, consulte la Sección 4.0.1 para la explicación detallada). Con el fin de
Smoothing no cambió la distribución en general (no mostrada); Sin embargo, el comparar con otras técnicas de formación de modelo, tenemos la intención de incluir algoritmos de
rendimiento de la RFR depende de la consistencia de las gamas de formación y las regresión adicionales en el proceso de pre- dicción de nuestro marco. Aunque la predicción de
retransmisiones es un factor que afecta la calidad de las transferencias de datos científicos, nos
pruebas de datos. Por ejemplo, el RFR realizó razonablemente bien (66% de precisión)
damos cuenta de que con el fin de tener una visión completa de los eventos de degradación de
cuando entrenados el 17 feb y probado en ene 17. El rendimiento moderado sobre el ene
rendimiento que uno tiene que ser capaz de predecir el rendimiento de red también. Tenemos la
17 conjunto de datos puede ser atribuido a una variedad de factores incluyendo la
intención de añadir predicciones de rendimiento en la próxima versión de nuestro marco. Nos a
diferente distribución de las variables de entrada. Nos dimos cuenta de que sólo el propósito excluyeron los datos de flujo de las transferencias de datos que no demostraron ninguna
promedio de RTT tiene rangos comparables de cada 17 de febrero y 17 de enero para retransmisión de paquetes. De ahí que nuestra solución no puede predecir las transferencias de
retransmitir valores similares (véase Fig. 5 ). datos retransmitir-libres. Actualmente exactitud de nuestro predictor se ve afectada de manera
significativa por los cambios en la distribución de las características de entrada (por ejemplo, si la
distribución RTT cambia entre dos conjuntos de datos entonces nuestras predicciones se hacen
poca precisión). Con el fin de abordar esta cuestión en nuestro trabajo futuro, tenemos la
Tomados en conjunto, podemos concluir que la RFR fue capaz de predecir el comportamiento de
intención de incluir un enfoque ponderado como parte de preproccessing datos. Además, como un
retransmisión razonablemente bien incluso para datos no en el conjunto de datos de entrenamiento si la
objetivo a medio plazo, que haría para incluir mediciones pasivas tales como periódicos
formación y las pruebas de datos tienen estadísticas similares. Aunque el problema de las diferentes
perfSONAR recolectó datos en nuestras bases de datos de entrenamiento. La mejora de la
estadísticas se puede evitar si el conjunto de entrenamiento se hace grande, la cantidad total de datos está
precisión
limitado en nuestro caso. Sin embargo, las series de entrenamiento se pueden hacer grandes como para
incluir estadísticas similares a los futuros conjuntos de datos.
Fig. 6. Existen diversos factores que muestran variabilidad a través de los tiempos.
de nuestra solución en la transferencia de datos científicas inéditas puede conducir a la mitigación de la • ¿Disponible públicamente?: El código se puede obtener, previa peti- ción poniéndose
pérdida de paquetes a través de diferentes estrategias de reconfiguración. en contacto con los autores de este trabajo. Los datos TSTAT utilizados se recogió y se
proporcionan por la instalación Puting com- NERSC en LBNL. Los datos TSTAT contiene
las direcciones IP de origen y de destino, y por tanto no está disponible al público por
razones de privacidad. Sin embargo, NERSC hace periódicamente los datos disponibles
Declaración de interés en competencia
para los investigadores cualificados. Las consultas deben ser dirigidas a
security@nersc.gov.
Los autores declararon que no tenían ningún conflicto de intereses con respecto a
su autoría o la publicación de este artículo.
A.2.2. ¿Cómo se puede obtener el software (si está disponible)

Expresiones de gratitud El código puede estar disponible a petición
Los autores desean agradecer a la gente numberous para ING MAK- posible este A.2.3. dependencias de hardware
Ninguna
trabajo. Dan Gunter por su valiosa retroalimentación; Josh Boverhof y Ravi Cheema por
asistir con acceso a los datos en NERSC; Jon Dugan, Mariam Kiran, Eric Pouyoul, y
A.2.4. dependencias de software
Brian Tierney de ESnet, Alberto Gonzales, Jason Leigh y AlanWhinery de la Universidad
Los paquetes requeridos Python: solicitudes, tomas de corriente, elasticsearch, JSON,
de Hawai, y Ed Balas, Dan Doyle, CJ Kloote, Jennifer Schopf, y Alan Whinery por sus
sys, Os, Re, fecha y hora, ipaddress, numpy, sklearn.metrics, pan-das, sklearn.ensemble.
útiles sugerencias sobre el enfoque, análisis de datos, y la interpretación de los
sklearn, model_selection, pandas
resultados.
A.2.5. Conjuntos de datos

Este manuscrito fue financiada por la Fundación Nacional de Ciencias, EE.UU. bajo
Mira la sección 5.2 para una descripción detallada
el premio ACI-1.540.933, y ha sido escrito por los autores en el Laboratorio Nacional
Lawrence Berkeley bajo el Contrato No. DE-AC02-05CH11231 con el Departamento de
A.3. Instalación
Energía de Estados Unidos. Las opiniones, resultados, conclusiones o recomendaciones
expresadas en este material son las de los autores y no reflejan necesariamente los de Ninguna instalación de script en Python
los patrocinadores de este trabajo.
A.4. experimento de flujo de trabajo
Apéndice. Descripción artefacto Mira la sección 5.1
A.5. Evaluación y resultado esperado

Un enfoque de aprendizaje de máquina para la predicción de la pérdida de paquetes en Ciencias de flujos.
Mira la sección 6
A.1. Resumen A.6. personalización experimento
Redes de ciencia que alojan aplicaciones requieren grandes transferencias de datos quent y No es necesaria
cuencias, pero estas transferencias están sujetas a degradación del rendimiento de la red,
incluyendo los retrasos y de puesta en cola de paquetes de gotas. Varios factores se pueden A.7. notas
atribuir a la degradación del rendimiento de la red; Sin embargo, ningún método existente precisa,
conocida está disponible para predecir diferentes aspectos del rendimiento de las transferencias de n/A
datos. En este estudio, hemos desarrollado una herramienta de aprendizaje má- quina ligera
precisa para predecir la retransmisión de paquetes de extremo a extremo en los flujos de ciencias referencias
de tamaño arbitrario. También se identificó el conjunto mínimo de mediciones de ruta y de destino

[1] E. Dart, L. Rotman, B. Tierney, M. Hester, J. Zurawski, La DMZ ciencia: Un patrón de diseño de la red para la
necesarios como características de entrada en nuestro predictor con el fin de lograr una alta
ciencia de datos intensivos, en: Actas de la Conferencia Internacional sobre la computación de alto
precisión. El Bosque aleatoria de regresión demostró bajos tiempos de entrenamiento y fue capaz rendimiento, redes de almacenamiento y Análisis, SC '13, ACM, 2013, pp. 85: 1-85: 10.
de proporcionar estimaciones precisas (97% -99%) para las retransmisiones de paquetes de
[2] B. Tierney, J. Metzger, J. Boote, E. Boyd, A. Brown, R. Carlson, M. Zekauskas,
transferencias de datos de tamaños arbitrarios. Los resultados también demostraron que el Bosque
J. Zurawski, M. Swany, M. Grigoriev, perfSONAR: instancias de un marco de medición de la red global. [3] P.
aleatoria Regresor fue capaz de predecir el comportamiento de retransmisión razonablemente bien
He, C. Dovrolis, M. Ammar, En la previsibilidad de gran rendimiento TCP de transferencia, en: Actas de la
(66%) incluso para UNData previamente Si la formación y las pruebas de datos tenían estadísticas Conferencia 2005 sobre aplicaciones, tecnologías, arquitecturas y protocolos para comunicaciones por
similares. computadora, SIGCOMM '05, ACM, 2005, pp . 145-156.
[4] M. Mirza, J. Sommers, P. Barford, X. Zhu, un enfoque de aprendizaje de la máquina a la predicción de

rendimiento TCP, en: Proceedings of the ACM Sigmetrics Conferencia Internacional sobre la Medición y
modelado de sistemas informáticos, Sigmetrics '07, ACM, 2007 2007 , pp. 97-108.
A.2. Descripción [5] BAA Nunes, K. Veenstra, W. Ballenthin, S. Lukin, K. Obraczka, una máquina
Enfoque de Aprendizaje de extremo a extremo RTT Estimación y su aplicación a TCP, en: Actas de 2011 20ª
Conferencia Internacional sobre Comunicaciones y redes de ordenador, ICCCN, 2011, pp 1-6.. [6] W. Hu, Z.
A.2.1. Lista de control (artefacto meta-información)
Wang, L. Sun, Guyot: a aprendizaje- híbrido y modelo basado
• Algoritmo: Predicción de la pérdida de paquetes aprovechando el algoritmo aleatorio
Bosque de regresión de scikit-learn enfoque predictivo RTT, en: 2015 IEEE Conferencia Internacional sobre Comunicaciones, ICC, 2015, pp
• Programa: Pitón desde 5884 hasta 5.889.. [7] V. Paxson, la dinámica de paquetes de Internet de extremo a extremo, en: Actas
de la Conferencia ACM SIGCOMM '97 de aplicaciones, tecnologías, arquitecturas y protocolos para la
• Compilacion: No es necesaria
Comunicación, SIGCOMM '97, ACM,
• conjunto de datos: Descripción del conjunto de datos en la Sección 5.2
• Experimento personalización: Ninguna 1997, pp. 139-152.
[8] P. Barford, M. Crovella, análisis de la ruta crítica de transacciones TCP, SIGCOMM Comput. Commun. Rev. 31 [26] K. Rong, P. Bailis, ASAP: dar prioridad a la atención a través de suavizado de series de tiempo, Proc. VLDB
(Suppl. 2) (2001) 80-102. Endow. 10 (11) (2017) 1358-1369.
[9] M. Ghasemi, T. Benson, J. Rexford, Dapper: Datos diagnóstico del rendimiento plano de TCP, en: Actas del
Simposio sobre SDN Research, SOSR '17, ACM, 2017, pp 61-74..
Anna Giannakou es un investigador post-doctoral en el grupo de trabajo de la
FID en la seguridad de HPC y aprendizaje automático. Anna es parte de la
[10] AA Abouzeid, S. Roy, M. Azizoglu, modelado estocástico de TCP sobre
Integridad Científica para Exaescala datos científicos y Ciencia de la búsqueda
enlaces con pérdida, en: Actas IEEE INFOCOM 2000. Conferencia sobre las comunicaciones por
de proyectos.
computadora. XIX Conferencia Anual Conjunta de las Sociedades de Comunicaciones, gato Com- putadora e
Anna Giannakou recibió su Ph.D. del Instituto Nacional de Ciencias
IEEE. No.00CH37064, Vol. 3, 2000, pp. 1724-1733. [11] T. Issariyakul, E. Hossain, Introducción a la red
Aplicadas en INRIA Rennes en julio de 2017. El trabajo en grupo de investigación
simulador NS2, primera ed., Springer Publishing Company, Incorporated, 2010.
del Dr. Christine Morin, la investigación de Anna se centró en la vigilancia se-
guridad auto-adaptable para entornos de nube. Anna tiene una maestría en
Seguridad de la Información de la Universidad de Luxemburgo y una licenciatura
[12] S. Parisi-Fortin, B. Sericola, Un modelo de Markov de TCP rendimiento, goodput y lento inicio, lleve a cabo. Eval.
en Informática de
58 (2) (2004) 89-108, distribuida rendimiento de los sistemas.
la Universidad de Atenas.
[13] E. Altman, K. Avrachenkov, C. Barakat, un modelo estocástico de TCP / IP con pérdidas aleatorias estacionarias,
IEEE / ACM Trans. Netw. 13 (2) (2005) 356-369.
[14] Nacional de Investigación de Energía Centro de Computación Científica, http: //www.nersc.
Dipankar Dwivedi es un científico de investigación en el
gov , (Consultado 2018). Departamento de geoquímica en el Lawrence Berkeley Laboratory Na- cional. El
[15] I. Foster, Globus en línea: La aceleración y la democratización de la ciencia a través Dr. Dwivedi recibió su Ph.D. de Texas A & M University. Su investigación se
Los servicios basados en la nube, IEEE Internet Comput. 15 (3) (2011) 70-73, disponible:
centra en el modelado de reac- tivo de transporte, la dinámica del carbono del
http://dx.doi.org/10.1109/MIC.2011.64 . suelo, los procesos redox, y las interacciones órgano-minerales. También tiene
[dieciséis] W. Allcock, GridFTP: las extensiones del Protocolo a FTP para la red, 2018.
una amplia experiencia con la máquina de aprendizaje de técnicas, y la
[17] Tstat - Una herramienta estadística y análisis, http://tstat.polito.it/measure.shtml , (Consultado 2018). [18] Cisco asimilación de datos se acerca. El Dr. Dwivedi está trabajando actualmente en
proceso de avance de ING comprensión de carbono acoplados y el ciclo del
NetFlow, https://www.cisco.com/c/en/us/products/ios-nx-os- nitrógeno en condiciones hidrológicas transitorios través de escalas.
software / ios-netflow / index.html , (Consultado 2018).
[19] L. Breiman, Random bosques, Mach. Aprender. 45 (1) (2001) 5-32.
[20] U. Grömping, la evaluación de importancia variable en la regresión: regresión lineal frente al azar forestal, Amer.
Estadístico. 63 (4) (2009) 308-319.
[21] scikit-learn - Bosques de árboles aleatorios, http://scikit-learn.org/stable/ Dr. Sean Peisert es nombrado conjuntamente entist un personal cien- en el
módulos / ensemble . Laboratorio Nacional Lawrence Berkeley; jefe de estrategia de seguridad
[22] scikit-learn - Máquina de aprendizaje en Python, http://scikit-learn.org/stable/ . [23] M. Stockman, D. Dwivedi, R. cibernética a CENIC ; profesor asociado adjunto de Ciencias de la Computación en
Gentz, S. Peisert, sistema de control de detección de el Universidad de California, Davis y de Informática de la salud en el
mal comportamiento por huellas dactilares funcionalidad de controlador lógico programable, Revista
Internacional de Protección de Infraestructura Crítica 26 (2019) 100306, Universidad de California, Davis, Escuela de Medicina ; y como un miembro
http://www.sciencedirect.com/science/article/pii/S1874548219300320 . principal del Instituto de Ciencia de datos Berkeley .
[24] Y. Zhang, N. Duffield, En la constancia de las propiedades de ruta internet, en:
Actas del 1er Taller ACM SIGCOMM en Measurement ción de Internet, SMI '01, ACM, Nueva York, Nueva Sus intereses actuales de investigación y desarrollo abarcan una amplia
York, EE.UU., 2001, pp 197-211, Disponible.: sección transversal de soluciones de seguridad y privacidad putadora com-
http://doi.acm.org/10.1145/505202.505228 . utilizables y útiles, sobre todo en
[25] H. Balakrishnan, M. Stemm, S. Seshan, RH Katz, estabilidad Analizando que permite el análisis de datos segura y privacidad de preservación para la investigación científica en una variedad
en toda la zona rendimiento de la red, en: Actas de la ACM 1997 Sigmetrics Conferencia Internacional de de distribuido, de alto rendimiento, y entornos de computación en la nube. En los últimos años, la I + D del Dr. Peisert
Medida y Modelización de Sistemas Informáticos, Sigmetrics '97, ACM, Nueva York, Nueva York, EE.UU., ha centrado en el desarrollo técnicas de seguridad que mejoran y permiten el uso de distribuido, de alto rendimiento, y
1997, pp 2-12, disponible.: http://doi.acm.org/10.1145/258612.258631 . los recursos de computación en nube para llevar a cabo la investigación científica y mejorar el funcionamiento seguro
de los sistemas de control de la red eléctrica .

Futura Generación de Sistemas Informáticos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Futura Generación de Sistemas Informáticos

Cargado por

Copyright:

Formatos disponibles

Futura generación de sistemas informáticos 102 (2020) 190-197

listas de contenidos ofrecidos en ScienceDirect

Futura generación de sistemas informáticos

revista Página de inicio: www.elsevier.com/locate/fgcs

Anna Giannakou una , * , Dipankar Dwivedi segundo , Sean Peisert una

• La pérdida de paquetes en las transferencias de datos científicos afecta a la disponibilidad de datos.

información del artículo resumen

© 2019 Elsevier Todos los derechos reservados.

Correos electrónicos: agiannakou@lbl.gov (A. Giannakou), DDwivedi@lbl.gov

predicciones precisas para la transferencia de datos de tamaños arbitrarios? y, finalmente, 4. ¿Cómo

rendimiento, etc.). Medimos La exactitud de orientación de nuestra herramienta en diferentes

entrada campo Tstat

Con el fin de seleccionar el conjunto óptimo de características para la predicción de nuestro

características características seleccionadas se muestra en la tabla 1 . Una variedad de estudios [ 8 , 24 , 25 ] Han

Figura 1. Un Random Bosque Regresor (modificado a partir de [ 23 ]).

de datos científicos o tamaño arbitrario? DataSet1 Jan 28 1-Feb 2017

Dataset4 Feb 28 1-Feb 2017

diferentes combinaciones de conjuntos de datos: (a) individualmente dataset1, Dataset2 y

Fig. 3. La reducción de ruido (por ejemplo, suavizado) mejora la precisión de la predicción.

Precisión sin alisado Suavizado con

Dataset1, Dataset2, Dataset3, y todos los conjuntos de 60% 97% -99%

El entrenamiento el 17 feb, y probando el 17 <2% 66%

El entrenamiento el 18 feb, y probando el 18 <2% <2%

tcp_rtt_avg 0.29 0.26 0.25

6.2. la variabilidad de características

7. Conclusiones y trabajo futuro

En este trabajo se investigó el tema de la pérdida de paquetes mani- fested través de

incluir estadísticas similares a los futuros conjuntos de datos.

A.2.2. ¿Cómo se puede obtener el software (si está disponible)

A.2.5. Conjuntos de datos

A.4. experimento de flujo de trabajo

Apéndice. Descripción artefacto Mira la sección 5.1

A.5. Evaluación y resultado esperado

A.1. Resumen A.6. personalización experimento

de tamaño arbitrario. También se identificó el conjunto mínimo de mediciones de ruta y de destino

similares. computadora, SIGCOMM '05, ACM, 2005, pp . 145-156.

[4] M. Mirza, J. Sommers, P. Barford, X. Zhu, un enfoque de aprendizaje de la máquina a la predicción de

También podría gustarte