Published April 4, 2023 | Version v1
Publication

Novel efficient deep learning architectures for time series forecasting

Description

La presente tesis se centra en el estudio de la predicción de series temporales mediante el uso de la técnica conocida como deep learning (aprendizaje profundo en español) o redes neuronales. A su vez, se realizan una serie de nuevas propuestas metodológicas, que mejoran la eficiencia de las arquitecturas existentes, aplicadas a una serie de conjunto de datos reales que presenta un reto en la sociedad actual. La técnica conocida como deep learning ha adquirido gran popularidad en los últimos años debido a sus increíbles resultados en áreas como la visión artificial, procesamiento del lenguaje natural y predicción de series temporales, entre otras. Esta técnica se inspira en el funcionamiento de la célula básica del cerebro, la neurona. Las neuronas se organizan en capas formando una red neuronal, procesando la información de entrada y propagando su salida hacia otras capas de neuronas hasta obtener la salida final. Esta técnica ha sido adaptada en múltiples ocasiones a la predicción de series temporales desarrollando arquitecturas con unos resultados con resultados competitivos con el estado del arte actual. Sin embargo, aunque la eficacia ha sido un gran punto a favor, en ocasiones estas arquitecturas han degradado su eficiencia impidiendo su aplicación en escenarios reales. Existen diversas formas de mejorar la eficiencia, reduciendo algunos de los aspectos que toman gran cantidad de recursos como: memoria necesaria para almacenar la arquitectura, tiempo de inferencia o tiempo de entrenamiento, entre otros. Esta tesis se centra en mejorar el tiempo de entrenamiento, pues, resulta el cuello de botella a la hora de experimentar con nuevas arquitecturas, optimizar las arquitecturas existentes o reentrenar arquitecturas en ciertos escenarios reales. Ante el problema de eficiencia que presentan las arquitecturas dentro del ámbito del deep learning o las redes neuronales, se han desarrollado cuatro propuestas diferentes con el objetivo de obtener una eficacia igual o superior que otras arquitecturas de la literatura requiriendo una menor cantidad de recursos computacionales. La primera de las propuestas introduce dentro del diseño de la arquitectura la idea de un aprendizaje incremental. Esta idea establece diferentes objetivos a las capas de la red neuronal, estableciendo al principio un objetivo muy sencillo e incrementando la dificultad del objetivo asignado a las capas. De esta manera, se acelera el proceso de aprendizaje al ser capaz de aprender rápidamente los conceptos necesarios para el objetivo más sencillo y propagar este conocimiento a las capas posteriores. La segunda propuesta parte de la primera propuesta y establece una hipótesis adicional. En lugar de que los diferentes objetivos se optimicen sin que los más complejos puedan influir en los más sencillos, se permite que exista influencia. De esta manera, el conocimiento adquirido de los objetivos más sencillos puede ser modificado parcialmente por los subsiguientes objetivos más complejos. La tercera propuesta surge como idea de las dos primeras propuestas. En este caso la idea fundamental es similar, separar la responsabilidad del proceso de predicción. En esta propuesta se separa la responsabilidad descomponiendo la serie temporal usando un proceso de suavizado. La primera capa, por lo tanto, recibe la entrada suavizada y es encargada de obtener una predicción parcial. La siguiente capa recibe el "residuo" resultante de restar la versión original a la versión suavizada. La siguiente capa, por lo tanto, repite el proceso de suavizado y obtiene una nueva predicción parcial. Tras procesar todas las capas, las predicciones parciales son sumadas para obtener la salida final. La idea intuitiva, por lo tanto, es que cada capa tenga un rol diferente, centrándose en diferentes aspectos de la serie temporal a través de la descomposición. A su vez, las capas deben colaborar para obtener la predicción final. La cuarta y última propuesta integra la selección de atributos dentro de la arquitectura de una las redes neuronales, con el objetivo de reducir la dimensionalidad del problema y mejorar la eficiencia de las técnicas de selección de atributos aplicadas a deep learning. Otras propuestas de selección de atributos aplicadas a deep learning tienen problemas de eficacia, eficiencia y/o interpretabilidad. Esta propuesta describe una nueva capa conectada a la entrada que sirva de puerta a las diferentes características de entrada, de esta manera se elimina la influencia de aquellas características que resultan irrelevantes para el problema. Gracias a esta capa se puede determinar las características de forma eficiente, sin disminuir la eficacia de la arquitectura en gran medida. Además, esta capa sirve como ventana a las características que la arquitectura ha establecido como irrelevantes, dando una idea del comportamiento aprendido.

Abstract

This thesis focuses on the study of time series prediction using the technique known as deep learning or neural networks. At the same time, a series of new methodological proposals are made, which improve the efficiency of existing architectures, applied to a series of real data sets that present a challenge today. The technique known as deep learning has gained great popularity in recent years due to its incredible results in areas such as computer vision, natural language processing and time series prediction, among others. This technique is inspired by the functioning of the basic brain cell, the neuron. Neurons are organized in layers forming a neural network, processing the input information and propagating its output to other layers of neurons until the final output is obtained. This technique has been adapted on multiple occasions to the prediction of time series, developing architectures with results that are competitive with the current state of the art. However, although effectiveness has been a great advantage, sometimes these architectures have degraded their efficiency, preventing their application in real scenarios. There are several ways to improve efficiency, reducing some of the aspects that take a large number of resources such as: memory needed to store the architecture, inference time or training time, among others. This thesis focuses on improving training time, since it is the bottleneck when experimenting with new architectures, optimizing existing architectures, or retraining architectures in certain real scenarios. Faced with the problem of efficiency presented by architectures in the field of deep learning or neural networks, four different proposals have been made, whose main objective is to obtain greater efficiency by obtaining equal or superior effectiveness with respect to the architectures used in the comparative analysis. The first of the proposals introduces the idea of incremental learning into the design of the architecture. This idea establishes different objectives to the layers of the neural network, establishing at the beginning a quite simple objective and increasing the difficulty of the objective assigned to the layers. In this way, the learning process is accelerated by being able to quickly learn the concepts needed for the simplest objective and propagate this knowledge to the subsequent layers. The second proposal builds on the first proposal and makes an additional assumption. Instead of the different objectives being optimized without the more complex ones being able to influence the simpler ones, influence is allowed to exist. In this way, the knowledge gained from the simpler objectives can be partially modified by the subsequent more complex objectives. The third proposal arises as an idea from the first two proposals. In this case the fundamental idea is similar, separating responsibility from the prediction process. In this proposal the liability is separated by decomposing the time series using a smoothing process. The first layer, therefore, receives the smoothed input and is responsible for obtaining a partial prediction. The next layer receives the "residue" resulting from subtracting the original version from the smoothed version. The next layer, therefore, repeats the smoothing process and obtains a new partial prediction. After processing all layers, the partial predictions are summed to obtain the final output. The intuitive idea, therefore, is that each layer has a different role, focusing on different aspects of the time series through decomposition. In turn, the layers must collaborate to obtain the final prediction. The fourth and last proposal integrates an attribute selection method into the neural network architecture, with the objective of reducing the dimensionality of the problem and improving the efficiency of attribute selection techniques applied to deep learning. Other attribute selection proposals applied to deep learning have problems of effectiveness, efficiency and/or interpretability. This proposal describes a new layer connected to the input that serves as a gateway to the different input features, thus eliminating the influence of those features that are irrelevant to the problem. Thanks to this layer, the features can be determined efficiently, without decreasing the efficiency of the architecture to a considerable extent. In addition, this layer serves as a window to the features that the architecture has established as irrelevant, giving an idea of the learned behaviour.

Additional details

Created:
April 14, 2023
Modified:
November 29, 2023