Tabular and Deep Learning of Whittle Index
- Others:
- University of the Basque Country/Euskal Herriko Unibertsitatea (UPV/EHU)
- Laboratoire de Mathématiques et de leurs Applications [Pau] (LMAP) ; Université de Pau et des Pays de l'Adour (UPPA)-Centre National de la Recherche Scientifique (CNRS)
- Department of Electrical Engineering [IIT-Bombay] (EE-IIT) ; Indian Institute of Technology Kanpur (IIT Kanpur)
- Ikerbasque - Basque Foundation for Science
- Réseaux, Mobiles, Embarqués, Sans fil, Satellites (IRIT-RMESS) ; Institut de recherche en informatique de Toulouse (IRIT) ; Université Toulouse 1 Capitole (UT1) ; Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3) ; Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP) ; Université Fédérale Toulouse Midi-Pyrénées-Toulouse Mind & Brain Institut (TMBI) ; Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3) ; Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse III - Paul Sabatier (UT3) ; Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1) ; Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3) ; Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP) ; Université Fédérale Toulouse Midi-Pyrénées-Toulouse Mind & Brain Institut (TMBI) ; Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3) ; Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse III - Paul Sabatier (UT3) ; Université Fédérale Toulouse Midi-Pyrénées
- Centre National de la Recherche Scientifique (CNRS)
- Network Engineering and Operations (NEO ) ; Inria Sophia Antipolis - Méditerranée (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)
Description
The Whittle index policy is a heuristic that has shown remarkable good performance (with guaranted asymptotic optimality) when applied to the class of problems known as Restless Multi-Armed Bandit Problems (RMABP). In this paper we present QWI and QWINN, two algorithms capable of learning the Whittle indices for the total discounted criterion. The key feature is the usage of two timescales , a faster one to update the state-action Q-values, and a relatively slower one to update the Whittle indices. In our main theoretical result we show that QWI, which is a tabular implementation, converges to the real Whittle indices. We then present QWINN, an adaptation of QWI algorithm using neural networks to compute the Q-values on the faster timescale , which is able to extrapolate information from one state to another and scales naturally to large state-space environments. Numerical computations show that QWI and QWINN converge much faster than the standard Q-learning algorithm, neural-network based approximate Q-learning and other state of the art algorithms.
Abstract (French)
La politique de l'indice de Whittle est une heuristique qui a montré des performances remarquables (avec une optimalité asymptotique garantie) lorsqu'elle est appliquée à la classe de problèmes connus sous le nom de problèmes de bandits multi-bras sans repos (RMABP). Dans cet article, nous présentons QWI et QWINN, deux algorithmes capables d'apprendre les indices de Whittle pour le critère de décote totale. La caractéristique principale est l'utilisation de deux échelles de temps, une plus rapide pour mettre à jour les Q-values état-action, et une relativement plus lente pour mettre à jour les indices de Whittle. Dans notre principal résultat théorique, nous montrons que QWI, qui est une implémentation tabulaire, converge vers les vrais indices de Whittle. Nous présentons ensuite QWINN, une adaptation de l'algorithme QWI utilisant des réseaux neuronaux pour calculer les Q-values sur l'échelle de temps la plus rapide, qui est capable d'extrapoler l'information d'un état à un autre et qui s'adapte naturellement aux grands espaces d'état. Les calculs numériques montrent que QWI et QWINN convergent beaucoup plus rapidement que l'algorithme standard de Q-learning, le Q-learning approximatif basé sur les réseaux neuronaux et d'autres algorithmes de pointe.
Abstract
International audience
Additional details
- URL
- https://hal.science/hal-03767324
- URN
- urn:oai:HAL:hal-03767324v1
- Origin repository
- UNICA