Published February 2011 | Version v1
Report

Analysis of the Repair Time in Distributed Storage Systems

Others:
Algorithms, simulation, combinatorics and optimization for telecommunications (MASCOTTE) ; Inria Sophia Antipolis - Méditerranée (CRISAM) ; Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-COMmunications, Réseaux, systèmes Embarqués et Distribués (Laboratoire I3S - COMRED) ; Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S) ; Université Nice Sophia Antipolis (1965 - 2019) (UNS) ; COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS) ; COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S) ; Université Nice Sophia Antipolis (1965 - 2019) (UNS) ; COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS) ; COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)
Indian Institute of Technology Delhi (IIT Delhi)
INRIA
ANR-07-TCOM-0021,SPREADS,Safe P2p-based REliable Architecture for Data Storage(2007)

Description

Distributed or peer-to-peer storage systems introduce redundancy to preserve the data in case of peer failures or departures. To ensure long-term fault tolerance, the storage system must have a self-repair service that continuously reconstructs lost fragments of redundancy. The speed of this reconstruction process is crucial for the data survival. This speed is mainly determined by available bandwidth, a critical resource of such systems. We propose a new analytical framework that takes into account the correlation of concurrent repairs when estimating the repair time and the probability of data loss. Mainly, we intro- duce queuing models in which reconstructions are served by peers at a rate that depends on the available bandwidth. The models and schemes proposed are validated by mathematical analysis, extensive set of simulations, and experimentation using the Grid'5000 test-bed platform.

Abstract (French)

Dans les systèmes de stockage distribués ou pair à pair, redondance des données doit être rajoutée afin de garantir l'intégrité du contenu en cas de panne ou de départ d'un pair. Afin d'assurer au système une résistance aux pannes sur le long terme, un processus interne doit continuellement reconstruire les fragments de redondance perdus. La vitesse de reconstruction de ces fragments des données est cruciale pour garantir l'intégrité du contenu. La bande passante disponible au sein du système déterminant en grande partie la vitesse de reconstruction. Une nouvelle méthode d'analyse est proposée prenant en compte la corrélation entre réparation simultanées lors de l'estimation du temps total de réparation et la probabilité de perte de données. Notre contribution principale est une modélisation basée sur le modèle des files d'attente dans laquelle les reconstructions sont effectuées par les pairs à un débit dépendant de la bande passante disponible. Ce modèle montre que pour la plupart des systèmes actuels, un temps de reconstruction exponentiel est inadéquate. Les modèles et schémas proposés ont été validés par analyse mathématique ainsi que par un grand nombre de simulations et expérimentations en utilisant la plateforme GRID'5000.

Additional details

Created:
December 3, 2022
Modified:
December 1, 2023