Published 2018 | Version v1
Journal article

A Fuzzy Clustering Algorithm for the Mode-Seeking Framework

Description

In this paper, we propose a new fuzzy clustering algorithm based on the modeseekingframework. Given a dataset in Rd, we define regions of high density thatwe call cluster cores. We then consider a random walk on a neighborhood graphbuilt on top of our data points which is designed to be attracted by high densityregions. The strength of this attraction is controlled by a temperature parameterbeta > 0. The membership of a point to a given cluster is then the probability for therandom walk to hit the corresponding cluster core before any other. While manyproperties of random walks (such as hitting times, commute distances, etc. . . ) havebeen shown to enventually encode purely local information when the number ofdata points grows, we show that the regularization introduced by the use of clustercores solves this issue. Empirically, we show how the choice of beta influences thebehavior of our algorithm: for small values of beta the result is close to hard modeseekingwhereas when beta is close to 1 the result is similar to the output of a (fuzzy)spectral clustering. Finally, we demonstrate the scalability of our approach by providingthe fuzzy clustering of a protein configuration dataset containing a milliondata points in 30 dimensions.

Abstract (French)

Cet article promeut l'usage de processus de diffusion basés sur la densité pour effectuer du clustering soft. Notre approche interpole entre la recherche de modes classique et le clustering spectral, et elle est paramétrée par un paramètre de temếrature β > 0 contrôlant la quantité de mouvement Brownien ajoutée à la montée de gradient. En pratique nous simulons le processus de diffusion dans le domaine continu par des marches aléatoires dans des graphes de voisinage construits sur les points de données. Nous prouvons la convergence de ce schéma sous des hypothèses d'échantillonnage faibles, et nous dérivons des garanties sur le clustering obtenu en termes de fonctions d'appartenance. Nos résultats théoriques sont corroborés par des expériences préliminaires sur des données synthétiques et des données réelles.

Abstract

Submitted to Pattern Recognition Letters

Abstract

International audience

Additional details

Identifiers

URL
https://hal.inria.fr/hal-01111854
URN
urn:oai:HAL:hal-01111854v2

Origin repository

Origin repository
UNICA