A

T

ALLENET , Thibault

Last name: ALLENET

First name: Thibault

February 26, 2025 (v1)

Conference paper

Metadata-only

Dynamic hierarchical token merging for vision transformers

Haroun, Karim Allenet, Thibault Ben Chehida, Karim

Vision Transformers (ViTs) have achieved impressive results in computer vision, excelling in tasks such as image classification, segmentation, and object detection. However, their quadratic complexity $O(N^2)$, where $N$ is the token sequence length, poses challenges when deployed on resource-limited devices. To address this issue, dynamic...

Uploaded on: April 5, 2025
December 2, 2024 (v1)

Conference paper

Metadata-only

Leveraging local similarity for token merging in Vision Transformers

Haroun, Karim Martinet, Jean Ben Chehida, Karim

Vision Transformers (ViTs) have shown promising results in computer vision tasks, challenging CNN architectures on image classification, segmentation and object detection. However, their quadratic complexity O(N 2 ), where N is the token sequence length, hinders their deployment on edge devices. To tackle this challenge, researchers have...

Uploaded on: January 13, 2025