Published September 29, 2024 | Version v1
Publication

Cross-Modal Knowledge Distillation for Human Trajectory Prediction in Virtual Reality

Contributors

Others:

Description

Scene context informing on spatio-temporal interactions between people and other entities significantly improves accuracy of activity recognition and motion forecasting tasks, such as human trajectory prediction, but is difficult to obtain. Virtual reality (VR) offers an opportunity to generate and simulate diverse scenes with contextual information, which can potentially inform real-life scenarios. We design a teacher model leveraging heterogeneous graphs constructed from VR scene annotations to enhance prediction accuracy. This ongoing work proposes cross-modal knowledge distillation (CMKD), transferring the knowledge from the VR-constructed graphs to a student model that uses scene point clouds. Preliminary results show the potential of CMKD to transfer contextual information that significantly improves the prediction accuracy of the student model. Scene context informing on spatio-temporal interactions between people and other entities significantly improves accuracy of activity recognition and motion forecasting tasks, such as human trajectory prediction, but is difficult to obtain.

Abstract (French)

Le contexte de la scène, qui informe sur les interactions spatio-temporelles entre les personnes et d'autres entités, améliore considérablement la précision des tâches de reconnaissance d'activité et de prévision de mouvement, telles que la prédiction de trajectoires humaines, mais il est difficile à obtenir. La réalité virtuelle (VR) offre une opportunité de générer et de simuler des scènes variées avec des informations contextuelles, pouvant potentiellement éclairer des scénarios réels. Nous concevons un modèle enseignant exploitant des graphes hétérogènes construits à partir des annotations de scènes VR pour améliorer la précision des prédictions. Ce travail en cours propose une distillation de connaissances intermodales (CMKD), transférant les connaissances des graphes construits en VR vers un modèle étudiant qui utilise des nuages de points de scène. Les résultats préliminaires montrent le potentiel de la CMKD pour transférer des informations contextuelles qui améliorent significativement la précision des prédictions du modèle étudiant. Le contexte de la scène, qui informe sur les interactions spatio-temporelles entre les personnes et d'autres entités, améliore considérablement la précision des tâches de reconnaissance d'activité et de prévision de mouvement, telles que la prédiction de trajectoires humaines, mais il est difficile à obtenir.

Abstract

International audience

Additional details

Identifiers

URL
https://hal.science/hal-04771856
URN
urn:oai:HAL:hal-04771856v1

Origin repository

Origin repository
UNICA