Published June 16, 2020 | Version v1
Conference paper

Caractériser un texte en français : les passages-clés des niveaux A1 et A2 du CECRL.

Description

The topic of the levels of language, as defined by the Common European Framework of Reference for languages (CEFR), and that of our characterization and of their mastery is a crucial topic in the didactics of French as a foreign language and it overhangs the automatic analysis of corpora. Our research is based on a sample corpus composed of six levels: namely A1, A2, B1, B2, C1 and C2. This corpus, whose extent is 595.980 occurrences, is made of several oral texts drawn from many educational packages of French. On the one hand, our study will present the statistic extraction of saliences that mark a change of level according to the CEFR thanks to Hyperdeep. This tool utilizes a deep learning model (Vanni et al., 2020) able to extract the characteristics that give a unique imprint to the text. On the other hand, our research focuses on the patterns, which characterize texts corresponding to levels A1 and A2, thanks to the statistical analysis of textual data.

Abstract (French)

La question des niveaux de langue tels que définis par le Cadre Européen Commun de Référence pour les Langues (CECRL) (Conseil de l'Europe, 2001), de leur caractérisation et de leur maîtrise est une question centrale de la didactique du français langue étrangère (FLE) et surplombe l'analyse automatique des corpus. Notre recherche s'est appuyée sur un corpus échantillonné qui comporte six classes de niveaux de langue : à savoir A1, A2, B1, B2, C1 et C2. Ce corpus, dont l'étendue est de 595.980 occurrences, est constitué de nombreux textes oraux extraits de plusieurs ensembles pédagogiques de français langue étrangère (FLE). Notre contribution présentera d'une part, l'extraction statistique des saillances qui marquent un changement de niveau selon le CECRL grâce à Hyperdeep, qui exploite un modèle de deep learning (Vanni et al., 2020) capable d'extraire les caractéristiques qui donnent une empreinte unique du texte, et d'autre part, les passages-clés qui caractérisent les textes de niveaux A1 et A2 grâce à l'analyse des données textuelles (ADT) et plus précisément à la plateforme Hyperbase web.

Abstract

International audience

Additional details

Created:
December 4, 2022
Modified:
December 1, 2023