Published June 14, 2000 | Version v1
Publication

Structural Recognition of printed and handwritten mathematical formulae

Description

This thesis describes the study and implementation of a component for structural recognition of handwritten or typesetted mathematical formulae. This work is related to document analysis and recognition fields of research. Our aim could be resumed as : how to recognize the mathematical notation, i.e. the abstract syntax tree of a formula, just with graphical and geometrical informations (symbols and their position). The design of our software, OFR (Optical Formula Recognition) enables us to reuse the same prototype with different OCR systems and to adapt the recognition process to a large variety of mathematical notations. To achive the structural recognition, we used a graph modelisation. This allows us to have all data in a synthetized format. We use an attributed contextual graph grammar for parsing graph, especially developped for mathematical operators. Thanks to formulae exchange protocols like OpenMath, the interface developped with the help of OFR may be used as a front end for writing mathematical ans send them to a computer algebra system like Mathematica.

Abstract (French)

Le sujet de ce mémoire est l'étude et la réalisation d'un composant pour la reconnaissance structurelle des formules mathématiques typographiées et manuscrites. Ces travaux s'inscrivent dans une thématique plus large : l'analyse et la reconnaissance de documents. La problématique générale que nous avons considérée peut se résumer de la manière suivante ; il s'agit d'identifier la structure, ou arbre de syntaxe abstraite, d'une formule à partir des données graphiques et géométriques (les symboles composant la notation et leur position). L'architecture logicielle retenue permet d'adapter très facilement le composant, baptisé OFR (Reconnaissance Optique de Formules), aux logiciels fournissant les symboles, ainsi qu'aux diverses notations mathématiques identifiées. Pour effectuer cette reconnaissance structurelle, nous avons eu recours à une modélisation à base de graphes. Elle permet une abstraction des données receuillies et une transformation de ces informations par la définition d'une grammaire de graphes contextuelle attribuée, spécialement adaptée aux opérateurs mathématiques. En nous appuyant sur des protocoles de communication d'objets mathématiques, comme OpenMath, nous pouvons envisager l'utilisation de l'interface développée autour d'OFR comme une alternative à la saisie des formules mathématiques.

Additional details

Created:
December 3, 2022
Modified:
November 29, 2023