Modèles formels et traitement automatique
1. Membres de l’opération
Membres rattachés à titre principal
Marcel Cori (responsable)
Sylvain Kahane (responsable)
Karine Baschung
Anne Lacheret
Jean-Luc Minel
Doctorants
Majid Salhi
Charles Teissèdre
Jeune chercheur associé
Fabrice Delumeau
Marie-Pierre Sales
Collaborations extérieures
Muriel Amar (BPI)
Antoine Auchlin (Université de Genève)
Marie-José Béguelin (Université de Neuchâtel)
Alain Berrendonner (Université de Fribourg)
Liesbeth Degand (Université de Louvain la Neuve)
Anne Dister (Université de Louvain la Neuve)
Kim Gerdes (Université Paris 3)
Majid Ihadjadene (Université Paris 10)
Shlomo Izral (Université de Tel Aviv)
François Lareau (Université de Montréal et Université Paris 7)
Jacqueline Léon (CNRS)
Jean-Marie Marandin ((Université Paris 7)
Piet Mertens (Université de Louvain)
Amina Mettouchi (Université de Nantes)
Rachel Panckhurst (Université Montpellier 3)
Alain Polguère (Université de Montréal)
Hi-Yon Yoo (Université Paris 7)
2. Problématique
Ces dernières années, dans le domaine du Traitement automatique des langues (TAL), les méthodes dites de « TAL robuste », fondées principalement sur des calculs statistiques effectués à partir de grands corpus, ont pris une importance grandissante. Ceci n’invalide pas une recherche en TAL qui s’appuie sur une approche linguistique et une modélisation formelle. En effet on s’aperçoit que les méthodes de TAL robuste produisent des réalisations imparfaites, qu’on essaie de corriger par la prise en compte de connaissances linguistiques. Et la modélisation formelle est indispensable si l’on souhaite une linguistique falsifiable et la réalisation d’outils informatiques raisonnés et révisables.
Par ailleurs, les recherches en linguistique se nourrissent de plus en plus d’investigations effectuées sur de grands corpus à l’aide d’outils informatiques. Il est important d’étudier les conséquences de cette utilisation des corpus sur les résultats de la recherche et, en particulier, d’observer si le choix des corpus et des outils de recherche a une influence sur les descriptions obtenues. Inversement, on s’intéressera aux outils effectivement utilisés en TAL, afin notamment de contribuer à la réalisation d’outils efficaces, d’avoir un jugement de linguistes sur ces outils, de participer à une évaluation des outils.
3. Actions
1) Description linguistique dans le cadre de modèles formels, comparaison de ces modèles
Nous travaillons au développement de différents modèles formels, ce qui permet, à travers une confrontation permanente, une mise en question et un enrichissement de chacun des modèles. La description des faits linguistiques se fait, dans la mesure du possible, indépendamment du choix du modèle que l’on a retenu, ainsi peut-on distinguer ce qui dépend effectivement des modèles. Dans la période à venir divers axes sont envisagés :
(1) La description sera centrée sur le lexique des classes fermées (articles, connecteurs, pronoms et tous les adverbes au comportement atypique). Il existe aujourd’hui des lexiques des classes ouvertes et semi-ouvertes (verbes, noms, adjectifs, adverbes, prépositions, déterminants) de qualité acceptable. Le développement d’une grammaire formelle, une fois résolues des questions comme l’ordre des mots ou l’accord, consiste essentiellement à modéliser le comportement des mots outils de la langue. Par exemple, l’intégration d’un mot comme fois qui possède simultanément un comportement de nom (il se combine avec un déterminant) et une distribution d’adverbe (il est venu plusieurs fois) peut remettre en cause l’architecture complète d’un modèle. Un fragment de grammaire de français en Grammaire d’Unification Sens-Texte est en cours de développement.
(2) Dans le cadre des grammaires d’arbres polychromes, outre les descriptions de l’infinitif et de l’adjectif en français, il est prévu d’avancer le travail qui a été effectué sur le créole guadeloupéen. En particulier, la combinaison des auxiliaires de prédication sera représentée sous la forme de relations qui s’intègrent dans une base de données et on pense en déduire une procédure originale d’analyse morphosyntaxique.
(3) Dans le cadre des recherches en HPSG, on développera un travail de formalisation des descriptions en cours dans le domaine des constructions comparatives (voir collaborations Desmets & Moline à ce sujet). On proposera une analyse syntaxique formelle des comparatives de degrés et des comparatives dites de manière (en comme), on se penchera sur les problèmes d’interface syntaxe-sémantique, en particulier sur les problèmes de congruences entre analyse syntaxique et analyse sémantique posés par les formes à ellipses et l’on proposera une théorie de l’ellipse inspirée de Ginzburg & Sag (2000) pour le traitement des fragments phrastiques.
2) Intonosyntaxe
La problématique explorée est la suivante : la modélisation automatique et la compréhension du rôle des marqueurs prosodiques et syntaxiques dans l’organisation du discours (ANR corpus en cours d’évaluation). En pratique, il s’agit de développer des outils de segmentation automatique du discours (unités minimales du discours) basés sur trois types d’indices : exclusivement prosodiques, exclusivement syntaxiques, intonosyntaxiques pour d’une part proposer une évaluation quantifiée de chaque type d’indices dans la segmentation de la chaîne parlée, d’autre part améliorer les performances des analyseurs syntaxiques des langues en se fondant sur la prosodie.
3) Observation des corpus, outillage informatique et évaluation
A la suite du travail de Cori et David (à paraître), il s’agit tout d’abord de s’interroger sur les rapports entre l’attesté (ce qu’on trouve dans les corpus) et le « possible de langue » (Milner), et en déduire ce qu’il en ressort pour des théories linguistiques fondées sur les corpus. Ce qui dépend évidemment des supports sur lesquels on va chercher ses données. Ainsi, si on se réfère au Web, on trouvera abondamment des productions « hors norme », dont il faudra savoir quel statut leur donner ; mais de telles productions se trouvent aussi dans des corpus plus orthodoxes. Dès lors, le problème se pose d’un réexamen de ce que l’on peut considérer comme étant la norme linguistique. Inversement, on s’interrogera sur des productions qui paraissent à l’évidence appartenir à la langue mais qui sont absentes de certains corpus, si grands soient-ils.
On participera également à la réalisation d’outils informatiques, parmi lesquels des outils d’exploration des corpus, des outils d’extraction d’informations, notamment d’extraction d’informations lexicales à partir de corpus ou du Web, des outils de transformation des informations à travers des grammaires de texte, ainsi qu’à la réalisation d’un analyseur linguistique multi niveaux. Par ailleurs, le travail déjà engagé sur l’évaluation sera poursuivi.
- Vues: 9398