Modélisation et grammaires d’usage basées sur les corpus
Dirigée par Christophe Parisse
1. Noms des membres de l’opération
Guillaume Desagulier, Philippe Gréa, Sylvain Kahane, Maria Kihlstedt, Anne Lacheret, Bernard Laks, Sarah Leroy, Christophe Parisse, Atanas Tchobanov
2. Noms des doctorant(e)s de l’opération
Katherine Asla Ostby (Dir. Bernard Laks, cotutelle Oslo), Julie Beliao (Dir. Sylvain Kahane, Anne Lacheret), Janine Berms (Dir. Bernard Laks, cotutelle Nimègue), Evguenia Besthastnova (Dir. Bernard Laks, cotutelle Moscou), Olivier Bondéelle (Dir. Sylvain Kahane), Jihye Chun (Dir. Sylvain Kahane), Esmaeel Farnoud (Dir. Bernard Laks, cotutelle Téhéran), Maria-Luisa Fernandez (Dir. Bernard Laks, cotutelle Madrid), Sandrine Leroy (Dir. Christophe Parisse, cotutelle Liège), Maxence Lureau (Dir. Bernard Laks, cotutelle Florence), Gaïd Prigent (Dir. Christophe Parisse, cotutelle Liège), Lucie Vercruyssen (Dir. Anne Lacheret, cotutelle Neuchâtel), Xiaole Wang (Dir. Christophe Parisse)
3. Partenariats
3.1. Collaborations
- - Université d’Orléans (Laboratoire Ligérien de Linguistique, UMR CNRS 7270)
- - Université Paris III Sorbonne Nouvelle (Prismes, EA 4398)
3.2. Collaborations contractualisées
L’ÉquipEx Ortolang (Open Resources and Tools for Language) a pour but, en autre, de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui permette, au travers d’une véritable mutualisation, l’analyse, la modélisation et le traitement automatique du langage. Dans cette optique, des corpus finement contrôlés issus de MoDyCo (en particulier PFC, Colaje, Rhapsodie) et d’autres laboratoires seront enrichis et rendus disponibles. Des outils seront développés pour faciliter l’accès aux corpus et leur utilisation pour la recherche.
4. Descriptif scientifique de l’opération
4.1. Projet scientifique
Si l’utilisation de corpus en linguistique et leur exploitation sous l’angle probabiliste n’est pas nouvelle, elle s’est systématisée depuis une dizaine d’années et prend aujourd’hui une ampleur considérable, sous l’influence conjointe d’Internet, qui facilite et accélère le partage des corpus de langage, et des progrès en informatique. L’ampleur et la diversité des corpus existants a participé à un renversement des relations entre données et théories dans lequel les données, autrefois destinées à valider les modèles théoriques formulés a priori, forment aujourd’hui les bases à partir desquelles vont émerger des descriptions et des classifications avec lesquelles on pourra valider et construire les théories linguistiques et de nouveaux modèles, par exemple celui de la linguistique basée sur l’usage.
La recherche en linguistique et en modélisation basée sur les corpus n’est pas uniquement synonyme de l’utilisation de corpus de très grande taille. La qualité des annotations que peut contenir un corpus est également fondamentale, les besoins variant de plus entre l’oral et l’écrit. Par exemple, pour une recherche qualitative approfondie de la prosodie et de l’intonosyntaxe qui repose sur des traitements linguistiques fins et exhaustifs, des corpus de quelques heures de parole (comme le corpus Rhapsodie) peuvent être considérés comme de gros corpus, tant le niveau d’observation et l’instrumentation requise sont minutieux. Les corpus PFC et Colaje, tout en représentant des données de taille importante au niveau français et même mondial, présentent tout deux la propriété d’être richement annotés ou contrôlés, PFC par la diversité des locuteurs et l’importance attachée à la description des variations, Colaje par la longueur des suivis longitudinaux et leur transcription multi-niveaux.
Ces corpus (PFC, Colaje, Rhapsodie) ont été rendus disponibles à la communauté scientifique et forment la base du travail théorique et appliqué du laboratoire dans les années à venir.
Il est donc devenu possible de développer une linguistique fondée uniquement sur des faits de langage provenant de corpus. Dans ces conditions, les raisonnements peuvent et doivent s’appuyer sur un fondement empirique solide que seule une étude statistique de corpus couplée à une analyse de détail des constructions censées être représentatives de faits attestés permet de constituer. Cette linguistique repose aussi sur des modélisations linguistiques et mathématiques utilisant les outils de disciplines comme l’informatique, les traitements automatiques du langage ou la reconnaissance automatique de formes. Nous nous intéresserons tout particulièrement aux formalismes capables de rendre compte de la nécessaire plasticité des modèles linguistiques, de la possibilité de faire émerger des constructions et d’ajouter des informations structurelles sur la chaîne parlée.
Enfin, la linguistique propose aujourd’hui une approche théorique compatible avec les faits statistiques : les grammaires d’usage, approche compatible aussi bien avec les faits phonologiques, prosodiques, syntaxiques, sémantiques ou pragmatiques qu’avec les analyses diachroniques, développementales et typologiques. Cette approche s’oppose à l’approche générativiste en renversant son paradigme (les données fondent les modèles et non l’inverse, cf. Laks, 2008) et présente de nombreuses affinités et points communs avec les linguistiques fonctionnelles et énonciatives. Dans sa définition première, l’approche fondée sur l’usage considère que la grammaire s’acquiert et se constitue par une constante exposition aux usages linguistiques de la communauté des locuteurs. La grammaire n’est donc pas un module cognitif autonome gouverné par des règles abstraites, mais un ensemble de représentations symboliques dynamiques dont l’architecture s’adapte constamment à la diversité des usages (Langacker, 1988, 1999, pp. 91-145)
C’est dans ce cadre de travail que se situe l’opération « Modélisation et grammaires d’usage basée sur les corpus ». Le but de l’opération est de promouvoir, au sein du laboratoire MoDyCo l’utilisation de treebanks et de corpus annotés (phonologie, prosodie, syntaxe, mais aussi annotation multimodale) comme bases de faits utilisées dans le travail linguistique, pour la modélisation, dans une optique de grammaires d’usage qui a la particularité de mettre en œuvre simultanément différents niveaux d’analyse linguistique. Les travaux des membres de l’opération, tout en partageant les principes évoqués ci-dessus, recouvrent plusieurs champs de la linguistique tels que la prosodie, la phonologie, la syntaxe, la sémantique, l’acquisition du langage et la typologie. On s’intéressera aussi aux interfaces : interface prosodie-syntaxe-discours, interface syntaxe-sémantique-pragmatique, etc. Nos objectifs permettront de faire émerger des descriptions et des structures linguistiques (en particulier des catégories par clusterisation par exemple), et de mieux comprendre les phénomènes étudiés.
4.2. Spécificités du projet scientifique
L’opération comprend trois actions qui se sont constituées lors de projets passés, présents ou en perspective, et qui correspondent à des approches variées et complémentaires, tant du point de vue des thèmes abordés, des techniques utilisées que des approches théoriques. Cette décomposition en sous-thèmes n’exclut pas les coopérations entre actions, notamment dans la création des corpus, l’outillage et l’instrumentation.
Action prosodie-syntaxe
Cet axe vise à étudier de quelle manière sont organisées les informations prosodiques de la langue et les rapports entre structuration prosodique et structuration syntaxique (micro- et macro-syntaxique). L’axe aborde aussi plusieurs problèmes théoriques : Comment penser une modélisation continue et émergente de la prosodie ? Dans quelle mesure l’observation des données et la pratique de l’annotation des corpus nous informent sur la compétence prosodique des sujets parlants et sur le type de représentation prosodique qu’ils construisent ? Comment segmenter un discours en unités syntaxiques maximales ? Quelles sont les structures microsyntaxiques du français, en particulier les entassements paradigmatiques et les constructions verbales complexes. Ces problèmes sont abordés à partir des annotations du treebank Rhapsodie. Il s’agit d’un corpus de 3 heures annoté en prosodie et syntaxe. Il comporte une annotation systématique des proéminences prosodiques, une arborescence en constituants prosodiques, une annotation systématique des relations de rection et d'entassement et diverses arborescences syntaxiques dont un découpage macrosyntaxique en unités illocutoires. L'équipe souhaite maintenant exploiter les données contenues dans ce treebank en vue d'élaborer des modèles de la prosodie, de la syntaxe et de l'interface prosodie-syntaxe en français parlé. Ce treebank étant le premier corpus systématiquement annoté en prosodie et syntaxe, il doit également servir d'expérience pilote pour le développement de treebanks dans d'autres langues en collaboration avec des équipes étrangères.
Modélisation de la prosodie du français : architecture et forme des représentations
Si l’on admet l’hypothèse selon laquelle la compétence prosodique appartient à part entière à la grammaire au même titre que les composantes phonématique, syntaxique et sémantique, il s’agit de s’interroger sur l’architecture et la forme des représentations prosodiques intériorisées par le sujet parlant : représentations symboliques permanentes (tonale et accentuelle) vs commandes motrices transitoires (phrasing rythmique, gestes mélodiques) ; représentations de signifiants et de signifiés autonomes (contours mélodiques comme signes ou indices ?) vs principes d’appariement de structures complexes reposant sur le couplage de modules de traitement (représentations syntactico-prosodique, sémantico-prosodique, pragmatico-prosodique) ; représentations déclaratives vs procédurales (règles combinatoires et distributionnelles et / ou savoir-faire communicationnels ?). Quelle réponse apporter lorsque l’on tente de modéliser la prosodie du français, qui, par bien des aspects, se laisse difficilement saisir sous l’angle typologique. Plusieurs hypothèses, orientations méthodologiques et objectifs guident ce travail.
(i) Ne pas chercher à reconstruire un système prosodique homogène, stable et invariant déterminé a priori à partir de contraintes syntaxiques fortes qui en fixent l’étendue, comme cela est conçu dans les modèles prosodiques standards, mais considérer au contraire l’hétérogénéité comme la condition même de la viabilité du système. Autrement dit, les patrons intonatifs sont vus comme des entités dynamiques qui ont une certaine part d’indétermination (par rapport à des contraintes structurales de base) et s’organisent en fonction des relations sémantico-pragmatiques dans lesquelles elles entrent. La valeur sémiotique de la prosodie découle donc d’un jeu complexe de combinatoires et de constructions qui reflètent à la fois la nature référentielle du message (ce dont il parle), la fonction communicative (l’apport d’informations, l’expression du point de vue et des émotions, enfin la régulation de la co-énonciation). Dans ce processus intersubjectif, ce n’est pas dans la perception d’unités prosodiques isolées au sein du continuum sonore que la signification peut émerger mais dans les relations structurales que ces unités tissent entre elles et avec les autres composantes du système de la langue.
(ii)Proposer un modèle séquentiel pour rendre compte des structures de performance observées dans l’usage. Par séquentiel, nous entendons : (i) un traitement émergent et autonome de la structure prosodique et de ses différents constituants dérivés uniquement sur des bases perceptives et acoustiques, (ii) une interprétation fonctionnelle, qui n’intervient que dans un second temps, une fois les primitives construites, autour de deux composantes majeures : la fonction informationnelle d’une part, les marqueurs de la prosodie affective d’autre part.
Pour mener à bien ce projet, nous comptons continuer à travailler en majorité sur les données de la parole ordinaire en portant une attention soutenue à toutes les formes mal formées qui tournent mal au regard des grammaires prosodiques standards, notamment les contextes de disfluences nombreux dans ce genre de données. Il s’agira de continuer à exploiter les outils de traitement et de représentations prosodiques développés dans le cadre du projet financé Rhapsodie (cf. Bilan). Les productions des populations atypiques présentant des troubles cognitifs variés (sujets autistes, Alzheimer) seront également un matériel privilégié pour mieux sonder la notion de représentation prosodique bien formée, l’opposition structures permises vs non permises, prosodies typiques vs prosodies atypiques et finalement la notion même de dysprosodie qui fait aujourd’hui débat.
Intonosyntaxe
Nous poursuivrons l’un des objectifs majeurs qui a été le nôtre ces 4 dernières années pour la conduite du projet Rhapsodie à l’interface de la prosodie, de la syntaxe, de la sémantique et du discours (cf. projets financés) : identifier des unités, i.e. des zones de cohésion syntaxique, prosodique et discursive, pertinentes pour la segmentation et l’analyse de l’oral par le biais de protocoles d’annotation semi-automatisés stables (partenaires dans le dépôt du projet ORFEO dans le cadre du dernier appel d’offre Corpus, J.M. Debaisieux, P3 dir.). Il s’agira par là-même de montrer comment l’annotation des données orales tout-venant, loin de se restreindre à des objectifs pratiques, sert également de levier pour impulser des propositions théoriques qui engagent de nouveaux modes de représentation et permet de penser autrement les unités. Ce programme générique se décline en deux thématiques : (i) enrichir le protocole d’annotation intonosyntaxique défini dans Rhapsodie par un protocole d’annotation des expressions référentielles suffisamment générique pour qu’il serve à différents types de corpus et de données langagières (parole ordinaire vs productions atypiques et pathologiques), (ii) identifier des constructions, c’est-à-dire des associations conventionnelles de formes et de fonctions linguistiques qui s’établissent dans les structures de l’oral, en particulier des constructions relevant de la parole affective et du marquage des émotions.
Pour ce qui est du premier thème, nous avons mis en place un atelier pour l’heure informel avec différents membres du Lattice sur l’annotation de la référence à l’oral qui conjugue trois expertises : l’annotation de la prosodie (MoDyCo), celle de la syntaxe (MoDyCo et Lattice) et celle de la référence (Lattice) qui débouchera sur une proposition de projet ANR. Nous participons par ailleurs au projet FNS suisse « Discours et théorie de l’esprit : utilisation d’indices référentiels et prosodiques pour évaluer l’attribution de connaissances aux autres en situation d’interaction verbale » (Université de Neuchâtel M. Fossard dir., 2012-2015) pour le pilotage du traitement prosodique des données. Selon l’hypothèse envisagée, la réalisation des proéminences accentuelles et le phrasing mélodique seraient associés de façon centrale aux marqueurs de référence, jouant un rôle majeur pour diriger l’attention de l’auditeur sur l’objet de discours en cours et réguler les processus d’attention conjointe.
Pour ce qui est du second volet, l’hypothèse sous-jacente au travail se décline en trois points : (1) le marquage des émotions dans la langue ne relève pas seulement du vocabulaire (lexique des émotions) mais également de la syntaxe : constructions dédiées à cette fonction (par exemple,. la construction c’est à + infinitif marquerait l’enthousiasme, la joie : c’est à se tordre de rire, la construction se faire+ infinitif : la tristesse, l’indignation : je me suis fait avoir), (2) à ces constructions verbales sont associés des patrons prosodiques obligatoires, indispensables pour le marquage linguistique des émotions (MLE). En d’autres termes, le MLE est un processus à double face qui convoque simultanément du matériel verbal syntactico-sémantique et du matériel vocal prosodique. En conséquence, (3) un profil prosodique erroné greffé sur une construction verbale censée convoyer une émotion spécifique entrainera une incongruité sémantique (mismatching de formes) et une non reconnaissance ou, tout au mieux, une reconnaissance très perturbée de l’émotion sous-jacente (par exemple, je me suis fait avoir avec un profil prosodique joyeux). Cette question de la relation entre prosodie et sémantique des émotions est fondamentale pour la linguistique qui s’intéresse à la modélisation expressive de la grammaire. Elle est fondamentale également en psychopathologie du langage pour l’étude de certains troubles où, justement, il y a dissociation des marqueurs verbaux et vocaux. Pour une première exploration de cette thématique, nous nous fonderons sur les corpus récoltés dans le cadre de l’ANR ICEO Interactions Émotions Cognition dans la modalité olfactive (voir projets financés) de façon à faire émerger, à partir d’une approche multiparamétrique (paramétrages syntaxiques, sémantiques et prosodiques) des constructions prototypiques, déterminantes d’une valence affective ou hédonique de l’odeur. Cette recherche associe également Guillaume Desagulier et Philippe Gréa.
Syntaxe
La syntaxe a été longtemps définie comme l’étude de l’organisation des mots dans la phrase, ce qui revient de fait à considérer la phrase comme l’unité maximale de la syntaxe et comme une donnée préalable à l’étude de la syntaxe. Les travaux menés depuis plus de 40 ans sur des corpus de français parlé ont montré toute la difficulté qu’il pouvait y avoir à segmenter un discours en unités syntaxiques maximales. Ces travaux ont en particulier conduit à l’émergence de la notion de macrosyntaxe et de regroupements syntaxiques qui ne sont pas seulement basés sur la rection. La formalisation de la macrosyntaxe a été commencée dans le cadre du projet Rhapsodie où une annotation systématique de l’organisation macro- et microsyntaxique a été effectuée. Nous souhaitons poursuivre le recensement des principales constructions macrosyntaxiques à travers le dépouillement des annotations macrosyntaxiques du treebank Rhapsodie et fournir ainsi un réel modèle macrosyntaxique du français. Envisager les constructions macrosyntaxiques en tant que constructions supposent aussi d’étudier leur réalisation prosodique, leur contribution sémantique et leur rôle pragmatique. Nous étudierons tout particulièrement la segmentation en unité de discours, les relations entre ces unités et le rôle des éléments « flottants » tels que les marqueurs de discours. Nous souhaitons également poursuivre les travaux sur la microsyntaxe du français à partir des annotations du treebank Rhapsodie, en particulier les entassements paradigmatiques et les constructions verbales complexes. À l’interface de la macrosyntaxe et de la microsyntaxe se place l’étude des unités rectionnelles qui vont au-delà des unités illocutoires et peuvent même se développer sur plusieurs tours de parole. Ce phénomène est notamment la source d’un grand nombre d’unités illocutoires dont la tête n’est pas un verbe (et que d’aucun appelle des phrase averbales) dont nous ferons une étude exhaustive. Notre objectif est à la fois d’extraire une grammaire de ces constructions et d’en déterminer la pertinence statistique sur nos corpus.
Action sémantique-syntaxe
D’un point de vue méthodologique, cette action procède à une analyse de corpus grâce à des outils statistiques. Elle s’inspire en cela de travaux européens récents (Gries & Stefanowitsch, 2004 ; Stefanowitsch & Gries, 2003, 2005). Le but est de faire ainsi apparaître de nouveaux observables de nature constructionnelle (au sens de Goldberg, 1995, 2003, 2006, 2009). Les membres de l’action sémantique-syntaxe souhaitent plus spécifiquement apporter un regard critique sur l’approche lexicométrique traditionnelle et proposer de nouvelles méthodes statistiques plus à même de déceler des schémas constructionnels en contexte. Parmi ces nouvelles méthodes figurent les statistiques multifactorielles exploratoires (Desagulier, à paraître).
Ces méthodes doivent permettre de mesurer les évolutions constantes et imperceptibles de constructions, l’émergence de nouveaux sens ou de nouvelles constructions sur des données variables en genre et / ou étalées dans le temps. On peut ainsi détailler des instances variées de constructions apparemment figées, en fonction des types sémantiques des éléments lexicaux les composant. L’utilisation statistique des corpus est donc un moyen d’appuyer la description des données sur une base empirique solide. Mais elle s’inscrit aussi dans un arrière-plan cognitif où le statut d’unité linguistique est corrélé à une question de fréquence. Dans ce cadre, la notion d’ancrage (entrenchment), c’est-à-dire le degré d’enracinement d’une unité dans les usages, permet de faire tenir ensemble différentes problématiques que la tradition avait tendance à dissocier : grammaticalisation, polysémie, figement, etc.
Grammaire du nom propre à l'oral
Dans le champ du lexique et de la sémantique, plusieurs niveaux d’analyse sont convoqués : le niveau des unités grammaticales, du lexème et celui de la construction.
Le cadre théorique choisi pour traiter des catégories lexicales (au sens d’Aronoff, 2000) est celui du lexème, unité à trois plans, le plan phonique / graphique, le plan catégoriel et le plan sémantique (cf. Fradin, 2003). Dans ce cadre, on s’attache ainsi à décrire la catégorie du nom propre en tant que catégorie lexicale dotée d’un sens de type catégoriel, les lemmes noms propres (cf. Van Langendonck, 2007) ; ce cadre est aussi celui dans lequel sont abordés les phénomènes morphologiques d’affixation, de composition ou de conversion. L’approche du nom propre est également constructionnelle, s’attachant à décrire dans toute leur variété les constructions du nom propre en discours (cf. Van Langendonck, 2007), à l’écrit comme à l’oral et le continuum entre des constructions induisant la catégorie nom propre et d’autres l’excluant. L’utilisation de données écrites, mais aussi orales, est novatrice dans ce domaine et permet une approche émergentiste susceptible de renouveler les descriptions linguistiques du nom propre.
L’utilisation de corpus permet en outre d’appliquer les outils statistiques aux constructions grammatico-lexicales (au sens de Goldberg, 1995) et de faire ainsi apparaître de nouveaux observables. Par exemple, si certaines constructions (être une partie de et faire partie de) ou certaines unités grammaticales (les déterminants quelques et plusieurs) sont généralement conçus comme synonymes, le calcul des spécificités permet de montrer en quoi elles s’opposent. Cette méthodologie est utilisée depuis longtemps dans le domaine de l’analyse de discours pour mettre en relief les tactiques discursives à l’œuvre dans des textes particuliers (Lafon, 1980). Mais son application dans le domaine de la sémantique et du lexique est en revanche plus originale et connaît un développement relativement récent dans le cadre des grammaires de constructions (Stefanowitsch & Gries, 2003). Dans cette optique, il devient possible d’identifier des rapports d’attirance et de répulsion qui sont des clefs d’entrée pour une caractérisation sémantique (nous avons échangé quelques paroles vs *nous avons échangé plusieurs paroles ; j’utilise plusieurs moyens de transport vs *j’utilise quelques moyens de transport). Ces méthodes permettent en outre de mesurer les évolutions constantes et imperceptibles de constructions, l’émergence de nouveaux sens ou de nouvelles constructions sur des données variables en genre et / ou étalées dans le temps. On peut ainsi détailler des instances variées de constructions apparemment figées, en fonction des types sémantiques des éléments lexicaux les composant (une fille comme elle vs une maladie comme la lèpre, qui constituent deux réalisations distinctes, sur le plan de la construction du sens, d’une même construction pseudo-comparative).
L’utilisation statistique des corpus est donc un moyen d’appuyer la description des données sur une base empirique solide. Mais elle s’inscrit aussi dans un arrière-plan cognitif où le statut d’unité linguistique est corrélé à une question de fréquence. Dans ce cadre, la notion d’entrenchement, c’est-à-dire le degré d’enracinement d’une unité dans les usages, permet de faire tenir ensemble différentes problématiques que la tradition avait tendance à dissocier : grammaticalisation, polysémie, figement, etc. Par exemple, deux constructions marquant la relation partie / tout en français, [NP0 être une partie de NP1] et [NP0 faire partie de NP1] s’avèrent très différentes dans leur fonctionnement sémantique, ce qui a pour effet de produire des énoncés figés d’un emploi tout à fait spécifiques (être la partie cachée de l’iceberg vs faire partie des meubles). En se fondant sur des faits statistiques de fréquence, il devient ainsi possible de mettre au jour les relations de détermination qui existent entre construction grammaticale, énoncés figés et polysémie, et de jeter un pont entre linguistique de corpus et cognition.
Action variation-développement
Cette action s’intéresse particulièrement aux notions de variation et de dynamique des comportements langagiers. Les recherches menées dans ce cadre reposent sur la notion de modèles dits « exemplaristes » ou fondés sur l’usage. L’approche théorique est celle des grammaires de construction au sens de Goldberg (1995) ou de Croft (2000). Notre but est de démontrer de quelle manière les connaissances langagières se structurent automatiquement avec l’usage (cf. Bybee, 2001) aussi bien dans des situations de variations entre interlocuteurs, variations régionales et sociologiques (cf. Labov, 1994, 2001), typologique et diachronique (cf. Croft, 2001) et développementale (cf. Tomasello, 2003, et Goldberg, 2006).
Les travaux de cet axe reposent principalement sur le corpus PFC pour l’étude de la phonologie (en particulier les phénomènes de variantes de prononciation des liaisons et du e muet) et sur le corpus Colaje pour l’étude du développement morphophonologique, syntaxique et sémantique chez le jeune enfant. Dans les deux cas, il s’agit de mieux comprendre la notion d’exemplaire et les mécanismes qui permettent de les identifier (repérage de chunks), les catégoriser et les manipuler (par exemple par analogie). Les mécanismes étudiés sont liés en particulier à la notion de fréquence (voir aussi les recherches de l’axe syntaxe-sémantique), et notamment de fréquence d’occurrence ou de fréquence de type, mais aussi de variabilité, d’hétérogénéité et de multimodalité. En particulier, comment la variation et l’hétérogénéité représentent, non pas un épiphénomène à écarter, mais au contraire les ingrédients fondamentaux de la capacité de généraliser et de construire dynamiquement le langage ? Enfin, cet axe aborde aussi la question de la relation entre forme et fonction (dans les grands corpus ou dans le développement du langage) et en particulier la question de la manière dont peuvent se constituer des catégorisations sémantiques non-discontinues.
Les travaux de cet axe sont basés sur des modélisations à partir de grands corpus (PFC, Colaje, BNC, Corpus dense de CHILDES) portant sur les structures morphophonologiques de la langue adulte et sur les processus développementaux permettant à l’enfant d’acquérir une grammaire de sa ou de ses langues. Des modélisations sur le développement des enfants bilingues sont envisagées, ces enfants permettant un angle d’analyse inédit jusqu’ici inexploré sur le développement selon des fréquences d’usage ou selon l’appropriation des catégories dans deux langues. L’axe développemental comprend aussi des études psycholinguistiques (approche développementale de la catégorisation et de l’analogie) permettant de lier corpus de langage et comportement.
Phonologie, modélisation
La finalité primaire de cette action est de mettre l’emphase sur les projections de la variabilité phonétique (en production et en perception) dans le domaine phonologique où la catégorisation a lieu. Ce travail est cadré dans un domaine de la modélisation psycho-computationnelle faisant appel à des algorithmes d’apprentissage automatique.
La finalité secondaire est la possibilité d’obtenir et étudier, en termes computationnels, le continuum de réalisation dans lequel tombent certains phénomènes linguistiques. Plus particulièrement, on s’intéressera au niveau phonétique et son interface avec le niveau phonologique.
À partir de deux différents types de représentation des données (acoustique et distributionnelle : base de donnée PFC) nous cherchons à structurer une « connaissance phonologique » cohérente qui prenne en compte les facteurs propres de la catégorisation phonétique et phonologique (classe phonétique, comportement phonologique, etc.). Dans cette première étape, des évaluations sont possibles (dans quelle mesure le résultat de la catégorisation opérée par le système d’apprentissage reflète-t-il les données structurales ?). Par exemple, Calderone, Laks et Tchobanov (2009) ont montré qu’il était possible d’obtenir des informations probantes sur le niveau d’organisation syllabique à partir des variations et des régularités phonotactiques, analysées au niveau des séquences de phones. Également, Calderone (2008 et 2009) montre, à l’aide d’algorithmes non supervisés, qu’il est possible d’utiliser les informations distributionnelles et phonotactiques pour généraliser des comportements morphologiques (les propriétés morphosyntaxiques de la langue en question) et phonologiques (la distinction basique entre voyelle vs consonne, la nature des catégories phonologiques, les phénomènes phonologiques comme l’harmonie vocalique en finnois, etc.). Ces recherches utilisent des techniques d’apprentissage non supervisé comme les Cartes Auto-Adaptatives (Self-Organizing Maps, SOMs, Kohonen, 2001), l’Analyse en Composantes Indépendantes (Independent Component Analysis, ICA, Hyvärinen et al., 2001) et l'Analyse en Composantes Principales (Principal Component Analysis, PCA, Jolliffe, 2002).
Exemplaires, catégorisation, analogie
Les théories de linguistique cognitive, dont en particulier les grammaires de construction, suggèrent que les structures langagières de base sont des « constructions » qui peuvent aller de formes totalement figées — des exemplaires (y compris donc les formes lexicales) — à des formes productives correspondant à tout un ensemble de formes possibles (tout un ensemble d’exemplaires potentiels pouvant être produits ou compris). Il y aurait une gradation totale entre ces deux extrêmes, de nombreuses constructions étant semi-productives, c’est-à-dire ne correspondant qu’à un nombre réduit et peu extensible de formes (Goldberg, 2006). L’ensemble des constructions peut se décrire sous la forme d’un réseau hiérarchisé. La structure de ce réseau et des catégories qui le composent est dynamique, reliant entre eux les différents exemplaires entendus et produits. Les catégories et structures se définissent sur la base du continu et non d’ensembles discrets.
L’un des points cruciaux des théories de type grammaire de construction est que les caractéristiques linguistiques (réseau, catégories, exemplaires) sont produites au fur et à mesure de l’usage de formes langagières par des mécanismes cognitifs comme la mémorisation, la catégorisation, la détection de chunks, la réalisation d’analogie. Ces mécanismes correspondent à des fonctions cérébrales et sont fortement influencés par les phénomènes de fréquence, de répétition, de contexte, de multimodalité, d’attention.
Le but de l’action variation-développement est d’étudier de quelle manière se créent des catégories langagières, quelle influence les différents types de fréquences jouent sur leur structuration, quelles formes et propriétés prennent les exemplaires utilisés.
Les travaux réalisés utilisent des corpus de large volume (PFC, Colaje, BNC, Corpus dense de CHILDES) pour travailler sur les catégorisations sémantiques (chez l’adulte et chez l’enfant), sur l’apparition de formes lexicales stables durant les premières étapes du développement langagier ou sur la création de nouveaux énoncés à partir d’un stock lexical. Une attention particulière sera consacrée au développement du lexique verbal chez des enfants bilingues, où la problématique des fréquences d’usage de certaines formes verbales sera pondérée par celle de l’appropriation des catégories aspecto-temporelles de chacune des deux langues. L’accès à deux systèmes permettra de mieux faire la part entre catégorisation de source analogique ou fréquentielle et celle relevant d’une généralisation d’une notion sémantique à toutes sortes de verbes au cours du développement. En d’autres mots, le poids entre fréquences et grammaticalisation (Bybee, 2001, 2010). Les techniques utilisées pour ces travaux comprennent l’analyse en composantes principales et l’analyse de correspondance multiple, les techniques de classification non supervisées et des simulations sur ordinateur.
5. Ressources produites
En dehors de la maintenance et de l'enrichissement des corpus et de leurs annotations, des plateformes de consultation et de requêtage des corpus annotés, des ressources corpus produites autour du projet Ortolang et des futurs projets financés, l’opération « Modélisation et grammaires d’usage basées sur les corpus » organise 4 à 5 fois par an un séminaire public destiné à présenter les activités de recherche de ses membres ou de personnes extérieures ayant des relations directes avec les thèmes de l’opération.
Ce séminaire est destiné avant tout à être un lieu d’échange et de discussion sur les travaux des membres de l’opération. Il pourra aussi être l’occasion d’échanges sur les moyens techniques des travaux de recherche, en particulier l’usage de statistiques (comme par exemple calcul de spécificités) ou d’outils de modélisation (comme par exemple réseaux de neurones formels ou techniques d'apprentissage de grammaires).
Au-delà de la réflexion théorique sur la nature des modèles linguistiques, l'équipe vise à produire des modèles opérationnels en collaboration avec des équipes de traitement automatique des langues, notamment par apprentissage automatique sur les corpus annotés qu'elle développe.
Enfin, le domaine de la modélisation et du traitement automatique des corpus, mais aussi les recherches sur l’intonation, la prosodie, la syntaxe, la sémantique, le développement du langage peut avoir de nombreuses applications pratiques. Par exemple, la prise en compte de la prosodie (et en particulier des liens entre prosodie et syntaxe) peut améliorer les outils de traitement syntaxique automatique, mais aussi de dialogue (gestion des émotions par exemple). Les travaux sur la sémantique peuvent permettre d’améliorer la catégorisation automatique de texte. L’étude du développement langagier peut amener à la création d’outil d’évaluation du langage basé sur des corpus (lien avec l’opération « Savoir parler, savoir communiquer, un enjeu sociétal » à MoDyCo).
6.Bibliographie
Bybee, J. L. (2001). Phonology and language use. Cambridge : Cambridge University Press.
Bybee, J. (2010). Language, Usage and Cognition. Cambridge University Press.
Calderone, B. (2008). Unsupervised Decomposition of Morphology. A Distributed Representation of the Italian Verb System. In Proceedings of Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR 2008), Porvoo, Finland, pp. 82–89.
Calderone, B., (2009). Learning Phonological Categories by Independent Component Analysis. Journal of Quantitative Linguistics, 16(2), 132-156.
Calderone, B., B. Laks, A. Tchobanov (2009). Syllabic Receptors and Syllabification, LACUS 2009 (Linguistics association of Canada and USA), Claremont, California, USA.
Croft, W. (2000). Explaining Language Change: An Evolutionary Approach. Harlow, England: Pearson Education.
Croft, W. (2001). Radical construction grammar: syntactic theory in typological perspective. Oxford University Press.
Desagulier, G. (à paraître). Visualizing distances in a set of near-synonyms: rather, quite, fairly, and pretty. In D. Glynn & J. Robinson (Eds.), Polysemy and Synonymy: Corpus Methods and Applications in Cognitive Linguistics. Amsterdam: John Benjamins.
Fradin, B. (2003), Nouvelles approches en morphologie, Paris : Presses Universitaires de France
Goldberg, A. E. (1995). Constructions : a construction grammar approach to argument structure. Chicago: University of Chicago Press.
Goldberg, A. E. (2003). Constructions: a new theoretical approach to language. Trends in cognitive sciences, 7(5), 219-224.
Goldberg, A. E. (2006). Constructions at work : the nature of generalization in language. Oxford ; New York: Oxford University Press.
Goldberg, A. E. (2009). Constructions work. Cognitive Linguistics, 20(1), 201-224.
Gréa, P. (2008). Quelques et plusieurs. In J. Durand, B. Habert & B. Laks (Eds.), Congrès Mondial de Linguistique Française. Paris: Institut de Linguistique Française.
Gries, S. T., & Stefanowitsch, A. (2004). Extending collostructional analysis: A corpus-based perspective on 'alternations'. International Journal of Corpus Linguistics, 9(1), 97-129.
Hyvärinen A., J. Karhunen , E. Oja, (2001). Independent Component Analysis. New York: John Wiley & Sons.
Joliffe I.T. (2002). Principal Component Analysis. New York: Springer-Verlag.
Kohonen T. (2001). Self-Organizing Maps. Heidelberg: Springer-Verlag.
Labov, W. (1994). Principles of linguistic changes: internal factors. Language in society. Oxford: Blackwell.
Labov, W. (2001). Principles of linguistic changes: social factors. Language in society. Oxford: Blackwell.
Lafon, P. (1980). Sur la variabilité de la fréquence des formes dans un corpus, Mots :1, 127-165
Laks, B. (2008). "Pour une phonologie de corpus" Journal of French Language Studies, 18 / 1, 3-32.
Langacker, R. W. (1988). A usage-based model. In B. Rudzka-Ostyn (Ed.), Topics in Cognitive Linguistics (pp. 127-161). Amsterdam ; Philadelphia: John Benjamins.
Langacker, R. W. (1999). Grammar and conceptualization. Berlin: Mouton de Gruyter.
Stefanowitsch, A., & Gries, S. T. (2003). Collostructions: Investigating the interaction of words and constructions. International Journal of Corpus Linguistics, 8(2), 209-243.
Stefanowitsch, A., & Gries, S. T. (2005). Covarying collexemes. Corpus Linguistics and Linguistic Theory, 1(1), 1-46.
Tomasello, M (2003). Constructing a language: a usage-based theory of language acquisition, Cambridge, Massachusetts, and London, England: Harvard University Press.
Van Langendonck, Willy. 2007. Theory and typology of proper names. Berlin–New York: Mouton de Gruyter.
- Hits: 21601