Le séminaire doctoral de MoDyCo (UMR 7114, Paris Nanterre), a le plaisir d’accueillir
Et
Vous y êtes cordialement invités.
Quand ? : mardi 2 avril 2019, de 10h à 12H
Où ? : Université Paris Nanterre. Salle 406, au 4ème étage du bâtiment René Rémond (ex bâtiment A).
RER A, Ligne SNCF L, station « Nanterre Université »
Résumés :
Nous proposons une présentation des résultats de nos travaux de thèse sur la structure lexico-syntaxique des locutions du français et leurs variations formelles. La thèse défend l’idée selon laquelle une description des locutions combinant à la fois l’identification des unités lexicales qui les composent et l’identification des relations de dépendance syntaxique qui unissent les unités constituantes, permettra de prédire leurs différents emplois possibles dans la phrase.
La description s’appuie sur les principes de la Lexicologie Explicative et Combinatoire. Elle exploite et enrichit les données du Réseau Lexical du Français (RL-fr), ressource en cours de développement à l’ATILF.
La thèse a deux principaux apports. Le premier est le développement d’un modèle de description lexico-syntaxique relativement fine des locutions du français. Le second est l’identification et l’étude de différentes variations structurales, syntaxiques et lexicales liées à la flexibilité formelle des locutions. Les variations des locutions sont mises en corrélation avec leurs structures lexico-syntaxiques, mais également avec leurs définitions lexicographiques. Ceci nous conduit à introduire la notion de projection structurale, centrale dans le continuum de la flexibilité formelle des locutions.
Nous abordons la question de l'évolution du sens en corpus sous l'angle de la sémantique distributionnelle. Il s'agit pour nous de déduire l'évolution sémantique de marqueurs linguistiques par l'examen de préférences collocationnelles à travers les époques. Deux questions se posent : comment distinguer les principales étapes de l'évolution sémantique d'un marqueur ? Quelle granularité adopter : la distinction artificielle en années ou en décennies proposée par défaut dans les corpus ou une distinction plus naturelle dérivée de la distribution des données ?
Nous passons en revue trois méthodes distributionnelles : deux relevant de la linguistique de corpus et une relevant du traitement automatique des langues. La première méthode, VNC (Variability-based Neighbour Clustering), est fondée sur la classification ascendante hiérarchique. Elle procède à une périodisation automatique. Le regroupement de périodes en fonction de leurs similitudes se fait sur la base du principe d'adjacence temporelle. La seconde méthode est une illustration classique des modèles de sémantique distributionnelle. La forme cible est extraite d'un corpus au sein d'une fenêtre contextuelle. Une matrice de co-occurrences est calculée puis transformée à l'aide d'une mesure appelée PPMI (Positive Pointwise Mutual Information). Les dimensions de la matrice ainsi pondérée est réduite par SVD (Singular Value Decomposition) et projetée sur un espace à deux dimensions à l'aide de t-SNE. L'évolution sémantique est capturée par des contours dont le centre de gravité change en fonction des époques. La troisième méthode, HistWords (https://nlp.stanford.edu/projects/histwords/), est proche de la seconde. Elle est inspirée de word2vec. Il s'agit d'un algorithme permettant de tracer l'évolution sémantique de lexèmes sur la base de vecteurs calculés avec la méthode Skip-Gram with Negative Sampling (SGNS). Deux études de cas sont abordées : le split infinitive en anglais (to boldly go where no man has gone before) et les intensifieurs de l'anglais (quite, rather, fairly, pretty, tremendously, utterly, jolly, etc.).