Projet Corpus
Projet Corpus autour de Paris Ouest Nanterre et du grand équipement
Dans le cadre des projets Idex, Equipex, Labex, Modyco participe à plusieurs projets centrés autour des corpus. Les partenaires de Nanterre pour ces projets sont principalement Orléans (LLL), Toulouse (CLLE-ERSS), BnF, DGLFLF. Le détail de tous les projets n’est pas encore connu ni finalisé mais les grandes lignes sont les suivantes :
Modyco cherche à produire des corpus de langage oral de très bonne qualité (annotés et vérifiés à la main) pour servir de matériel de base pour des projets de linguistique, classique ou computationnelle, ou pour des applications autres comme l’enseignement, la diffusion de connaissance, ou toute application industrielle. Afin de se différencier clairement des propositions proches faites par d’autres laboratoires, l’accent principal sera mis sur l’étiquetage phonologique, morphologique et morphosyntaxique (ceci n’interdit pas d’autres étiquetages –prosodique par exemple– et d’autres utilisations des corpus que sur ces domaines).
Plusieurs points sont mis en avant dans les projets où sont impliqués Modyco (sans limitation pour l’instant).
-
Corpus existants à peaufiner et à compléter par un recueil supplémentaire de données (corpus aujourd’hui existants, sans limitation : PFC, ESLO, COLAJE) dans le but de fournir un matériel de qualité et bien décrit à la communauté.
-
Enrichissement des corpus par strates successives : il n’existe pas de corpus parfait, et un corpus peut être enrichi de multiples annotations qui doivent compléter et non remplacer les annotations précédentes.
-
Notion d’observatoire : mise en place d’une structure et d’un ensemble de compétences qui soient à même de produire, modifier, faire évoluer des corpus – pouvoir envisager une offre de « service » pour des projets futurs.
-
Lien avec la DGLFLF : tous les corpus de langues de France peuvent être proposés et l’utilisation de corpus variés est souhaité.
-
Lien avec la BnF : mise en place d’une validation et d’un dépôt légal des corpus, dans le but de valoriser les données orales existantes de la BnF et les corpus futurs à déposer. Intérêt : protection et référencement des corpus sur une version précise (celle du dépôt), avec un but autant culturel que scientifique.
-
Exploitation des corpus dans un objectif linguistique : modèle exemplariste ou basé sur l’usage, variation, développement et acquisition du langage, linguistique computationnelle, etc.
Modyco envisage aujourd’hui une participation limitée (qui ne m’inclurait pas l’exploitation des corpus par exemple) dans un Equipex dont Nancy et Aix seraient les porteurs principaux.
Modyco envisage une implication plus importante dans deux directions qui ne sont pas indépendantes :
L’appel Labex centré autour de Nanterre,
L’ANR Corpus qui serait porté par nos partenaires (Orléans) et dont Modyco serait partenaire secondaire.
Les deux appels se différencieraient sur l’accent « recherche » de l’ANR Corpus et un accent 50% recherche, 50% patrimoine, enseignement, formation du Labex. Les deux projets incluraient de la production de corpus.
Dans cette optique, ce document qui a pour but d’informer principalement sur la préparation d’un projet de Labex sollicite tout retour de personnes ou groupes de personnes intéressées par la production de corpus (en particulier pour ceux qui en ont déjà sous une forme ou une autre) ou l’exploitation linguistique des corpus produits. Les propositions d’ordre formation, enseignement, exploitation autre que linguistique sont bienvenues puisqu’elles semblent être bienvenues dans les propositions de Labex. Donc pourquoi se priver !
Pour toute proposition, vous pouvez vous adresser à Christophe Parisse, Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
- Vues: 843