Projet Corpus

Projet Corpus autour de Paris Ouest Nanterre et du grand équipement

 

Dans le cadre des projets Idex, Equipex, Labex, Modyco participe à plusieurs projets centrés autour des corpus. Les partenaires de Nanterre pour ces projets sont principalement Orléans (LLL), Toulouse (CLLE-ERSS), BnF, DGLFLF. Le détail de tous les projets n’est pas encore connu ni finalisé mais les grandes lignes sont les suivantes :

Modyco cherche à produire des corpus de langage oral de très bonne qualité (annotés et vérifiés à la main) pour servir de matériel de base pour des projets de linguistique, classique ou computationnelle, ou pour des applications autres comme l’enseignement, la diffusion de connaissance, ou toute application industrielle. Afin de se différencier clairement des propositions proches faites par d’autres laboratoires, l’accent principal sera mis sur l’étiquetage phonologique, morphologique et morphosyntaxique (ceci n’interdit pas d’autres étiquetages –prosodique par exemple– et d’autres utilisations des corpus que sur ces domaines).

Plusieurs points sont mis en avant dans les projets où sont impliqués Modyco (sans limitation pour l’instant).

Modyco envisage aujourd’hui une participation limitée (qui ne m’inclurait pas l’exploitation des corpus par exemple) dans un Equipex dont Nancy et Aix seraient les porteurs principaux.

Modyco envisage une implication plus importante dans deux directions qui ne sont pas indépendantes :

L’appel Labex centré autour de Nanterre,

L’ANR Corpus qui serait porté par nos partenaires (Orléans) et dont Modyco serait partenaire secondaire.

Les deux appels se différencieraient sur l’accent « recherche » de l’ANR Corpus et un accent 50% recherche, 50% patrimoine, enseignement, formation du Labex. Les deux projets incluraient de la production de corpus.

Dans cette optique, ce document qui a pour but d’informer principalement sur la préparation d’un projet de Labex sollicite tout retour de personnes ou groupes de personnes intéressées par la production de corpus (en particulier pour ceux qui en ont déjà sous une forme ou une autre) ou l’exploitation linguistique des corpus produits. Les propositions d’ordre formation, enseignement, exploitation autre que linguistique sont bienvenues puisqu’elles semblent être bienvenues dans les propositions de Labex. Donc pourquoi se priver !

 

Pour toute proposition, vous pouvez vous adresser à Christophe Parisse, Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.