Une chaîne de coréférences est une structure qui regroupe un ensemble d’expressions référentielles (ou mentions, ou maillons) désignant toutes la même entité extralinguistique. Chaque maillon peut être enrichi par des annotations linguistiques, et les différents maillons d’une chaîne peuvent être reliés par des relations, elles-mêmes annotées avec des interprétations linguistiques. En conséquence, il est difficile d’appréhender une telle structure et d’en tirer directement des analyses.
Nous présentons un ensemble de repères méthodologiques importants pour s’assurer qu’un corpus annoté en chaînes servira aussi bien de données pour nourrir un système d’apprentissage artificiel que de support fiable et complet pour des analyses linguistiques approfondies.
Nous précisons ainsi, pour ce phénomène linguistique particulier, les liens qui rapprochent linguistique théorique, linguistique de corpus outillée et traitement automatique des langues.
Ce travail de recherche s'inscrit dans un contexte industriel, dont le but est l'appariement d'articles en ligne et de vidéo d'information. L'entreprise partenaire est une place de marché mettant en relation des producteurs, diffuseurs et annonceurs, et leur propose une indexation de vidéos puis leur syndication sur des sites web.
Avant la naissance de ce projet de thèse, l'entreprise interrogeait un système externe pour rechercher automatiquement des vidéos pour les articles, mais cette solution s'est révélée peu performante. La problématique initialement formulée était donc de développer un système capable d'apparier pertinemment articles et vidéos dans un maximum de cas, pour minimiser autant que possible l'intervention humaine.
Pour répondre à cette demande d'automatisation, nous reconsidérons la problématique comme une tâche de recherche d'information (RI), application désormais classique mobilisant entre autres des méthodes de Traitement Automatique des Langues (TAL).
Le principal verrou de ce travail réside dans le fait que la collection de vidéos interrogée par le système est à la fois non-exhaustive et dynamique : en d'autres termes, un article soumis au système n'a pas nécessairement de vidéo associable en base, ou peut en avoir qui ne sont pas encore indexées ni même encore produites au moment de son traitement automatique. Or nous devons répondre à un besoin complexe, cherchant à intégrer une vidéo pertinente à un article si elle existe, sans toutefois rejeter une vidéo moyennement pertinente, que nous préférons voir intégrée à un article plutôt que de ne rien lui associer.
Plus théoriquement, ces travaux s'inscrivent dans le domaine du Topic Detection and Tracking, et s'inspirent notamment de la tâche de Link Detection qui doit déterminer si deux contenus médiatiques traitent du même sujet ou non. La difficulté de cette tâche réside dans la double contrainte du besoin d'information, exigeant à la fois une similarité thématique des contenus et une proximité temporelle.
Parallèlement à cela, le système doit satisfaire la demande économique d'intégrations vidéo, pour laquelle il faut trouver un juste équilibre entre pertinence de l'appariement et nécessité de résultat. Des méthodes d’apprentissage automatique sont ainsi mobilisées pour trouver des seuils de scores optimisant la réponse à ce besoin complexe.