L'implicite en traitement automatique des langues : réalité ou utopie ?
Le langage naturel est complexe par nature, rendant l’interprétation d’expressions linguistiques dépendante de nombreux facteurs contextuels tels que le contexte d’énonciation, l'environnement socio-culturel ou encore les connaissances extra-linguistiques. C’est la combinaison de tous ces facteurs qui permet d’aller au-delà de la compréhension littérale, i.e., chercher ce que le texte ne dit pas. Pouvons nous concevoir des algorithmes capables d’analyser des contenus implicites ? Cette question fera l’objet de mon exposé, où je présenterai les travaux en traitement automatique des langues que nous menons sur la détection du langage évaluatif (Benamara et al. 2017), avec un focus particulier sur le langage figuratif (Karoui et al, 2017) et la détection de messages haineux (Chiril et al, 2019). Je terminerai mon exposé par un bilan de l’état actuel des recherches dans ce domaine.
Farah Benamara, Maite Taboada, Yvette Yannick Mathieu: Evaluative Language Beyond Bags of Words: Linguistic Insights and Computational Applications. Computational Linguistics 43(1): 201-264 (2017)
Patricia Chiril, Farah Benamara, Véronique Moriceau, Marlène Coulomb-Gully et Abhishek Kumar. Multilingual and Multitarget Hate Speech Detection in Tweets. Actes TALN 2019.
Jihen Karoui, Farah Benamara, Véronique Moriceau, Viviana Patti, Cristina Bosco, Nathalie Aussenac-Gilles. Exploring the Impact of Pragmatic Phenomena on Irony Detection in Tweets: A Multilingual Corpus Study. EACL 2017: 262-272.