Espace coldoc

COLDOC 2019 : Fondements empiriques de la linguistique : données de corpus, données expérimentales. 
Quelles données pour le linguiste ?

27 et 28 novembre 2019

Pour sa 13ème édition, Coldoc est centré sur la question des données de la recherche en Science du langage, qu’elles soient collectées dans le cadre d’une linguistique sur corpus ou selon la méthode expérimentale. Nous invitons masterants, doctorants et jeunes chercheurs à venir exposer leurs réflexions sur leurs données de recherche à partir des différentes approches choisies, quel que soit le degré d’avancement de leur recherche. Au cours de ce colloque, les contributions des participants seront éclairées par des présentations lors de conférences plénières mettant en relation l’approche expérimentale et l’analyse de corpus, en croisant les différents regards. Nous tenterons d’appréhender comment ces deux approches peuvent éclairer mutuellement une même question de recherche.

Retrouvez notre appel à communications ici (LIEN PDF ICI).

Retrouvez les modalités de soumission, la constitution du comité scientifique, les conférenciers invités, ou encore le programme sur le site du COLDOC 2019.

Comité d'organisation

Jeanne Conseil, Gasparde Coutanson, Amina Khalfaoui, Yaru Wu.

Vous pouvez contacter le comité d'organisation par mail à l’adresse suivante : coldoc2019 [arobase] gmail.com

Coldoc, Coldoc 2019

  • Vues: 1180

Processing linguistic corpus: Tools and methods




tree_base.png

 

Calendar

The conference will take place on Thursday and Friday, 4th and 5th October 2012
Amphithéâtre Durkheim, Université Paris Descartes, 7 rue de la Sorbonne, Paris.

Deadline for abstracts: 21th Mai 2012? (12:00 GMT)
Author's notification: 15th June
Definite program: July

Final paper submission deadline: 3rd September 2012


Submissions

Proposals are to be sent to Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.. Both papers and posters can be presented in English or preferably in French.

  • Papers: Please send a proposal of two pages, including a title, an abstract, five bibliographical references and a list of five keywords (font 12, margins 2,5, line spacing 1,5). There will be twenty minutes of oral presentation followed by ten minutes of discussion.

  • Posters: There will also be a poster (A1) session for shorter or work-in-progress presentations. Please send a proposal of one page, including a title, an abstract, five bibliographical references and a list of five keywords (font 12, margins 2,5, single line spacing).


Call for papers

COLDOC is a conference organized every year by postgraduate students and young researchers of the MoDyCo laboratory (UMR 7114 – CNRS/Université Paris Ouest Nanterre/Université Paris Descartes). This year our aim is to explore tools and methods which has emerged around corpus-based studies. Over the last decades, linguistics has undergone a considerable evolution in its object of study : it tends to focus less on language itself (as an a priori unlimited and introspective object) and more on corpus (as an attested sample of language). Today, the central position of corpus in linguistic research has an important effect on the majority of linguistic studies made by both linguistic experts and postgraduate students.

This rise of corpus-related issues fuels a latent informal debate: the new perspective is often presented either in an exaggeratedly negative light (as a simplistic "fashion" that inhibits theoretical studies), or in a too positive one (as a revolution that makes linguistics more "scientific" and "real").

We would like to go over this reductive conflict and invite all willing postgraduate students and young researchers to examine the range of methods and tools that has emerged with this "new age" of corpus studies. It is our hope to highlight the connection between observation and analysis, attempting to follow the idea of a complementarity of the empirical and theoretical ways, as was already emphasized in his time by Francis Bacon:

Those who have handled sciences have been either men of experiment or men of dogmas. The men of experiment are like the ant, they only collect and use; the reasoners resemble spiders, who make cobwebs out of their own substance. But the bee takes a middle course: it gathers its material from the flowers of the garden and of the field, but transforms and digests it by a power of its own. 

Novum Organum (1620), Book I, 95

The heart of our discussion will be this metaphorical "art of the bee" in working with corpus. From the point of collecting the utterances or texts to the final theoretical interpretation and its applications, "processing" the corpus work does indeed resemble a phase of "digestion" of empirical data.

More precisely, this evolution seems to have an intrinsic link with the development of tools in informatics and computer sciences (text navigation, online corpora, transcription tools, analyzer tools), which have dramatically changed our access to sources and affected the procedures of linguistic study. We assume that these technological evolutions have had an influence not only  on our field of linguistics but also in an interdisciplinary way in other social sciences l. It seems that in these fields, a similar trend of "experimental" and "data processing" approaches has soared over the last period. The development of internet and computers has introduced a whole range of possibilities in  corpus exploration. Part of the linguistic community is working on corpora as such, providing an always more detailed analysis, whereas others investigate the development of instruments through NLP. In both cases, the central problem is how to pool the findings. The situation is rather complex because of the great variety of approaches which depend on topics and orientations chosen and on tendencies to accompany them (constitution of "big" corpora, annotation workshop).

Following the COLDOC tradition of tackling methodological issues or broader problems of the linguistic field, we are calling for papers inquiring the topic of examining linguistic corpus, from its conception to its results. The issues at hand include the following topics:

  • perspectives on texts and utterances in different domains of linguistics,

  • levels of linguistic analysis and nature of corpus:

    • oral corpus in phonology, syntax, prosody, speech development problems, etc.

    • textual corpus in lexicometry, discourse analysis, syntax, communication studies,

    • multimodal corpus in acquisition, etc.

  • corpus-design: closed vs. open corpus, representativeness, size of corpus,

  • corpus transcription, alignment, structuration and organisation,

  • problem definition (linguistic phenomena and procedures),

  • annotations and their processing, (counts or measures, and their accuracy)

  • choice of input for the study: occurrences, constructions, categories, context, etc.

  • presenting results: statistics tables, graphics, schemes, typology, etc.

  • interpretation of results (regarding the hypothesis),

  • extractions, formal models, automatic learning,

  • pooling of corpus analyses and results:

    • exploring existing bases (available corpora),

    • beyond publication, towards sharing data and results.

We are pleased to invite postgraduate students and young researchers to present their thoughts on one or several of these topics, originating from their own practical research, regardless of the stage of their studies.

 

Organizing committee

Marine DAMIANI

Kaja DOLAR

Carmen Lucia FLOREZ PULIDO

Romain LOTH

Julien MAGNIER

Anne PEGAZ-PAQUET

Bernard COMBETTES (ATILF/CNRS, Université de Lorraine)

Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail)

 

Keynote speakers

Bernard COMBETTES (ATILF/CNRS, Université de Lorraine)

Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail)

Review Committee

Jean-Michel ADAM (Université de Lausanne)

DelphineBATTISTELLI(STIH, Université Paris Sorbonne )

Annie BERTIN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Caroline BOGLIOTTI (MoDyCo/CNRS, Université Paris Ouest Nanterre

Bernard COMBETTES (ATILF/CNRS, Université de Lorraine)

Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail)

Marcel CORI (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Flore COULOUMA (CREA-EA 370, Université Paris Ouest Nanterre)

Guillaume DESAGULIER (MoDyCo/CNRS, Université Paris Ouest Nanterre, Université Paris 8)

Brigitte JUANALS (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Simon KREK (Institut Jozef Stefan, Ljubljana)

Anne LACHERET (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Bernard LAKS (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Denis LE PESANT (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Danielle LEEMAN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sabine LEHMANN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sarah LEROY (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sylvain LOISEAU (LDI/CNRS, Université Paris 13 Nord)

Dominique MAINGUENEAU(CEDITEC/EA 3119, Université Paris Est Créteil, IUF)

Philippe MARTIN (UFRL, Paris 7)

Sylvie MELLET (BCL/CNRS, Université Nice Sophia Antipolis)

Jean-Luc MINEL (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Colette NOYAU (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Christophe PARISSE (MoDyCo/CNRS, INSERM, Université Paris Ouest Nanterre La Défense)

Christiane PRENERON (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sandrine REBOUL-TOURE (SYLED/CEDISCOR, Université Paris III Sorbonne nouvelle)

Fanny RINCK (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Clara ROMERO (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Frédérique SITRI (SYLED, Université Paris III Sorbonne Nouvelle)

Ana ZWITTER VITEZ (Institut de Linguistique Slovène Appliquée Trojina, Ljubljana)

  • Vues: 7973

Traitement de corpus linguistiques : outils et méthodes

 




default  programme_coldoc_2012

 

tree_base.png

 

Calendrier

Déroulement du colloque les jeudi 4 et vendredi 5 octobre 2012
Amphithéâtre Durkheim, Université Paris Descartes, 7 rue de la Sorbonne.

Date limite d’envoi des propositions : 21 Mai 2012 (12h)
Notification d’acceptation : 22 Juin
Programme disponible : Mi-juillet

Remise des articles pour relecture : 3 septembre 2012


Modalités de soumission

Les soumissions seront envoyées à l'adresse Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. Autant pour les communications que pour les posters, il est possible pour les non-francophones de soumettre les projets et les communications en anglais.

  • Communications : Les doctorants et chercheurs intéressés par le sujet doivent soumettre un projet de deux pages comprenant un titre, un résumé, une bibliographie de cinq titres maximum et une liste de cinq mots clés (police 12, marge 2,5, interligne 1,5). Les communications orales comprendront vingt minutes de présentation suivie de dix minutes de discussion.

  • Posters : Le colloque organisera aussi une séance de posters de format A1 pour présenter des recherches qui sont dans une phase initiale ou ne se prêtant pas au format long. Pour ces posters, la soumission à envoyer est un projet explicatif d'une page comprenant un titre, un résumé, une bibliographie de cinq titres maximum et une liste de cinq mots clés (police 12, marge 2,5, interligne simple).


Appel à communications

Le COLDOC est le colloque annuel organisé par les doctorants et jeunes chercheurs du laboratoire MoDyCo (UMR 7114 – CNRS/Université Paris Ouest Nanterre/Université Paris Descartes). Cette année notre objectif est de nous interroger sur les outils et méthodes qui émergent du travail de corpus. Dans les dernières décennies, la linguistique a vécu une évolution certaine de l'objet d'étude de ses recherches : c'est dorénavant moins souvent la langue (objet a priori illimité et introspectif) et plus souvent le corpus (en tant qu'échantillon attesté de réalisations de cette langue) qui devient l'objet immédiat et central à étudier. Aujourd'hui, cette position centrale du corpus dans la recherche concerne sans doute la majeure partie de la communauté des chercheurs et doctorants en sciences du langage. 

Cet essor des problématiques liées aux corpus alimente un débat latent. De façon informelle, le changement est souvent présenté sous deux aspects opposés : soit sous un angle exagérément négatif (comme une « mode », trop réductrice sur le fond, qui convient mal à la nature de la langue et finira par inhiber le débat théorique), soit sous un angle exagérément positif (comme une révolution qui rendra les sciences du langage plus «scientifiques» parce que plus empiriques, en étant plus proches du « réel »). 

Refusant de nous arrêter à ces clivages, nous proposons aux doctorants du laboratoire MoDyCo et à tous les doctorants et jeunes chercheurs qui le souhaitent, de prendre le temps d'examiner l'éventail des outils et des méthodes liés à cette « vague » d'études de corpus, pour mieux mettre en lumière les points d'articulation entre l'observation et l'analyse. Nous nous inscrivons pleinement dans l'esprit la complémentarité de l'empirique et du théorique, exprimée jadis par Francis Bacon :

L'empirique, semblable à la fourmi, se contente d'amasser et de consommer ensuite ses provisions. Le dogmatique, telle l'araignée, ourdit des toiles dont la matière est extraite de sa propre substance. L'abeille garde le milieu ; elle tire la matière première des fleurs des champs, puis, par un art qui lui est propre, elle la travaille et la digère. 

Novum Organum (1620), Livre I, 95

Le coeur de notre sujet est donc cet « art de l'abeille », ce travail face au corpus linguistique qui, du moment de la collecte des énoncés/textes jusqu'à l'interprétation théorique finale et à ses applications, apparaît bien comme une étape de « digestion » des données du corpus, autrement dit un travail de « traitement » du corpus.

Concrètement, cette évolution semble liée à un développement des outils informatiques (navigation, collecte,outils d'aide à la transcription, outils d'analyse) qui ont transformé l'accès aux sources et affecté la démarche d'étude linguistique. Nous faisons l’hypothèse que les mouvements et technologies influent non seulement sur la linguistique, mais aussi sur les autres sciences humaines et sociales de façon trans-disciplinaire. Les autres communautés de recherche en sciences humaines et sociales ont apparemment, elles aussi, vu leur facette «expérimentale » s'intensifier durant la période récente. Par ailleurs, l'essor d'internet et des ordinateurs a entraîné une différenciation au niveau des traitements des corpus. Une partie des linguistes a continué à se pencher sur les corpus, en utilisant les possibilités d’un traitement plus fin des données. D’autres linguistes ont préféré travailler sur l'amélioration des outils de traitement en TAL. La question de la mutualisation de ce type de travaux se pose ici comme là. Cela s'accompagne d'une grande diversité d'approches selon les thèmes et les écoles, et d'une tendance des instances à accompagner ce mouvement (projets de constitutions de « grands » corpus, groupes de travail d'annotation).

Selon la tradition du COLDOC qui a fait siennes les questions méthodologiques larges, et qui s’attache à des problématiques ouvertes à l'ensemble des sciences du langage, nous appelons à toute présentation qui intéresse le thème du traitement de corpus linguistique, de sa conception à son résultat. Les problématiques associées comprennent, sans limitation, les points suivants :

  • point de vue sur les textes ou énoncés selon le champ des sciences du langage 

  • niveau d'analyse pertinent et nature du corpus :

    • corpus oraux en phonologie, syntaxe, prosodie, études des troubles de la parole, etc.

    • corpus textuels en lexicographie, analyse de discours, syntaxe, «info-com»

    • et les corpus multimodaux en acquisition, etc.

  • constitution de corpus, corpus clos vs. ouvert, représentativité, taille du corpus

  • transcription, alignement, structuration et organisation du corpus

  • définition des phénomènes ou procédés linguistiques étudiés

  • annotations ou autres traitements effectués, décomptes ou mesures et leur pertinence

  • choix des entrées dans l'analyse : occurrences, constructions, catégories, environnements, etc.

  • choix de formalisation des résultats : tableaux statistiques, graphiques, typologies, schémas, etc.

  • interprétation des résultats (selon hypothèses ou question posée)

  • extractions opérées, modèles formels, apprentissage automatique

  • mutualisation des corpus, des traitements et/ou des résultats

    • exploitation des bases existantes (grands corpus consultables)

    • au-delà de la publication, vers un partage des données et des résultats sur le travail de corpus

Nous invitons donc les doctorants et jeunes chercheurs à venir exposer leur réflexion sur un de ces aspects à partir de leur propre pratique et ce quel que soit le degré d‘avancement de leur recherche.

 

Comité d'organisation

Marine DAMIANI

Kaja DOLAR

Carmen Lucia FLOREZ PULIDO

Romain LOTH

Julien MAGNIER

Anne PEGAZ-PAQUET

Conférenciers invités

Bernard COMBETTES (ATILF, Université de Lorraine)

Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail)

Comité scientifique

Jean-Michel ADAM (Université de Lausanne)

DelphineBATTISTELLI(STIH, Université Paris Sorbonne )

Annie BERTIN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Caroline BOGLIOTTI (MoDyCo/CNRS, Université Paris Ouest Nanterre

Bernard COMBETTES (ATILF/CNRS, Université de Lorraine)

Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail)

Marcel CORI (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Flore COULOUMA (CREA-EA 370, Université Paris Ouest Nanterre)

Guillaume DESAGULIER (MoDyCo/CNRS, Université Paris Ouest Nanterre, Université Paris 8)

Brigitte JUANALS (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Maria KIHLSTEDT (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Simon KREK (Institut Jozef Stefan, Ljubljana)

Anne LACHERET (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Bernard LAKS (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Denis LE PESANT (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Danielle LEEMAN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sabine LEHMANN (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sarah LEROY (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sylvain LOISEAU (LDI/CNRS, Université Paris 13 Nord)

Dominique MAINGUENEAU(CEDITEC/EA 3119, Université Paris Est Créteil, IUF)

Philippe MARTIN (UFRL, Paris 7)

Sylvie MELLET (BCL/CNRS, Université Nice Sophia Antipolis)

Jean-Luc MINEL (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Colette NOYAU (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Christophe PARISSE (MoDyCo/CNRS, INSERM, Université Paris Ouest Nanterre La Défense)

Christiane PRENERON (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Sandrine REBOUL-TOURE (SYLED/CEDISCOR, Université Paris III Sorbonne nouvelle)

Fanny RINCK (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Clara ROMERO (MoDyCo/CNRS, Université Paris Ouest Nanterre)

Frédérique SITRI (SYLED, Université Paris III Sorbonne Nouvelle)

Ana ZWITTER VITEZ (Institut de Linguistique Slovène Appliquée Trojina, Ljubljana)

  • Vues: 11301
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies.