L’objet de notre communication est de présenter la ressource Rhapsodie, un Treebank annoté en syntaxe et en prosodie pour l’analyse du discours en français parlé. Il s’agit d’un corpus multilocuteurs (89 sujets, hommes et femmes) et multigenres (± spontané, ± planifié, entretiens en face à face, interviews, émissions radiophoniques et télévisuelles), composé de 57 échantillons courts (5 minutes en moyenne), soit au total trois heures de parole, transcrites orthographiquement (33000 mots) et phonologiquement, et alignées au son (phonèmes, syllabes, mots, tours de parole, chevauchements, Goldman 2011). L’objectif majeur du projet, conduit dans le cadre de l’ANR corpus, données et outils de la recherche en sciences humaines et sociales (appel 2007), a été de définir des schémas d’annotation explicites et reproductibles en prosodie et en syntaxe, permettant l’étude approfondie de l’interface discours/prosodie/syntaxe, plus spécifiquement le rôle respectif de la syntaxe et de la prosodie (complémentarité et collaboration des modules) dans la segmentation du discours en unités élémentaires dans différents genres discursifs (Lacheret et al. à paraître). Par rapport aux treebanks syntaxiques existants1, Rhapsodie présente quatre caractéristiques majeures. D’une part, il vient enrichir le réservoir encore très petit des treebanks syntaxiques dévolus à l’oral (moins d’une dizaine sont distribués à l’heure actuelle, voir notamment the Switchboard Corpus of Penn Treebank : Meter et al. 1995, the British component of the International Corpus of English : Nelson et al. 2002 et, pour le français, the Ester treebank of French : Cerisara et al. 2010). Par ailleurs, dans le sillage du corpus C-Oral-Rom (Cresti et Moneglia 2005), une annotation macrosyntaxique est couplée de façon innovante à l’annotation syntaxique standard que l’on trouve dans les Treebanks actuels. Ensuite, Rhapsodie constitue, à notre connaissance, le premier exemplaire d’un corpus prosodique arboré, toute langue confondue (pour différents projets récents relatifs à l’annotation de la prosodie : objectifs, méthodologies et granularité de l’annotation, voir en particulier: the Spoken Dutch Corpus : Schuurman et al. 2004, the Hong Kong Corpus of Spoken English, HKCSE : Cheng et al. 2008). Enfin, grâce à une implémentation dans une structure orientée objet (Beliao ici même) où les informations temporelles restent accessibles dans les arbres syntaxiques, il permet de façon très flexible, l’exploration simultanée des différents types d’arbres et, ainsi, l’exploration automatique des corrélations intonosyntaxiques à tous les niveaux des arboresences.
Dister, Anne ; et. al. Rhapsodie: un Treebank annoté pour l’étude de l’interface syntaxe-prosodie en français parlé.Congrès Mondial de Linguistique Française – CMLF 2014 SHS Web of ConferencesIn: EDP Sciences, 2014, Vol. /, no./, p. / (2014)