logo comere

Morphosyntactic Automatic Processing of the Learning and Teaching Corpus (LETEC) FAVI (Français académique virtuel international)

logo ortolang
Open Resources and TOols for LANGuage

This page: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2
Back to corpus main page: https://hdl.handle.net/11403/comere/cmr-favi

Download the TEI file: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2.xml

How to cite this resource

Riou, S. & Sagot, B. (2016). Etiquetage morpho-syntaxique du corpus FAVI [corpus]. D'après Yun, H. & Chanier, T. (2014). Corpus d'apprentissage FAVI (Français académique virtuel international) [cmr-favi-tei-v1]. Banque de corpus CoMeRe. Ortolang.fr : Nancy. [https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2]

Overview of the corpus

This corpus corresponds to a version where morpho-syntactic POS-tagging has been made on the textchat corpus cmr-favi-tei-v1 which reference is: Yun, H. & Chanier, T. (2014). Corpus d'apprentissage FAVI (Français académique virtuel international). Banque de corpus CoMeRe. Ortolang.fr : Nancy. [https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v1]. POS tagging has been made by Stéphane Riou as part of Initiative Corpus de Référence du Français project of Institut de Linguistique Française (ILF-FR2393 CNRS) with the MElt freely available (LGPL) state-of-the-art sequence labeller (Denis and Sagot, 2012; Sagot, 2016). This work is part of the CoMeRe (Communication médiée par les réseaux) project. This project aims to assemble different network-mediated communication corpora in French (Internet, telecommunication), to structure them in a standard format and to release the corpora in an open access format for research purposes. The CoMeRe project has received support from ORTOLANG and the national consortium CORLI.

Keywords : Computer Mediated Communication; CMC; textchat; POS tagging; MElt parser; Academic French; LETEC;



The whole corpus https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2 includes the following elements

Download the corpus (without videos) corresponding to this topic: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2.zip

Coverage: nbparticipants=31 ; textchat = 7 750 posts ; token= 77 605 ; 29 POS tags

Rationale for this corpus

La liste des étiquettes morpho-syntaxique utilisées par l'analyseur MElt est affichée dans la partie editorialDecl > interpretation. La version précédente de ce corpus ( cmr-favi-tei-v1 ) provient d'échanges à distance synchrones à base textuelle (activités de clavardage) dans le projet Favi (Français académique virtuel international). Le corpus porte sur les interactions entre apprenants de FLE de niveau avancé utilisant le clavardage dans un contexte académique (Yun & Demaizière, 2008 ; Yun & Demaizière, 2009 ; Yun & Demaizière, 2010). Deux expériences au total : 1) l'expérience-pilote (faviep, de janvier à mai 2006, Université Paris 3 et Paris Dauphine) comporte neuf séances d'une heure environ avec des étudiants de l'Université Paris Dauphine sur le système de clavardage de la plateforme WebCT de Paris Dauphine, 2) la seconde expérience (favie2, de mars à mai 2008, Université Paris 3 et Paris Dauphine), vingt-six séances d'une heure environ (deux ou trois séances par semaine sur le même thème mais avec des étudiants différents) sont organisées sur MSN Live Messenger. Les 35 séances de clavardage ont été codées en XML suivant le schéma Mulce-struct. Le scénario pédagogigue, accompagné des consignes données aux apprenants, a également été décrit et incorporé dans le corpus d'apprentissage LETEC.

The list of the morpho-syntactic labels/tags used by the MElt POS-tagger is displayed in editorialDecl > interpretation. The previous version of this corpus (cmr-favi-tei-v1 ) assembles textchat sessions organized for advanced level foreign students (Masters, PhD) and researchers enrolled in a French university. These students needed to master French as it is used in an academic setting (doctoral presentations, seminars, etc.).

This corpus is a subpart of the CoMeRe corpus databank. The CoMeRe (Communication Médiée par les Réseaux) project aims to build a kernel corpus assembling existing corpora of different CMC (Computer-Mediated Communication) genres and new corpora build on data extracted from the Internet. These heterogenous corpora are structured and processed in a uniform way, complemented with metadata. CoMeRe is released as OpenData through the national infrastructure Ortolang. The project is supported by the national consortium CORLI, sub-part of Huma-Num, and Ortolang (French correspondant to DARIAH).

The TEI structure used is an extension of TEI for CMC genres. This extension is developped by a European project which participants are : Michael Beißwenger (DE), Thierry Chanier (FR), Isabella Chiari (IT), Maria Ermakova (DE), Maarten van Gompel (NL), Iris Hendrickx (NL), Axel Herold (DE), Henk van den Heuvel (NL), Lothar Lemnitzer (DE), Angelika Storrer (DE).

Editorial procedures

Contents of messages have been anonymised by the corpus compiler. Encoding of anonymisation has been standardized through all CoMeRe corpora. See fsDecl for more details

The corpus has been segmented through text, div and post . Then the text contents of every post has been tagged with MElt. See tagUsage and taxonomy for explanation. POS-tags are listed hereafter in interpretation

Etiquettes provenant de l'analyseur MELt

  • Pascal Denis and Benoît Sagot (nd). MElt POS tagging software [software]. Inria.fr https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=MElt

  • Description of the Interaction Space

    CMC Environment

  • MSN-Messenger: Definition of the modality textchat according to MSN Messenger, version 2008
  • Structure of interactions

    Data Collection

    Data collected : From 2006-01-31 to 2006-05-10
    rs: Paris, France
    rs: 7008038

    Language of the data: French

    Types of interaction

    Extracts of Participants

    Durant l'expérience-pilote (faviep), 3 tuteurs (dont 2 natifs) animent toutes les séances de clavardage. Lors de la seconde expérience (favie2), 2 tuteurs participent aux activités et se partage les rôles : l'un est un tuteur linguistique et l'autre s'occupe de la conception des activités de clavardage et de la modération de la séance. Le public cible est des étudiants en master, en doctorat et en post-doctorat de l'Université Paris 3 et de l'Université Paris Dauphine.

    Extracts of Interactions

    TEI:General Interaction Space for the experiment faviep

    div:Session faviep-s5

    TEI:General Interaction Space for the experiment favie2

    div:Session favie2-s6_1

    Credits, Publication Statement and Rights


    Date: 2016-05-15


    uri: cmr-favi-tei-v2
    url: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2



    The people who created this work have dedicated the work to the public domain by waiving all of their rights to the work worldwide under copyright law, including all related and neighboring rights, to the extent allowed by law. You can copy, modify, distribute and perform the work, even for commercial purposes, all without asking permission. We recommend that researchers reference / cite our work as mentionned in titleSmt

    All participants names have been removed and data have been anonymized.
