Plan

Chargement...

Figures

Chargement...
Couverture fascicule

Traitement des textes diplomatiques : les problèmes de la lemmatisation

[article]

Présentés par Lucie Fossier - André Vauchez - Cinzio Violante

doc-ctrl/global/pdfdoc-ctrl/global/pdf
doc-ctrl/global/textdoc-ctrl/global/textdoc-ctrl/global/imagedoc-ctrl/global/imagedoc-ctrl/global/zoom-indoc-ctrl/global/zoom-indoc-ctrl/global/zoom-outdoc-ctrl/global/zoom-outdoc-ctrl/global/bookmarkdoc-ctrl/global/bookmarkdoc-ctrl/global/resetdoc-ctrl/global/reset
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
Page 265

GENEVIÈVE CONTAMINE

TRAITEMENT DES TEXTES DIPLOMATIQUES : LES PROBLÈMES DE LA LEMMATISATION

C'est dans le cadre du Centre de Recherches et d'Applications linguistiques de Nancy (C.R.A.L.) qu'en collaboration avec L. Fossier et M. Parisse, il m'a été donné de travailler à l'expérimentation d'une méthode de traitement sur ordinateur des documents diplomatiques antérieurs à 1120 et d'être confrontée plus spécialement au problème de la lemmatisation automatique posé par l'établissement des indices verborum.

Mon propos n'est pas de revenir sur le problème d'entrée des données présenté par L. Fossier dans son article «Ordinateur et histoire médiévale»1. Il me suffira de rappeler les caractères de cette exploitation susceptibles d'éclairer le problème de la lemmatisation et d'expliquer les choix qui ont été faits. Il s'agit d'un traitement de textes constitués en corpus départementaux, donc fondamentalement différents d'un corpus littéraire, sans unité de provenance, de date, de vocabulaire; autrement dit, les textes traités ne présentent aucune unité réelle mais une simple unité artificielle, archivistique dans la mesure où le cadre géographique qui a présidé à leur rassemblement est le département, avec deux fonds essentiels, les Bibliothèques municipales et les Archives départementales. Il s'agit, d'autre part, d'un enregistrement in extenso devant conserver en machine l'image la plus fidèle possible du document; ainsi, il va de soi que toutes les fantaisies orthographiques des scribes sont acceptées. Enfin, le texte enregistré, quelle que soit la forme de l'enregistrement (cartes, ruban, bandes ou cartes magnétiques), est éclaté mot par mot sur une bande magnétique. Cet éclatement est la base de l'exploitation des données, et, en particulier de l'établissement des indices verborum2.

1 L. Fossier, Ordinateur et histoire médiévale, dans Linguistica matematica e calcolatari, Atti del Convegno e della Prima Scuola Internazionale, Pise, 16 août-6 septembre 1970, Florence, 1973, p. 269-298.

2 Pièce justificative 1.

doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw
doc-ctrl/page/rotate-ccwdoc-ctrl/page/rotate-ccw doc-ctrl/page/rotate-cwdoc-ctrl/page/rotate-cw