Création d'un nouveau treebank à partir de quatrièmes de couverture - Aix-Marseille Université Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Création d'un nouveau treebank à partir de quatrièmes de couverture

Résumé

We introduce 4-Couv, a treebank of approximatively 3 500 trees, built from a set of literacy backcovers. It has been automatically tagged and parsed, then manually corrected and validated. It was developed in the perspective of linguistic expriment projects, and aims to be compatible with other standard treebanks for french. We present in the following the corpus itself, then the tools we used or developed for the different stages of its elaboration : texts' selection, tagging, parsing, and manual correction.
Nous présentons ici 4-Couv, un nouveau corpus arboré d'environ 3 500 phrases, constitué d'un ensemble de quatrièmes de couverture, étiqueté et analysé automatiquement puis corrigé et validé à la main. Il répond à des besoins spécifiques pour des projets de linguistique expérimentale, et vise à rester compatible avec les autres treebanks existants pour le français. Nous présentons ici le corpus lui-même ainsi que les outils utilisés pour les différentes étapes de son élaboration : choix des textes, étiquetage, parsing, correction manuelle.
Fichier principal
Vignette du fichier
blacheetal-taln-2015.pdf (374.71 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01498946 , version 1 (12-02-2018)

Identifiants

  • HAL Id : hal-01498946 , version 1

Citer

Philippe Blache, Grégoire Montcheuil, Stéphane Rauzy, Marie-Laure Guénot. Création d'un nouveau treebank à partir de quatrièmes de couverture. Traitement Automatique des Langues Naturelles 22, Jun 2015, Caen, France. pp.480-486. ⟨hal-01498946⟩
152 Consultations
93 Téléchargements

Partager

Gmail Facebook X LinkedIn More