Création d'un nouveau treebank à partir de quatrièmes de couverture

Résumé : Nous présentons ici 4-Couv, un nouveau corpus arboré d'environ 3 500 phrases, constitué d'un ensemble de quatrièmes de couverture, étiqueté et analysé automatiquement puis corrigé et validé à la main. Il répond à des besoins spécifiques pour des projets de linguistique expérimentale, et vise à rester compatible avec les autres treebanks existants pour le français. Nous présentons ici le corpus lui-même ainsi que les outils utilisés pour les différentes étapes de son élaboration : choix des textes, étiquetage, parsing, correction manuelle.
Type de document :
Communication dans un congrès
Traitement Automatique des Langues Naturelles 22, Jun 2015, Caen, France. Traitement Automatique des Langues Naturelles 22, pp.480-486, 2015
Liste complète des métadonnées

Littérature citée [26 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01498946
Contributeur : Gilles Pouchoulin <>
Soumis le : lundi 12 février 2018 - 10:38:45
Dernière modification le : mercredi 18 avril 2018 - 12:26:01
Document(s) archivé(s) le : lundi 7 mai 2018 - 23:18:22

Fichier

blacheetal-taln-2015.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01498946, version 1

Collections

Citation

Philippe Blache, Grégoire Montcheuil, Stéphane Rauzy, Marie-Laure Guénot. Création d'un nouveau treebank à partir de quatrièmes de couverture. Traitement Automatique des Langues Naturelles 22, Jun 2015, Caen, France. Traitement Automatique des Langues Naturelles 22, pp.480-486, 2015. 〈hal-01498946〉

Partager

Métriques

Consultations de la notice

210

Téléchargements de fichiers

17