A two-tier corpus-based approach to robust syntactic annotation of unrestricted corpora - Aix-Marseille Université Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2001

A two-tier corpus-based approach to robust syntactic annotation of unrestricted corpora

Núria Gala

Résumé

This article gives a state of the art of robust parsers and proposes a more efficient automatic way of syntactically annotating corpora based on a diagnosis of a sentence before the application of specialized grammars. After describing some available systems and showing their limits in terms of parsing certain type of raw corpora, a two-tier approach is proposed for the architecture of a robust parser. The splitting of the grammar rules into several modules permits to formalize first core sentences and in a second time some syntactic phenomena containing punctuation or implying structural ambiguities. The advantage of this approach is, for any kind of corpora, the application of a single optimized grammar followed by the parser's adaptation to the presence of certain phenomena which are specifically processed. This strategy guarantees high precision and recall rates for any kind of unrestricted corpora. MOTS-CLÉS : Analyseurs robustes, analyseurs de surface, grammaires de constituants vs gram-maires de dépendances, annotation syntaxique de corpus tout-venant.
Cet article présente un état de l'art des analyseurs robustes existants et propose un système automatique d'annotation syntaxique de corpus plus efficace fondé sur un diagnostic préalable à l'application de grammaires spécialisées. Après avoir décrit quelques analyseurs et avoir montré leurs limites en ce qui concerne le traitement de certains corpus, une approche d'analyse en deux étapes est proposée. Les différents modules grammaticaux formalisent tout d'abord des phrases considérées comme noyau puis certains phénomènes syntaxiques particu-liers comprenant de la ponctuation ou entraînant des ambiguïtés structurelles. L'avantage de cette approche est, pour tout type de corpus, l'application d'une même grammaire stable opti-misée puis l'adaptation du parseur en fonction de la présence de certains phénomènes qui sont traités spécifiquement. Cette stratégie garantit des taux de précision et rappel élevés quelle que soit la typologie du corpus.
Fichier principal
Vignette du fichier
gala-tal42_01.pdf (164.32 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01758031 , version 1 (04-04-2018)

Identifiants

  • HAL Id : hal-01758031 , version 1

Citer

Núria Gala. A two-tier corpus-based approach to robust syntactic annotation of unrestricted corpora. Revue TAL : traitement automatique des langues, 2001. ⟨hal-01758031⟩

Collections

UNIV-AMU
56 Consultations
120 Téléchargements

Partager

Gmail Facebook X LinkedIn More