Principes et outils pour l'annotation des corpus - Laboratoire Parole et Langage Access content directly
Journal Articles Travaux Interdisciplinaires sur la Parole et le Langage Year : 2022

Principles and tools for corpus annotation

Principes et outils pour l'annotation des corpus

Mary Amoyal
Roxane Bertrand
Brigitte Bigi
Auriane Boudin
Christine Meunier
Berthille Pallaud
S. Rauzy
Marion Tellier


Corpus linguistics (i.e. research on language based on written or oral linguistic material that has been collected and saved) has been considerably developed over the last decades. This development has occurred using more numerous and larger corpora. The increased size of corpora has required the development of automatic tools for their analysis, but also a real reflection on the nature and the objectives of the annotation of corpora. The increased size of the corpora has required the development of automatic tools for their analysis, but also a real reflection on the nature and the objectives of the annotation of the corpora. The enrichment of corpora by a set of specific annotations has emerged, in most cases, as a preliminary to any linguistic analysis. Annotating a corpus consists in adding relevant information for its exploitation. The interest of having annotated corpora (i.e. enriched at different linguistic levels) is to be able to study each annotated levels and the mutual links between them. The work carried out at the LPL on these issues of corpus enrichment was initially meant to make possible the study of multimodality, such as the finest levels of granularity (phonemes) up to the mimo-gestural levels, passing through the syntactic, discursive, prosodic, and interactional levels. It was therefore necessary to think about annotation early on, at the level of information representation. A global annotation scheme allows to consider all these levels in a single formal approach that facilitates their subsequent interrogation. Whatever the level of annotation, several questions have arisen: on the one hand there were questions about the labels used (e.g. decomposition, typology, function, gradual/categorical nature); on the other hand there were questions about the temporary embedment of these labels (location and boundaries). For certain levels of annotation, it will be necessary to describe the levels of dependence between the different labels. These questions must be considered in relation to the research objectives. The work within each annotation level is then relatively similar. It is a question of establishing an annotation scheme that allows the most consistent and robust annotation possible. This scheme is established based on theoretical knowledge and in order to answer research questions. Once the annotation scheme is established, it is also possible to build an annotation guide for potential annotators (expert/naive). Most often, annotations are performed using several annotators to make possible an evaluation of the consistency (inter-annotator agreements). The transversal issue of heterogeneity in human annotations will be addressed in this chapter. In this chapter, we develop some of the main annotation steps that have been performed to annotate corpora manually or automatically, as well as the research issues associated with them. These steps are listed below: - Automatic search of IPUs and orthographic transcription From the collected primary data, we automatically search for IPUs - Inter-Pausal Units - which allow us to obtain a segmentation into silence blocks versus sound blocks. We then perform the orthographic transcription within these IPUs. This transcription step is crucial as it constitutes the tier from which the other annotation levels will be developed. Here again, the choices made in terms of transcription (chosen convention) have an impact on the links between annotation levels. Once the orthographic transcription is done - and aligned with the signal on IPUs - many annotations can be obtained, either manually, automatically, or semi-automatically. - Phonetic and lexical annotation We develop, distribute, and regularly enrich an automatic annotation software -SPPAS, which also allows to normalize the transcribed text, which means to obtain the tokens. From these tokens within the IPUs, SPPAS can perform the grapheme-phoneme conversion based on a grammar of the possible pronunciations of each IPU. Finally, SPPAS provides the temporal alignment of phonemes which is now rarely performed manually. However, the manual and automatic aspects of phonetic annotation are different but complementary processes. Thus, spontaneous speech generates phonetic realizations (reductions) that are difficult to manage at the level of automatic alignment. Consequently 1/it may be necessary to manually correct some parts of the automatic alignment: 2/it is possible to use the alignment errors to locate these specific phonetic realizations. In this chapter, we will address the issues related to these two aspects. Other annotations can then be obtained from this phoneme segmentation. They allow to automatically obtain the alignment of tokens; a rule-based system allows to group phonemes into syllables. - Syntactic annotation Syntactic annotation is based on tokens. If there are automatic syntactic analyzers available for written language, syntactic analysis of spoken French remains a challenge. We present here the methodology we have adopted to adapt our writing tagger to handle spontaneous spoken transcripts. If the performances of our MarsaTag tagger are already acceptable, the improvement of our tool will require a multi-level modeling including the phenomena of disfluencies (see below) and the more precise treatment of discourse markers. - Annotation of disfluencies Oral utterances contain many variations in verbal fluency at several levels (e.g. the rate of pronunciation of words, phrases, or clauses). But these variations can also occur at the acoustic and phonetic levels. On the morphological and syntactic levels, some of these variations are translated by real self-interruptions which suspend the syntagmatic flow in the verbal emission. In our corpus analyses, we have planned to keep (in addition to filled or unfilled pauses, discourse elements, interjections) the evidence of the discourse elaboration which are, among other things, initiations or fragments of words and the syntagms’ breaks. This strategy made it possible to envisage a detailed and exhaustive description of these phenomena designated under the term of “disfluency”. - Annotation of speech and interactions From the speech signal and its transcription, it is also possible to consider an annotation of several pragmatic levels such as the thematic organization of conversational interactions. Several levels of annotation will be described in this chapter: the annotation of conversational themes, thematic transitions (i.e. conversational movements that allow to go from one topic to another), and the phases of these transitions. Other phenomena will also be described, such as feedback items and humorous sequences. We will present the annotation protocol associated with these different phenomena as well as the evaluation methods chosen to assess the reliability of these annotations. - Mimogestual annotation From the video signal, it is possible to consider a mimogestual annotation (facial expressions or coverbal manual gestures for example). This can be done either manually or semi-automatically. In this chapter, first we will present the semi-automatic annotation protocol of smiles that we have developed in order to annotate two conversational corpora. We will present the SMAD tool which allows to automatically annotate smiles. Then, we will describe the protocol of correction of these annotations. Finally, we will discuss the evaluation method chosen to assess the robustness of the annotated data. We will also present the manual annotation of coverbal gestures as well as the inherent methodological issues such as annotation schemes and guides, typologies and segmentation. We will give examples of studies carried out at LPL that propose different approaches for gesture annotation.
La linguistique de corpus, c’est à dire les recherches sur le langage portant sur un matériel linguistique écrit ou oral recueilli et conservé, s’est considérablement développée au cours des dernières décennies. Ce développement s’est fait à l’aide de corpus constitués de plus en plus nombreux et de plus en plus importants. L’augmentation de la taille des corpus a nécessité, pour leur analyse, le développement d’outils automatiques, mais aussi une vraie réflexion sur la nature et les objectifs de l’annotation des corpus. L’enrichissement de corpus par un jeu d’annotations spécifiques est alors apparu, la plupart du temps, comme un préalable à toutes analyses linguistiques. Annoter un corpus consiste à ajouter des informations pertinentes pour son exploitation. L’intérêt de disposer de corpus annotés, c’est-à-dire enrichis à différents niveaux linguistiques, est de pouvoir étudier chacun de ces derniers ainsi que les liens mutuels entre les uns et les autres. Les travaux menés au LPL sur ces questions d’enrichissement des corpus ont été effectués initialement pour rendre possible l’étude de la multimodalité, à savoir la prise en compte des niveaux de granularité les plus fins (phonèmes) jusqu’aux niveaux mimo-gestuels, en passant par les niveaux syntaxique, discursif, prosodique, et interactionnel. Il s’est donc avéré nécessaire de penser l’annotation en amont, au niveau même de la représentation des informations. Un schéma d’annotation global permet en effet de considérer tous ces niveaux dans une seule et même approche formelle qui favorise leur interrogation ultérieure. Quel que soit le niveau d’annotation, plusieurs questions se sont posées : d’une part, celle des étiquettes utilisées (décomposition, typologie, fonction, nature graduelle/catégorielle, etc.) ; d’autre part, celle de l’ancrage temporel de ces étiquettes (localisation et frontières). Pour certains niveaux d’annotation il sera question de décrire les niveaux de dépendance entre les différentes étiquettes. Ces questions doivent être pensées en fonction des objectifs de recherche. Le travail au sein de chaque niveau d’annotation est ensuite relativement similaire. Il s’agit d’établir un schéma d’annotation permettant une annotation la plus constante et la plus robuste possible. Ce schéma est établi sur la base des connaissances théoriques et en vue de répondre aux questionnements des recherches. Une fois le schéma d’annotation établi, il est également possible de construire un guide d’annotation destiné à de potentiels annotateurs (experts / naïfs). Le plus souvent, les annotations sont effectuées en recourant à plusieurs annotateurs afin de rendre possible une évaluation de la consistance (accords inter-annotateurs). La question transversale de l’hétérogénéité des annotations humaines sera traitée dans ce chapitre. Dans ce chapitre, nous développons quelques-unes des principales étapes d’enrichissement qui ont été mises en œuvre pour annoter manuellement ou automatiquement les corpus, ainsi que les problématiques de recherche qui leur sont associées. Ces étapes sont listées ci-après : - Recherche automatique des IPUs et transcription orthographique À partir des données primaires collectées, sont recherchées automatiquement les IPUs - Inter-Pausal Units, qui nous permettent d’obtenir une segmentation en blocs de silences versus blocs sonores. Nous effectuons ensuite la transcription orthographique au sein de ces IPUs. Cette étape de transcription est cruciale dans la mesure où elle constitue la ligne (tier) sur laquelle se développeront les autres niveaux d’annotation. Là encore les choix effectués en termes de transcription (convention choisie) ont une incidence sur la mise en lien des niveaux d’annotation. Une fois la transcription orthographique effectuée - et alignée sur le signal au niveau des IPUs, de nombreuses annotations peuvent être obtenues, soit manuellement, soit automatiquement, soit semi-automatiquement. - Annotation phonétique et lexicale Nous développons, distribuons et enrichissons régulièrement un logiciel d’annotation automatique -SPPAS, qui permet notamment de normaliser le texte transcrit, c’est à dire d’obtenir les tokens. À partir de ces tokens au sein des IPUs, SPPAS peut effectuer la conversion graphèmes-phonèmes sous la forme d’une grammaire des prononciations possibles de chaque IPU. Enfin, SPPAS fournit l’alignement temporel des phonèmes qui, désormais, est rarement réalisée manuellement. Toutefois, les aspects manuels et automatiques de l’annotation phonétique relèvent de processus différents mais complémentaires. Ainsi, la parole spontanée engendre des réalisations phonétiques (réductions) difficilement gérables au niveau de l’alignement automatique. En conséquence 1/ il peut être nécessaire de corriger manuellement certaines parties de l’alignement automatique : 2/ il est possible d’utiliser les erreurs d’alignement pour localiser ces réalisations phonétiques spécifiques. Nous aborderons dans ce chapitre les questions liées à ces deux aspects. D’autres annotations peuvent ensuite être obtenues de cette segmentation en phonèmes. Notamment, ils permettent d’obtenir automatiquement l’alignement des tokens ; un système à base de règles permet de regrouper les phonèmes en syllabes. - Annotation syntaxique L’annotation syntaxique vient s’ancrer sur les tokens. S’il existe des analyseurs syntaxiques automatiques disponibles pour l’écrit, l’analyse syntaxique du français parlé reste encore un défi. Nous présentons ici la méthodologie que nous avons adoptée pour adapter notre étiqueteur de l’écrit afin de traiter les transcriptions de l’oral spontané. Si les performances de notre étiqueteur MarsaTag sont d’ores et déjà acceptables, l’amélioration de notre outil nécessitera une modélisation multi-niveaux incluant les phénomènes de disfluences (voir ci-dessous) et le traitement plus précis des marqueurs de discours. - Annotation des disfluences Les énoncés oraux comportent de nombreuses variations de la fluence verbale et, cela, à plusieurs niveaux (par exemple, le débit de prononciation des mots, des syntagmes ou des propositions). Mais ces variations peuvent se manifester également aux niveaux acoustiques et phonétiques. Sur les plans morphologiques et syntaxiques, certaines de ces variations se traduisent par de véritables auto interruptions qui suspendent le déroulement syntagmatique dans l’émission verbale. Nos analyses de corpus ont prévu de conserver (en plus des pauses remplies ou non, éléments discursifs, interjections) les traces d’élaboration des énoncés que sont, entre autres, les amorces ou fragments de mots et les ruptures de syntagme. Cette stratégie a permis d’envisager une description fine et exhaustive de ces phénomènes désignés sous le terme de disfluence. - Annotation du discours et des interactions À partir du signal de parole et de sa transcription, il est également possible d’envisager une annotation de plusieurs niveaux pragmatiques tels que l’organisation thématique d’interactions conversationnelles. Plusieurs niveaux d’annotations seront donc décrits dans ce chapitre : l’annotation des thèmes conversationnels, des transitions thématiques (i.e. les mouvements conversationnels qui permettent de passer d’un sujet à un autre), ainsi que les phases de ces transitions. D’autres phénomènes seront également décrits, tels que les items de feedbacks et les séquences humoristiques. Nous présenterons le protocole d’annotation associé à ces différents phénomènes ainsi que les méthodes d’évaluation choisies pour évaluer la fiabilité de ces annotations. - Annotation mimogestuelles À partir du signal vidéo, il est possible d’envisager une annotation mimo-gestuelle (les expressions faciales ou les gestes manuels coverbaux par exemple). Cela peut se faire soit de façon manuelle soit semi-automatisée. Nous présenterons dans ce chapitre le protocole d’annotation semi-automatique des sourires que nous avons élaboré afin d’annoter deux corpus conversationnels. Tout d’abord, nous présenterons l’outil SMAD qui permet d’annoter automatiquement les sourires. Puis nous exposerons, le protocole de correction de ces annotations. Enfin nous décrirons la méthode d’évaluation choisie afin d’évaluer la robustesse des données annotées. Nous évoquerons également l’annotation manuelle des gestes coverbaux ainsi que les problématiques méthodologiques inhérentes telles que les schémas et guide d’annotation, les typologies et la segmentation. Nous donnerons des exemples d’études réalisées au LPL qui proposent différentes approches pour l’annotation des gestes.
Fichier principal
Vignette du fichier
tipa-5424.pdf (1.07 Mo) Télécharger le fichier
Origin : Publisher files allowed on an open archive
licence : CC BY NC ND - Attribution - NonCommercial - NoDerivatives

Dates and versions

hal-03917814 , version 1 (15-03-2023)


Attribution - NonCommercial - NoDerivatives



Mary Amoyal, Roxane Bertrand, Brigitte Bigi, Auriane Boudin, Christine Meunier, et al.. Principes et outils pour l'annotation des corpus. Travaux Interdisciplinaires sur la Parole et le Langage, 2022, Panorama des recherches au Laboratoire Parole et Langage, 38, ⟨10.4000/tipa.5424⟩. ⟨hal-03917814⟩
72 View
23 Download



Gmail Facebook Twitter LinkedIn More