Automatic Segmentation of Spontaneous Speech

Abstract : Na maior parte dos casos, a análise de entidades fonéticas da fala exige o alinhamento da gravação da fala com sua transcrição fonética. Entretanto, os estudos sobre segmentação automática têm sido predominantemente desenvolvidos com amostras de fala lida ou fala preparada, uma vez que a fala espontânea refere-se a uma atividade mais informal, sem qualquer preparação. Como consequência, na fala espontânea numerosos fenômenos ocorrem, tais como: hesitações, repetições, feedback, backchannels, elisões não-padrão, fenômenos de redução, palavras truncadas, e mais comumente, pronúncias não-padrão. Eventos como o riso, ruídos e pausas preenchidas também são muito comuns na fala espontânea. Este artigo objetiva comparar a fala lida e a fala espontânea a fim de avaliar o impacto do estilo de fala numa tarefa de segmentação da fala. O artigo descreve a solução implementada no programa SPPAS para a segmentação automática da fala lida e da fala espontânea. Essa solução consiste de principalmente dois aspectos: suporte para uma Transcrição Ortográfica Enriquecida para a otimização da conversão grafema-para-fonema e permissão para o alinhamento forçado (forced-alignment) dos seguintes eventos: pausas preenchidas, riso e ruídos. Tais eventos representam menos de 1% das ocorrências na fala lida e cerca de 6% na fala espontânea. Eles ocorrem com um máximo de 3% nas Unidades Entre-Pausas de um corpus de fala lida e de 20% a 36% nas Pausas Entre-Unidades de corpora de fala espontânea. As medidas APFU-Acurácia no Posicionamento de Fronteiras de Unidade, do sistema de alinhamento forçado (forced-alignment system) proposto são de 96% de acerto no que diz respeito à fala lida e 96,48% para a fala espontânea, com uma variação delta de 40 ms.
Liste complète des métadonnées

Littérature citée [4 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01908434
Contributeur : Brigitte Bigi <>
Soumis le : mercredi 7 novembre 2018 - 11:44:23
Dernière modification le : jeudi 8 novembre 2018 - 01:18:18

Fichier

13026-1125612814-3-PB.pdf
Publication financée par une institution

"Origine" ---> fichier sous licence libre "Creative Commons"

Identifiants

Collections

Citation

Brigitte Bigi, Christine Meunier. Automatic Segmentation of Spontaneous Speech. Revista de Estudos da Linguagem , 2018, 26 (4), 〈10.17851/2237-2083.26.4.1489-1530〉. 〈hal-01908434〉

Partager

Métriques

Consultations de la notice

3

Téléchargements de fichiers

5