Conventions de transcription pour
les enregistrements radio-télédiffusés
mise à jour pour Transcriber 1.4.1
DGA/Limsi, juin 1999
2.5. Transcription orthographique
2.6. Bruits et conditions acoustiques
3.3. Spécificités du langage parlé
La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.
Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.
Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas transcrite.
Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté.
Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, suivant le choix du transcripteur.
L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, ou de la qualité du canal de transmission (acoustique).
Actuellement, un document de transcription est structuré de la manière la suivante :
Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution de 10 secondes, l'autre de une minute environ) peut être pratique.
Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres de l'épisode], sont les suivantes :
Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de respecter la même nomenclature pour des programmes identiques.
Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en insérant des balises temporelles instantanées de synchronisation (ou frontières).
Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du traitement ultérieur il est également souhaitable de fournir une balise de synchronisation après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court superposé à un mot...).
En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations suivantes :
Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 secondes en moyenne. Il est possible de positionner les frontières plus précisément par la suite.
À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui interviennent.
A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est pratique dans le cas d'un dialogue.
Pour chaque tour de parole le transcripteur indique :
et éventuellement si cela est demandé :
Pour chaque nouveau locuteur le transcripteur indique :
Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.
On considère tout francophone (français, belge, suisse, québécois) de langue maternelle française.
Il faut distinguer différentes situations de parole superposée :
Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur est identifié dans la fenêtre des paramètres du tour après avoir validé Parole superposée. L'affichage dans le logiciel est par exemple :
Patricia Martin + Invite1
1: évidemment découvert que
2: enfin n'oubliez pas
Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot, de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce dernier est quand même inclus dans le segment).
Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superposée sans transcription, avec éventuellement un commentaire décrivant la situation ou le contenu du dialogue.