Manuel du transcripteur

Conventions de transcription pour
les enregistrements radio-télédiffusés

mise à jour pour Transcriber 1.4.1

DGA/Limsi, juin 1999


1. Introduction

2. Structuration de la transcription

2.1. Enregistrement

2.2. Segmentation du signal

2.3. Tours et locuteurs

2.4. Sections et thèmes

2.5. Transcription orthographique

2.6. Bruits et conditions acoustiques

2.7. Commentaires

3. Conventions de transcription

3.1. Conventions d'écriture

3.2. Mots hors-lexique

3.3. Spécificités du langage parlé

4. Vérification


1. Introduction

La création manuelle de transcriptions d'enregistrements de journaux radio- ou télédiffusés, permet de faire avancer les recherches en transcription automatique, en indexation et en archivage de ce type de documents sonores.

1.1. Documents concernés

Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs et de thèmes abordés. Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de minutes à plusieurs heures.

Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, faits de société ...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions....) ne sera pas transcrite.

1.2. Objectifs du manuel

Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté.

Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en parallèle ou au contraire appliquées séquentiellement sur de longues portion du signal, suivant le choix du transcripteur.


2. Structuration de la transcription

L'étape d'annotation vise à structurer les enregistrements, c'est-à-dire à segmenter et à décrire le signal acoustique à différents niveaux jugés pertinents pour le traitement ultérieur. Il s'agit ici principalement de l'identité du locuteur, de l'identification du contenu thématique, ou de la qualité du canal de transmission (acoustique).

Actuellement, un document de transcription est structuré de la manière la suivante :

2.1. Enregistrement

2.1.1. Comment transcrire un nouvel enregistrement?

Par la suite, pensez à enregistrer fréquemment votre travail avec [Fichier]/[Enregistrer] ou le raccourci Control-s, surtout si vous n'avez pas activé la sauvegarde automatique. Par ailleurs, un double affichage du signal (un avec une résolution de 10 secondes, l'autre de une minute environ) peut être pratique.

2.1.2. Caractéristiques de l'enregistrement

Les informations associées à un enregistrement, éditées avec [Fichiers]/[Paramètres de l'épisode], sont les suivantes :

Pour des enregistrements de même nature (par exemple sur plusieurs jours) il convient de respecter la même nomenclature pour des programmes identiques.

2.2. Segmentation du signal

Pour fournir des repères temporels par rapport au signal, et pour faciliter le travail de transcription, on segmente le signal en insérant des balises temporelles instantanées de synchronisation (ou frontières).

2.2.1. Où segmenter?

Nous recommandons de faire correspondre ces balises à des groupes de souffle dans le signal ou à des marques de ponctuation dans le langage écrit. Pour des raisons techniques du traitement ultérieur il est également souhaitable de fournir une balise de synchronisation après différents types de problèmes au niveau acoustique (mots mal prononcés, bruit court superposé à un mot...).

En résumé, l'insertion d'une frontière de synchronisation est recommandé dans les situations suivantes :

2.2.2. Comment segmenter?

Vous obtenez une segmentation grossière d'une partie du signal en intervalles de 5 à 20 secondes en moyenne. Il est possible de positionner les frontières plus précisément par la suite.

2.3. Tours et locuteurs

À ce niveau on décrit la succession de tours de parole avec les différents locuteurs qui interviennent.

2.3.1. Comment créer les tours de parole?

A la création d'un tour, le locuteur proposé par défaut est l'avant-dernier utilisé, ce qui est pratique dans le cas d'un dialogue.

2.3.2. Caractéristiques des tours

Pour chaque tour de parole le transcripteur indique :

et éventuellement si cela est demandé :

2.3.3. Caractéristiques des locuteurs

Pour chaque nouveau locuteur le transcripteur indique :

Il est important de respecter l'orthographe des noms. On peut trouver les noms des journalistes et des différentes émissions radio et télé français dans le guide MédiaSid.

On considère tout francophone (français, belge, suisse, québécois) de langue maternelle française.

2.3.4. Parole simultanée

Il faut distinguer différentes situations de parole superposée :

  1. Un locuteur parle, et un autre intervient ponctuellement par des interjections (hum oui ...) ; il convient de noter ces dernières comme de simples bruits se superposant à la parole.
  2. Un locuteur parle en premier plan, et une ou plusieurs voix sont audibles à un niveau moindre (par exemple la voix d'un traducteur est superposée à la voix d'origine) ; seule la voix au premier plan est transcrite et un marqueur de bruit de fond (de type parole ou conversation) doit être utilisé.
  3. Deux locuteurs dialoguent, se coupent mutuellement la parole et parlent simultanément sur plusieurs mots. Le mécanisme de gestion de parole simultanée décrit ci-après peut être appliqué. En cas de difficulté, les segments pourront être annotés comme parole "non-transcrite" .
  4. Si plus de deux locuteurs interviennent à un fort niveau sonore, il faut annoter la portion de signal comme "non-transcrite".

Dans le cas de parole simultanée avec deux locuteurs (cas numéro 3), le deuxième locuteur est identifié dans la fenêtre des paramètres du tour après avoir validé Parole superposée. L'affichage dans le logiciel est par exemple :

Dans la transcription, 1: va identifier les paroles (évidemment découvert que) du premier locuteur (Patricia Martin) et 2: les paroles (enfin n'oubliez pas) du deuxième locuteur Invite1. Les frontières au niveau du signal seront posées au niveau des frontières de mot, de sorte à inclure dans le segment ainsi découpé, toute la parole superposée (par exemple si le mot enfin du locuteur 2 ne démarre qu'à la fin du mot évidemment du locuteur 1, ce dernier est quand même inclus dans le segment).

Cependant la transcription de ce type de signal est très coûteuse. À l'heure actuelle on ne sait pas traiter de manière satisfaisante la parole superposée et les transcriptions, mêmes si elles sont produites, ne sont pas encore exploitées. Le transcripteur peut donc choisir de marquer simplement le signal comme parole superposée sans transcription, avec éventuellement un commentaire décrivant la situation ou le contenu du dialogue.

2.4. S