Accueil / Blog / Lexique complet de la transcription audio et du sous-titrage

Blog

Lexique complet de la transcription audio et du sous-titrage

19 mai 2026

La transcription audio et le sous-titrage occupent aujourd’hui une place centrale dans la production de contenus numériques, qu’il s’agisse de vidéos, de podcasts, de conférences en ligne ou de films. Ces deux disciplines, souvent confondues par les non-initiés, recouvrent pourtant des réalités techniques, linguistiques et juridiques bien distinctes. Maîtriser leur vocabulaire spécialisé est indispensable pour tout professionnel du secteur audiovisuel, de la communication, du journalisme ou de l’accessibilité numérique. Ce lexique complet rassemble, classe et définit les termes essentiels que l’on rencontre dans ces domaines, afin d’offrir un outil de référence clair, rigoureux et directement utilisable sur le terrain.

Comprendre la transcription audio : définitions fondamentales

La transcription audio désigne l’opération qui consiste à convertir un contenu sonore — parole, dialogue, entretien, discours — en texte écrit. Ce processus peut être réalisé manuellement par un transcripteur humain, ou de manière automatisée grâce à des logiciels de reconnaissance vocale. La transcription est utilisée dans des contextes très variés : journalisme, médecine, droit, ressources humaines, production audiovisuelle, accessibilité pour les personnes sourdes ou malentendantes, et bien d’autres.

La transcription verbatim est la forme la plus stricte de transcription : elle retranscrit intégralement tout ce qui est dit, y compris les hésitations, les répétitions, les mots parasites, les silences signifiants, les onomatopées et les erreurs grammaticales du locuteur. Elle est particulièrement utilisée dans le cadre judiciaire, les études qualitatives en sciences sociales ou certaines procédures administratives.

La transcription intelligible, parfois appelée transcription nette ou transcription propre, consiste à retranscrire le sens du propos en éliminant les éléments parasites : les « euh », les répétitions involontaires, les faux départs de phrase. Cette forme est privilégiée dans les contextes éditoriaux, journalistiques et pédagogiques, car elle rend le texte plus lisible sans en trahir le sens.

La transcription adaptée va encore plus loin : elle reformule certains passages pour les rendre plus clairs ou plus accessibles à un lectorat cible, tout en conservant la fidélité au message original. Elle est souvent pratiquée dans le cadre de la vulgarisation scientifique ou de la production de ressources pédagogiques.

La transcription partielle ne retranscrit qu’une portion du contenu audio, en sélectionnant les passages jugés pertinents selon des critères définis à l’avance. Elle est couramment utilisée dans la revue de presse ou les résumés d’audiences.

Les acteurs de la transcription

Le transcripteur (ou transcriptrice) est le professionnel chargé de convertir manuellement un enregistrement audio ou audiovisuel en texte. Ce métier requiert une excellente maîtrise de la langue, une capacité d’écoute soutenue, une frappe rapide et précise, ainsi que des connaissances dans le domaine traité (médical, juridique, technique, etc.).

Le relecteur (ou correcteur de transcription) est chargé de vérifier la fidélité et la qualité du texte transcrit par rapport à l’enregistrement original. Il corrige les erreurs de compréhension, les fautes d’orthographe ou de ponctuation, et vérifie la cohérence terminologique.

Le réviseur intervient après la transcription pour harmoniser le style, corriger les maladresses rédactionnelles et s’assurer que le texte respecte la charte éditoriale du commanditaire. Il travaille souvent en collaboration avec le transcripteur dans les agences spécialisées.

Le correcteur automatique de la parole (ou valideur de sortie vocale) est la personne qui examine et corrige les textes produits par un logiciel de reconnaissance vocale avant leur livraison. Ce travail de post-édition est souvent désigné par le terme MTPE dans le domaine de la traduction automatique, mais il s’applique de plus en plus à la correction des transcriptions générées par intelligence artificielle.

Terminologie technique de la reconnaissance vocale

La reconnaissance vocale automatique (souvent désignée par le sigle RVA, ou par l’acronyme anglais ASR pour Automatic Speech Recognition) désigne l’ensemble des technologies informatiques capables de convertir automatiquement la parole en texte. Ces systèmes reposent sur des modèles acoustiques, des modèles de langage et, de plus en plus, sur des réseaux de neurones profonds.

Le modèle acoustique est la composante d’un système de reconnaissance vocale qui analyse les caractéristiques sonores de la voix (fréquence, intensité, durée) pour identifier les phonèmes correspondants. Il est entraîné sur de grandes quantités d’enregistrements vocaux annotés.

Le modèle de langage est la composante qui attribue des probabilités aux séquences de mots selon leur cohérence grammaticale et sémantique. Il permet au système de choisir, parmi plusieurs hypothèses phonétiques proches, celle qui forme une phrase plausible dans la langue cible.

Le taux d’erreur sur les mots (désigné en anglais par le sigle WER pour Word Error Rate) est la principale mesure de performance d’un système de reconnaissance vocale. Il exprime le pourcentage de mots incorrectement transcrits par rapport au nombre total de mots dans la référence. Un WER de 5 % est généralement considéré comme un seuil de qualité acceptable pour des applications professionnelles.

La diarisation (ou segmentation en locuteurs) est le processus qui consiste à identifier et à distinguer automatiquement les différents locuteurs au sein d’un enregistrement. Elle permet d’attribuer chaque segment transcrit à la bonne personne, ce qui est essentiel pour les entretiens, les réunions ou les débats.

La ponctuation automatique est la fonctionnalité qui permet à un système de reconnaissance vocale d’insérer automatiquement les signes de ponctuation dans le texte transcrit, sans que l’orateur les ait prononcés explicitement. Elle repose sur l’analyse de la prosodie, des pauses et du modèle de langage.

Le temps de latence désigne le délai entre la prononciation d’un mot et son apparition dans le texte transcrit par le système. Dans le cadre de la transcription en temps réel, un faible temps de latence est indispensable pour garantir la synchronisation entre la parole et l’affichage.

La transcription en temps réel (parfois appelée sous-titrage en direct ou CART pour Communication Access Realtime Translation) est la production simultanée d’un texte écrit à mesure que les mots sont prononcés. Elle est largement utilisée pour l’accessibilité lors des événements publics, des émissions télévisées en direct ou des conférences.

Le réseau de neurones récurrents (ou RNN) et, plus récemment, l’architecture Transformer sont les principales structures d’apprentissage profond utilisées pour entraîner les modèles de reconnaissance vocale modernes. Ces architectures permettent de traiter des séquences de données temporelles avec une grande efficacité.

Qualité et évaluation de la transcription

La fidélité est le critère central d’évaluation d’une transcription. Elle mesure dans quelle mesure le texte produit correspond exactement à ce qui a été dit, sans ajout, omission ni déformation du propos original.

La lisibilité désigne la facilité avec laquelle le texte transcrit peut être lu et compris. Une transcription peut être fidèle sans être lisible, notamment dans le cas d’une transcription verbatim qui conserve toutes les hésitations et répétitions d’un locuteur peu à l’aise à l’oral.

La cohérence terminologique est la propriété d’une transcription qui emploie systématiquement les mêmes termes pour désigner les mêmes réalités, en respectant le vocabulaire spécialisé du domaine traité. Elle est particulièrement critique dans les transcriptions médicales, juridiques ou techniques.

Le contrôle qualité (souvent désigné par le sigle CQ) est l’ensemble des procédures mises en place pour vérifier et valider la qualité d’une transcription avant sa livraison. Il peut inclure une relecture humaine, une comparaison automatique avec l’audio original, ou des tests de cohérence terminologique.

L’horodatage (ou timestamping) consiste à associer à chaque mot, phrase ou segment de la transcription une indication temporelle précise, indiquant à quel moment de l’enregistrement il apparaît. L’horodatage est indispensable pour la production de sous-titres synchronisés.

Les fondements du sous-titrage

Le sous-titrage est la technique qui consiste à afficher du texte à l’écran en synchronisation avec la bande sonore d’un contenu audiovisuel, afin de rendre accessible le contenu oral aux spectateurs. Il se distingue du doublage, qui remplace la piste sonore originale par une version enregistrée dans une autre langue ou par un interprète.

Le sous-titre est l’unité textuelle de base du sous-titrage. Il est délimité dans le temps par un code temporel d’entrée (timecode in) et un code temporel de sortie (timecode out), qui indiquent respectivement le moment où il apparaît et le moment où il disparaît à l’écran.

Le code temporel (ou timecode, souvent noté TC) est un système de repérage temporel utilisé dans le secteur audiovisuel, exprimé sous la forme HH:MM:SS:II (heures, minutes, secondes, images). Il permet de synchroniser avec précision les sous-titres avec la piste image et la piste son.

Le nombre d’images par seconde (ou IPS, équivalent de l’anglais FPS pour Frames Per Second) est le paramètre qui définit la fréquence de rafraîchissement de l’image. Les valeurs les plus courantes sont 24, 25, 29,97 et 30 images par seconde. Ce paramètre est déterminant pour le calcul précis des codes temporels des sous-titres.

La synchronisation est la correspondance temporelle entre l’affichage d’un sous-titre et le moment où les paroles correspondantes sont prononcées à l’écran. Une bonne synchronisation est l’une des conditions essentielles de la qualité d’un sous-titrage.

La durée d’affichage (ou durée de lecture) est la durée pendant laquelle un sous-titre reste visible à l’écran. Elle doit être suffisamment longue pour permettre une lecture confortable, mais pas au point de créer un décalage avec l’image.

Les différents types de sous-titrage

Le sous-titrage interlingual (ou sous-titrage de traduction) consiste à traduire les dialogues d’une langue source vers une ou plusieurs langues cibles. C’est la forme la plus répandue dans la distribution internationale des œuvres audiovisuelles.

Le sous-titrage intralingual est produit dans la même langue que les dialogues originaux. Il s’adresse principalement aux personnes sourdes ou malentendantes, aux apprenants d’une langue étrangère, ou aux spectateurs qui souhaitent regarder un contenu dans un environnement bruyant ou silencieux.

Le sous-titrage pour sourds et malentendants (souvent désigné par le sigle SDH pour Subtitles for the Deaf and Hard of Hearing, ou SM pour sous-titrage malentendants) intègre non seulement les dialogues, mais aussi les indications sonores non verbales pertinentes : bruits d’ambiance, musique, effets sonores, identification des locuteurs. Il répond à des normes spécifiques d’accessibilité qui varient selon les pays.

Le sous-titrage en temps réel est la production de sous-titres en direct, sans préparation préalable du contenu. Il est réalisé soit par un vélotypiste (professionnel utilisant un clavier sténographique adapté), soit par un système de reconnaissance vocale assistée.

La vélotypie est une technique de transcription rapide utilisant un clavier sténographique à commandes syllabiques ou phonétiques, permettant d’atteindre des vitesses de frappe très élevées, de l’ordre de 200 à 300 mots par minute. Elle est principalement utilisée pour le sous-titrage en direct et le compte rendu d’audiences.

Le reformulage est la technique utilisée en sous-titrage en direct qui consiste à résumer ou reformuler en temps réel les propos du locuteur, afin de maintenir la synchronisation malgré le délai inévitable de la transcription humaine ou automatique.

Le sous-titrage différé (ou sous-titrage de rattrapage) est produit après la diffusion d’un contenu, à partir d’un enregistrement. Il permet un travail plus soigné et plus précis que le sous-titrage en direct.

Le sous-titrage forcé est un sous-titrage partiel qui n’affiche que les textes nécessaires à la compréhension du contenu et que l’image seule ne permet pas de saisir : inscriptions à l’écran dans une langue étrangère, textos, panneaux, etc.

Normes et contraintes techniques du sous-titrage

La vitesse de lecture est la contrainte fondamentale du sous-titrage. Elle est généralement exprimée en caractères par seconde (CPS) ou en mots par minute (MPM). Les normes professionnelles varient selon les pays et les diffuseurs, mais oscillent généralement entre 15 et 20 caractères par seconde pour le sous-titrage destiné à un public adulte, et entre 10 et 14 caractères par seconde pour les contenus jeunesse.

Le nombre maximal de caractères par ligne (souvent noté CPL pour Characters Per Line) est une contrainte typographique fondamentale du sous-titrage. La plupart des normes professionnelles fixent ce maximum entre 37 et 42 caractères par ligne, en incluant les espaces.

Le nombre de lignes par sous-titre est limité à deux dans la quasi-totalité des normes professionnelles, afin de ne pas masquer une trop grande partie de l’image et de faciliter la lecture.

La durée minimale d’affichage d’un sous-titre est généralement fixée à une seconde (ou à 16 images en 25 images par seconde). En dessous de ce seuil, le sous-titre passe trop vite pour être lu correctement.

La durée maximale d’affichage est généralement comprise entre 7 et 8 secondes. Au-delà, le spectateur a tendance à relire le sous-titre plusieurs fois, ce qui crée une expérience de lecture perturbante.

L’intervalle entre sous-titres (ou gap) est la durée minimale pendant laquelle l’écran doit rester sans sous-titre entre deux sous-titres consécutifs. Il est généralement fixé à deux images (environ 80 millisecondes en 25 images par seconde), mais certaines normes recommandent des intervalles plus longs pour améliorer la lisibilité.

La règle des six secondes est un principe empirique selon lequel un spectateur moyen a besoin d’environ six secondes pour lire un sous-titre de deux lignes complètes. Elle sert de référence pour calibrer la vitesse de lecture et la densité textuelle des sous-titres.

Le positionnement des sous-titres désigne l’emplacement des sous-titres à l’écran. Par défaut, ils sont centrés en bas de l’image, mais ils peuvent être déplacés en haut ou latéralement pour éviter de masquer des éléments visuels importants (visages, textes incrustés, actions cruciales).

Les sous-titres ouverts (open captions ou sous-titres incrustés) sont des sous-titres qui font partie intégrante de l’image et ne peuvent pas être désactivés par le spectateur. Ils sont gravés directement sur la vidéo.

Les sous-titres fermés (closed captions ou sous-titres dissociés) sont des sous-titres qui peuvent être activés ou désactivés à la demande du spectateur. Ils sont contenus dans un fichier séparé ou une piste dédiée du signal vidéo.

Formats de fichiers de sous-titres

Le format SRT (SubRip Text) est le format de sous-titres le plus répandu dans le monde. Il s’agit d’un fichier texte simple contenant des blocs numérotés, chacun composé d’un numéro d’ordre, d’une paire de codes temporels (entrée et sortie) et du texte du sous-titre. Sa simplicité en fait le format le plus compatible avec les lecteurs multimédias.

Le format VTT (Web Video Text Tracks, souvent noté WebVTT) est le format standard du sous-titrage sur le web, défini par le W3C (World Wide Web Consortium). Il est pris en charge nativement par les navigateurs modernes et offre des possibilités de mise en forme plus riches que le SRT.

Le format TTML (Timed Text Markup Language) est un format de sous-titrage basé sur XML, recommandé par le W3C. Il est utilisé notamment dans les flux de diffusion en continu et par certains diffuseurs professionnels en Europe. Sa variante EBU-TT (pour European Broadcasting Union Timed Text) est le standard adopté par de nombreuses chaînes de télévision européennes.

Le format STL (Spruce Subtitle File ou EBU STL) est un format binaire normalisé par l’Union européenne de radio-télévision (UER). Il est traditionnellement utilisé dans la diffusion télévisuelle professionnelle en Europe et offre une grande précision pour la gestion des codes temporels.

Le format SCC (Scenarist Closed Captions) est un format propriétaire utilisé principalement aux États-Unis pour le sous-titrage fermé diffusé sur les chaînes de télévision hertziennes. Il est conforme aux normes de l’industrie américaine établies par la FCC (Federal Communications Commission).

Le format ASS/SSA (Advanced SubStation Alpha / SubStation Alpha) est un format de sous-titres avancé, très utilisé dans la communauté du fansubbing (sous-titrage amateur). Il offre des fonctionnalités graphiques poussées : polices personnalisées, couleurs, effets de karaoke, positionnement précis.

Le format DFXP (Distribution Format Exchange Profile) est un profil du TTML spécifiquement conçu pour l’échange de fichiers de sous-titres entre systèmes de production et de distribution professionnels.

Le format PAC (Presentation Attachment Code) est un format binaire propriétaire développé par la société Screen Electronics, très répandu dans les studios de sous-titrage professionnels, notamment en Europe occidentale.

Processus de production du sous-titrage

Le spotting (ou calage en français) est l’étape du processus de sous-titrage qui consiste à définir les codes temporels d’entrée et de sortie de chaque sous-titre. C’est une opération qui requiert une écoute attentive et une bonne connaissance des règles de synchronisation.

Le découpage est la phase de rédaction des sous-titres à proprement parler : il s’agit de diviser le texte en unités cohérentes, de respecter les contraintes de longueur et de vitesse de lecture, et de veiller à la lisibilité de chaque sous-titre.

Le condensé (ou compression textuelle) est la technique qui consiste à réduire la quantité de texte d’un sous-titre sans en trahir le sens, afin de respecter les contraintes de vitesse de lecture. Elle implique de supprimer les mots superflus, de reformuler des expressions longues ou de recourir à des synonymes plus courts.

La segmentation est la façon dont le texte est réparti entre les différentes lignes d’un sous-titre. Une bonne segmentation respecte les unités syntaxiques naturelles (groupes nominaux, propositions) afin de faciliter la lecture et de ne pas couper arbitrairement des expressions idiomatiques ou des syntagmes.

Le retour à la ligne (line break) est la coupure introduite entre les deux lignes d’un sous-titre. Elle doit toujours correspondre à une frontière syntaxique naturelle : on ne coupe pas un groupe nominal au milieu d’un déterminant et de son nom, ni un groupe verbal entre un auxiliaire et son participe.

La reformulation est la réécriture partielle ou totale d’un passage afin d’en réduire la longueur ou d’en améliorer la lisibilité, tout en respectant le sens original. Elle se distingue de la traduction, même si les deux opérations peuvent se combiner dans le sous-titrage interlingual.

La révision est la relecture systématique de l’ensemble des sous-titres d’un contenu pour en vérifier la cohérence, la fidélité, la synchronisation et le respect des normes techniques. Elle est généralement réalisée par un professionnel distinct du sous-titreur.

La simulation (ou lecture à la vitesse réelle) est l’opération qui consiste à visionner le contenu sous-titré à sa vitesse normale de diffusion pour vérifier la lisibilité et la synchronisation de chaque sous-titre dans son contexte.

Accessibilité et cadre réglementaire

L’audiodescription est un service d’accessibilité complémentaire au sous-titrage, destiné aux personnes aveugles ou malvoyantes. Elle consiste à insérer, dans les pauses naturelles de la bande sonore, une narration décrivant les éléments visuels essentiels à la compréhension du contenu (actions, expressions des personnages, changements de décor).

Le sous-titrage d’accessibilité désigne l’ensemble des pratiques de sous-titrage conçues pour rendre les contenus audiovisuels accessibles aux personnes sourdes, malentendantes, ou présentant des difficultés de compréhension orale. Il comprend le sous-titrage pour sourds et malentendants, mais aussi des pratiques adaptées à des publics spécifiques (enfants, personnes âgées, personnes avec des troubles cognitifs).

La directive européenne sur l’accessibilité du web (directive 2016/2102/UE) impose aux organismes publics des États membres de l’Union européenne de rendre leurs contenus audiovisuels accessibles, notamment par le biais du sous-titrage et de l’audiodescription.

La loi pour l’égalité des droits et des chances (loi française du 11 février 2005) impose aux chaînes de télévision généralistes hertziennes dont l’audience dépasse un certain seuil de rendre la totalité de leurs programmes accessibles aux personnes sourdes et malentendantes, à l’exception de certaines catégories d’émissions.

Le Conseil supérieur de l’audiovisuel (CSA, aujourd’hui intégré à l’Arcom depuis 2022) est l’autorité française de régulation de l’audiovisuel chargée de veiller au respect des obligations d’accessibilité imposées aux diffuseurs. Il publie régulièrement des bilans et des recommandations sur la qualité du sous-titrage des chaînes françaises.

La norme NF EN 301 549 est la norme européenne définissant les exigences d’accessibilité pour les technologies de l’information et de la communication, incluant des spécifications relatives au sous-titrage et à l’audiodescription dans les contenus numériques.

Sous-titrage et traduction audiovisuelle

La traduction audiovisuelle (TAV) est la discipline qui regroupe l’ensemble des pratiques de transfert linguistique appliquées aux œuvres audiovisuelles : sous-titrage, doublage, voix off, surtitre (pour l’opéra et le théâtre), sous-titrage pour sourds et malentendants, etc.

Le doublage est la technique qui consiste à remplacer la bande sonore originale d’un contenu audiovisuel par une nouvelle bande enregistrée dans une autre langue. Contrairement au sous-titrage, il supprime le son d’origine et vise à créer l’illusion que les acteurs parlent la langue de substitution.

La voix off (ou voix superposée) est une technique intermédiaire entre le sous-titrage et le doublage, principalement utilisée pour les documentaires et les émissions de reportage. La voix originale reste audible en arrière-plan, tandis qu’une voix traduite est superposée en avant-plan, généralement avec un léger décalage par rapport à la prise de son originale.

Le surtitre est une forme de sous-titrage utilisée dans le domaine de l’opéra et du théâtre. Les textes traduits ou transcrits sont projetés au-dessus ou sur les côtés de la scène, ou affichés sur des écrans individuels intégrés aux sièges.

L’équivalence dynamique est un principe de traduction, théorisé notamment par Eugene Nida, qui vise à produire sur le lecteur cible le même effet que le texte source produisait sur son lecteur original, quitte à s’éloigner d’une traduction mot à mot. Ce principe est particulièrement pertinent en traduction audiovisuelle, où les contraintes de synchronisation et de lisibilité imposent souvent une reformulation créative.

La traduction contrainte désigne toute traduction soumise à des contraintes extérieures au contenu linguistique lui-même : synchronisation labiale dans le doublage, limites de caractères dans le sous-titrage, temps d’affichage, etc. Ces contraintes obligent le traducteur à trouver des solutions créatives qui ne seraient pas nécessaires dans un contexte de traduction littéraire classique.

Outils professionnels de transcription et de sous-titrage

Le logiciel de sous-titrage est l’application informatique utilisée par les professionnels pour créer, modifier, synchroniser et exporter des fichiers de sous-titres. Parmi les logiciels professionnels les plus utilisés, on peut citer EZTitles, Fab Subtitler, WinCAPS Qu4ntum, Subtitle Edit (logiciel libre), ou encore Swift de Ericsson.

L’éditeur de sous-titres est l’interface principale d’un logiciel de sous-titrage, qui affiche simultanément la vidéo, la forme d’onde audio, la liste des sous-titres avec leurs codes temporels, et les indicateurs de respect des contraintes (vitesse de lecture, nombre de caractères, durée d’affichage).

La forme d’onde (waveform) est la représentation graphique du signal audio, affichée dans les logiciels de sous-titrage pour aider le professionnel à identifier précisément les prises de parole et les pauses. Elle est indispensable pour un calage précis des codes temporels.

La mémoire de traduction est une base de données qui stocke les traductions déjà effectuées sous forme de segments source/cible. Les systèmes de gestion de mémoire de traduction (comme SDL Trados ou memoQ) peuvent être utilisés en complément des logiciels de sous-titrage pour les projets multilingues de grande envergure.

Le glossaire terminologique est une liste de termes spécialisés et de leurs équivalents dans une ou plusieurs langues cibles, utilisée pour garantir la cohérence terminologique au sein d’un projet ou entre plusieurs traducteurs travaillant sur une même série ou un même corpus.

L’export multiformat est la fonctionnalité des logiciels de sous-titrage qui permet de convertir un projet de sous-titrage en plusieurs formats de fichiers différents (SRT, VTT, TTML, STL, etc.) à partir d’un seul fichier source, sans avoir à recréer les sous-titres pour chaque format.

Intelligence artificielle et avenir de la transcription

L’apprentissage automatique (ou apprentissage machine, traduit de l’anglais machine learning) désigne l’ensemble des techniques informatiques qui permettent à un système d’améliorer ses performances en s’entraînant sur de grandes quantités de données, sans être explicitement programmé pour chaque tâche. Il constitue le fondement des systèmes modernes de reconnaissance vocale.

L’apprentissage profond (traduit de l’anglais deep learning) est une branche de l’apprentissage automatique qui utilise des réseaux de neurones artificiels à de nombreuses couches pour traiter des données complexes. Les architectures Transformer, notamment le modèle Whisper développé par OpenAI, ont représenté une avancée majeure dans la précision de la transcription automatique.

La post-édition de transcription automatique est le travail humain qui consiste à corriger et à améliorer les textes produits par un système de reconnaissance vocale avant leur utilisation finale. Elle représente un nouveau métier en plein développement, à la frontière entre la transcription traditionnelle et la révision linguistique.

La synthèse vocale est la technologie inverse de la reconnaissance vocale : elle convertit du texte écrit en parole synthétique. Elle est de plus en plus utilisée pour produire des pistes d’audiodescription ou des voix de remplacement dans certains contextes d’accessibilité.

Le sous-titrage automatique est la production de sous-titres par un système d’intelligence artificielle, sans intervention humaine significative. Bien que les performances de ces systèmes aient considérablement progressé ces dernières années, les professionnels s’accordent à dire que la supervision et la correction humaines restent indispensables pour garantir la qualité, notamment dans les contextes spécialisés ou multilingues.

L’adaptation au locuteur (ou adaptation du modèle acoustique) est une technique qui consiste à affiner un système de reconnaissance vocale sur les caractéristiques vocales d’un locuteur spécifique, afin d’améliorer la précision de la transcription pour cet individu particulier. Elle est utilisée notamment dans les systèmes de dictée médicale personnalisée.

Termes complémentaires et notions avancées

La prosodie désigne l’ensemble des phénomènes suprasegmentaux de la langue parlée : intonation, rythme, accentuation, débit, pauses. La prosodie est une information précieuse pour les systèmes de transcription automatique, car elle aide à identifier les frontières de phrases, les questions, les mises en relief et les changements de locuteur.

Le débit de parole est la vitesse à laquelle un locuteur prononce les mots, généralement mesurée en mots par minute (MPM) ou en syllabes par seconde. Il influe directement sur la difficulté de la transcription et sur les choix de condensé à opérer dans le sous-titrage.

Le locuteur natif est une personne dont la langue transcrite est la langue maternelle. Les systèmes de reconnaissance vocale sont généralement plus performants sur les locuteurs natifs que sur les locuteurs non natifs, car ces derniers présentent des particularités phonétiques qui s’écartent des distributions apprises lors de l’entraînement.

L’accent régional désigne les variations phonétiques propres à une zone géographique donnée au sein d’un espace linguistique. Les accents régionaux constituent un défi majeur pour les systèmes de reconnaissance vocale, car ils s’écartent souvent des variétés standard sur lesquelles ces systèmes sont principalement entraînés.

Le bruit de fond désigne tout son parasite présent dans un enregistrement qui ne fait pas partie du signal de parole principal. Il peut s’agir de bruits d’ambiance, de musique, d’autres voix, de cliquetis, etc. Le bruit de fond dégrade la performance des systèmes de reconnaissance vocale et complique le travail des transcripteurs humains.

Le rapport signal sur bruit (RSB, ou Signal-to-Noise Ratio en anglais) est une mesure de la qualité d’un enregistrement audio, exprimant le rapport entre la puissance du signal utile (la parole) et la puissance du bruit de fond. Un RSB élevé correspond à un enregistrement de bonne qualité, propice à une transcription précise.

La segmentation silencieuse est la technique qui consiste à découper automatiquement un enregistrement audio en segments de parole et en segments de silence, avant d’appliquer la reconnaissance vocale. Elle permet d’améliorer les performances des systèmes et de faciliter la gestion des codes temporels.

Le corpus d’entraînement est l’ensemble des données annotées (enregistrements audio associés à leurs transcriptions vérifiées) utilisées pour entraîner un modèle de reconnaissance vocale. La taille, la diversité et la qualité du corpus d’entraînement sont des facteurs déterminants de la performance du modèle résultant.

La validation croisée est une technique d’évaluation des modèles d’apprentissage automatique qui consiste à entraîner et à tester le modèle sur différentes partitions du corpus de données, afin d’obtenir une estimation fiable de sa performance sur des données inédites.

La confidentialité des données est une préoccupation croissante dans le domaine de la transcription automatique, car les enregistrements audio traités par ces systèmes peuvent contenir des informations sensibles (données médicales, conversations privées, informations stratégiques d’entreprise). Les professionnels du secteur sont soumis à diverses obligations légales en matière de protection des données, notamment le Règlement général sur la protection des données (RGPD) en Europe.

Le consentement éclairé est la condition sine qua non de la licéité d’une transcription dans de nombreux contextes juridiques. Enregistrer et transcrire les propos d’une personne sans son consentement préalable peut constituer une violation du droit à la vie privée ou du droit au respect de la correspondance.

La chaîne éditoriale est l’ensemble des étapes et des acteurs impliqués dans la production d’un contenu sous-titré ou transcrit, depuis la réception du fichier source jusqu’à la livraison du fichier final. Une chaîne éditoriale bien organisée garantit la fluidité du processus et la qualité du résultat.

Le délai de livraison (ou turnaround time) est le temps imparti entre la réception d’un fichier à transcrire ou à sous-titrer et la livraison du résultat fini. Il constitue une contrainte commerciale majeure dans le secteur, et influence souvent les arbitrages entre traitement automatique et traitement humain.

Le volume en minutes est l’unité de mesure la plus couramment utilisée pour quantifier la charge de travail en transcription et en sous-titrage. Elle permet d’estimer les délais de production et de calculer les tarifs, qui sont généralement exprimés en euros par minute de contenu traité.

Ce lexique, bien que volontairement complet, ne saurait prétendre à l’exhaustivité d’un domaine en évolution constante. La transcription audio et le sous-titrage sont des disciplines vivantes, nourries par les progrès technologiques, les mutations des usages numériques et les exigences croissantes en matière d’accessibilité. Tout professionnel soucieux de progresser dans ces métiers gagnera à se tenir régulièrement informé des évolutions normatives, technologiques et réglementaires qui les traversent, en consultant les publications de référence du secteur, les travaux de l’Union européenne de radio-télévision (UER) ou les recommandations du Comité européen de normalisation (CEN).

Sitarah ALFRED

Lexique complet de la transcription audio et du sous-titrage