Échantillonnage audio numérique

Côté vidéo, nous traitons des tailles d'image, des rapports d'aspect, des paramètres de zoom, des f-stops et des fréquences d'images. Le côté audio a aussi ses chiffres, mais ils sont un peu plus faciles à comprendre.

Tout l'audio n'est-il pas numérique aujourd'hui ?

Autrefois, l'audio était enregistré sur une bande analogique. Pour l'utilisateur final, ce n'était pas beaucoup plus difficile que nos enregistreurs numériques d'aujourd'hui, mais il se passait beaucoup plus dans les coulisses. Par exemple, à l'époque, un studio d'enregistrement typique engageait un ingénieur pour entretenir l'équipement audio. Les têtes de bande devaient être alignées, le biais d'enregistrement ajusté et les niveaux calibrés avant chaque session. Si le studio ou le producteur changeait la marque ou la qualité de la bande d'enregistrement, un tout nouveau groupe de paramètres était nécessaire. Ensuite, il y avait des systèmes de réduction du bruit qui introduisaient leurs propres étalonnages et artefacts dans le mélange. Pour couronner le tout, l'ingénieur du son devait savoir comment enregistrer sur bande d'une certaine manière pour que le son soit correct à la lecture. Cette douleur et cette souffrance perdurent encore aujourd'hui, en particulier dans les studios haut de gamme où ils veulent ce "son analogique" insaisissable sur leurs enregistrements modernes.

Un peu rend notre travail simple, n'est-ce pas ? Pour un simple enregistrement audio numérique, nous branchons une interface audio sur notre ordinateur, lançons une application d'enregistrement, vérifions les compteurs et appuyons sur Enregistrer. Les ajustements de niveau de base sont tout ce que nous avons à faire jusqu'à la post-production. Lorsque vous enregistrez de l'audio avec votre caméscope, c'est encore plus simple. Branchez simplement un micro et appuyez sur Enregistrer – la caméra fait le reste pour vous. Bien sûr, comme pour l'analogique, il se passe beaucoup de choses sous la surface dans le monde numérique également, mais les microprocesseurs sont aux commandes. Nous les laissons faire leur travail.
Lorsque l'audio entre dans un enregistreur numérique ou un caméscope, l'audio est numérisé et transformé en « mots » numériques qui sont copiés sur une bande, un disque dur ou une carte mémoire. Lors de la lecture, le flux numérique est décodé et retransformé en un signal analogique diffusé via vos haut-parleurs ou vos écouteurs. Simple, non ? Eh bien…

Taux d'échantillonnage audio numérique

Au fur et à mesure que l'audio est numérisé, il prend deux caractéristiques spécifiques :le taux d'échantillonnage et la profondeur de bits. Le taux d'échantillonnage est le nombre de fois par seconde que l'audio est échantillonné pour le convertir en un fichier numérique. Plus il y a d'échantillons par seconde, meilleure est la qualité. Le nombre réel d'échantillons nécessaires pour créer une copie théoriquement parfaite est régi par le théorème d'échantillonnage de Nyquist-Shannon. Les calculs à l'intérieur de ce petit bijou pourraient vous faire tourner la tête, alors nous allons paraphraser :le taux d'échantillonnage doit être au moins le double de la fréquence enregistrée. Par exemple, si vous enregistrez des percussions, des cymbales, etc., les fréquences enregistrées et leurs harmoniques peuvent facilement atteindre 20 000 Hz. Cela signifie que le taux d'échantillonnage requis pour recréer une copie précise est de 40 000 Hz. Si vous avez fait attention, vous savez que la spécification audio du CD nécessite un taux d'échantillonnage de 44 100 Hz et que la vidéo DV utilise un taux d'échantillonnage de 48 000 Hz. Cela laisse beaucoup de marge de manœuvre à l'extrémité supérieure de l'échelle. Amateurs de maths, n'hésitez pas à chercher tout ça sur Wikipédia. Cela devrait vous occuper un moment.

La spécification audio DV demande en fait deux fréquences d'échantillonnage :48 kHz et 32 kHz. Le réglage 48 kHz (généralement appelé 16 bits) est la norme pour l'enregistrement à deux canaux ou stéréo. La version 32 kHz (généralement appelée 12 bits) peut également enregistrer en stéréo, mais il est également possible d'enregistrer quatre canaux audio simultanés sur certaines caméras. Le Canon XL2 est le premier appareil photo qui vient à l'esprit dans cette catégorie. Un taux d'échantillonnage de 32 kHz signifie que le haut du spectre audio enregistré est de 16 000 Hz, ce qui est parfait pour le dialogue et d'autres tâches. Si des taux d'échantillonnage de 44 100 Hz et plus sont appelés qualité CD, le réglage de 32 000 Hz correspond à la qualité radio FM. C'est bien pour une utilisation occasionnelle, mais pas recommandé pour les applications critiques. Curieusement, de nombreux caméscopes utilisent par défaut le réglage audio 32 kHz bien qu'ils ne puissent pas réellement enregistrer quatre canaux.

Profondeur de bits

La profondeur de bits est plus compliquée à expliquer, nous allons donc commencer par une analogie. En imagerie numérique, il existe trois profondeurs de bits courantes :8 bits, 16 bits et 24 bits. Une image 8 bits n'a que 256 couleurs disponibles. Bien que vous ne remarquiez peut-être jamais ces limites dans une image de dessin animé, un coucher de soleil 8 bits semblerait assez étrange. Étant donné que les couleurs sont limitées, vous verrez beaucoup de bandes dans le dégradé de l'horizon jusqu'au ciel. Une image 16 bits a un peu plus de gamme - 65 536 couleurs pour être exact. Cela offre suffisamment d'options pour créer une image convaincante, en particulier sur de petits écrans comme votre téléphone portable ou un jeu portable. Mais vérifiez votre coucher de soleil numérique, et vous verrez toujours des bandes, mais pas aussi drastiques que la version 8 bits. En imagerie numérique, le 24 bits est souvent appelé True Color, car il offre 16 777 216 possibilités de couleurs. Une image 24 bits couvre la majorité des couleurs vues par l'œil humain. Les appareils photo numériques – fixes et vidéo – produisent des images 24 bits, et nous sommes tous très satisfaits des résultats.

Pour rester dans l'analogie de la photo numérique, pensons à l'audio. Chaque échantillon audio numérique est essentiellement un instantané de l'audio à ce moment précis. Vous pouvez imaginer qu'un échantillon 8 bits - avec seulement 256 "couleurs" audio - pourrait être un peu granuleux, et vous auriez raison. D'un autre côté, un échantillon 16 bits a beaucoup plus de portée et produit une version très raisonnable de l'audio. C'est pourquoi il s'agit de la profondeur de bits standard pour DV, DVD et CD audio. Les enregistrements 24 bits bénéficient de plus de 16,7 millions de « couleurs » audio par échantillon. Bien que vous ne les utilisiez pas sur des DVD ou des CD de musique standard, le format de disque Blu-ray prend en charge l'audio 24 bits dans une variété de formats.

Ensuite, prenez la profondeur de bits et multipliez-la par le taux d'échantillonnage. Vous avez maintenant une idée du potentiel de qualité de votre enregistrement. Une bande-son audio DV ou DVD typique a une profondeur de bits de 16 et un taux d'échantillonnage de 48 kHz. Ainsi, 48 000 fois par seconde, l'audio est numérisé avec une profondeur de 16 bits. Il en résulte un enregistrement très propre qui reproduit fidèlement la source d'origine.

Mais à la fin…

En fin de compte, vous n'aurez pas à vous soucier beaucoup des taux d'échantillonnage ou de la profondeur de bits. Votre équipement s'en chargera automatiquement pour vous. Cependant, maintenant que vous savez ce que signifient les chiffres, il vous sera facile de faire une vérification visuelle rapide chaque fois que vous filmez une vidéo ou enregistrez de l'audio. Si le caméscope indique qu'il enregistre à 32 kHz, changez-le avant la prise de vue. La configuration d'une session de voix off est plus facile si vous savez utiliser les paramètres 16 bits, 48 kHz de votre interface audio. De plus, vous pouvez toujours publier votre statut Facebook en disant que vous réfléchissez au théorème de Nyquist, et vos amis penseront que vous êtes vraiment intelligent.

BARRE LATERALE

En studio

Dans les studios d'enregistrement professionnels, ils enregistrent généralement l'audio à 96/24. Cela signifie une profondeur de 24 bits à une fréquence d'échantillonnage de 96 kHz. Pourquoi si haut ? La profondeur de 24 bits permet une plage dynamique et des possibilités de «couleur» incroyables. Les ingénieurs et les producteurs apprécient le taux d'échantillonnage de 96 kHz car il donne à l'enregistrement plus de marge de manœuvre ou «d'air». Bien sûr, le produit final est rééchantillonné en 16 bits à 44 100 Hz pour les sorties CD. Vous n'entendrez pas la différence sur votre iPod, mais, en studio, l'amélioration est évidente. Cela permet d'obtenir de meilleurs enregistrements originaux et, espérons-le, un niveau de qualité qui résistera à l'épreuve du temps.

Rédacteur en chef Hal Robertson est producteur de médias numériques et consultant en technologie.