4:2:0 contre 4:2:2 contre Raw :guide du vidéaste sur le sous-échantillonnage chromatique

Les caméras vidéo dédiées et même les caméras hybrides offrent désormais une multitude de formats pour filmer des vidéos, mais quelle est la différence entre 4:2:0, 4:2:2 et brut, et comment cela affectera-t-il vos images ? Une compréhension des détails techniques peut être utile pour prendre une décision éclairée quant au format à utiliser.

La profusion de différents formats d'enregistrement proposés dans le menu vidéo de votre caméra peut parfois sembler écrasante, mais si vous ne retenez rien d'autre de cet article, en voici l'essence :en fonction de facteurs tels que la résolution, la profondeur de couleur et la fréquence d'images de votre séquence vidéo, les opérations telles que l'encodage et le décodage de votre vidéo, l'édition de votre séquence ou son stockage et sa récupération à partir de fichiers peuvent être extrêmement gourmandes en données, longues et exigeantes en termes de calcul. Les formats vidéo aux noms plutôt énigmatiques mentionnés dans le titre de cet article sont la réponse à ce problème, offrant aux vidéastes une variété d'options pour faire des compromis entre la qualité de leurs images et la quantité d'informations (ou de données) nécessaire pour les stocker.

Le grand compromis :qualité d'image par rapport au stockage des données

En général, les formats vidéo de la plus haute qualité nécessiteront le plus de données pour le stockage, tandis que les formats de la plus basse qualité en nécessiteront le moins. La quantité de données nécessaire au stockage de vos séquences vidéo peut avoir des conséquences pratiques importantes. Les ensembles de données plus volumineux générés par les formats vidéo de haute qualité créent des fichiers plus volumineux qui présentent certains inconvénients potentiels. De plus grands volumes de supports de stockage numérique sont nécessaires pour stocker les images, et les temps d'écriture plus longs pour ces fichiers vidéo de haute qualité peuvent également imposer des limites à la capacité de votre caméra à capturer des images. Le choix d'un format vidéo de qualité supérieure pourrait, par exemple, vous obliger à filmer à une fréquence d'images et/ou une résolution inférieures afin de permettre au pipeline de données de la caméra de suivre le rythme.

Et les problèmes ne s'arrêtent pas à la caméra.

Une fois que vous avez téléchargé ces fichiers plus volumineux sur votre ordinateur pour les modifier, le temps et les ressources de calcul nécessaires pour lire et traiter ces fichiers sont d'autant plus importants, et votre ordinateur peut même avoir du mal à accomplir ces tâches s'il ne dispose pas de la mémoire ou de la puissance de calcul nécessaire pour gérer le traitement d'ensembles de données aussi volumineux.

Du côté positif, les formats vidéo de meilleure qualité vous donneront (enfin… des séquences de meilleure qualité (évidemment)), mais ils peuvent également offrir un flux de travail plus simple et des résultats supérieurs dans la suite de montage, ce dont nous parlerons plus tard.

Un exemple simple de ce type de compromis entre la qualité de l’image et la taille du fichier que tout le monde comprend est la profondeur de bits. Les pixels d'un capteur d'appareil photo numérique auront une profondeur de bits spécifiée pour l'encodage des couleurs lors de l'enregistrement de vidéos ou d'images fixes. Un pixel avec une profondeur de couleur de 8 bits peut enregistrer 2⁸ ou 256 couleurs pour chacun des canaux rouge, vert et bleu (RVB), pour un total d'environ 16,7 millions de couleurs. En revanche, un capteur d’appareil photo offrant une profondeur de couleur de 12 bits peut enregistrer environ 68,3 milliards de couleurs. Le rendu des couleurs du capteur 12 bits sera évidemment bien supérieur dans la plupart des cas à celui du capteur 8 bits, mais une image de 20 mégapixels capturée avec le capteur 12 bits nécessitera 90 Mo pour stocker les données de couleur, alors que le capteur 8 bits nécessite 60 Mo (en supposant qu'il n'y ait pas de compression d'image dans les deux cas).

L'image couleur 8 bits ci-dessous (avec l'aimable autorisation de Wikipédia) illustre bien le type de compromis entre qualité et taille de fichier dont nous avons discuté. Dans le fond bleu du ciel, vous pouvez clairement voir un exemple du phénomène de bandes qui peut être provoqué par l'utilisation d'une profondeur de bits plus faible pour la couleur.

Bandes visibles dans une image 8 bits (avec l'aimable autorisation de Steve F, Wikipedia)

Il est assez facile de comprendre comment le choix de la profondeur de bits de votre image vidéo peut affecter le compromis entre la qualité de l'image et la taille du fichier, mais qu'en est-il de ces autres formats vidéo aux noms plus mystérieux comme 4:2:2 et 4:2:0 ?

Le système de couleurs vieux de 90 ans que nous utilisons encore aujourd'hui

Afin de comprendre ces formats vidéo, nous devons aller au-delà du simple monde des couleurs RVB et examiner un système différent de codage des couleurs apparu à la fin des années 1930, lorsque les ingénieurs de la télévision commençaient à réfléchir à l'introduction d'émissions couleur. D'une manière analogue à la manière dont Microsoft en 1985 avait besoin que son nouveau système d'exploitation Windows soit rétrocompatible avec tous les PC exécutant déjà son précédent système d'exploitation de disque (DOS), les ingénieurs de télévision ont reconnu que pendant la période de transition où la télévision couleur était encore en cours d'introduction, les nouvelles émissions couleur devraient également être compatibles avec les téléviseurs noir et blanc que la plupart des gens utilisaient encore. En 1938, l'ingénieur français Georges Valensi a mis au point un système ingénieux permettant de séparer la composante noir et blanche de l'image des composantes couleur. Pour les nouvelles émissions couleur, les téléviseurs noir et blanc existants utiliseraient simplement la composante noir et blanc du signal, tandis que les nouveaux téléviseurs couleur reconstruiraient une image couleur à partir de cette composante noir et blanc en combinaison avec deux canaux couleur supplémentaires.

Malgré son âge, le système de Valensi, appelé YCbCr, est toujours utilisé aujourd'hui et constitue en fait le fondement de nos méthodes d'encodage vidéo modernes (y compris les formats 4:2:2 et 4:2:0 dont nous parlerons ici). Au lieu de séparer une image en canaux rouge, vert et bleu, le système YCbCr sépare l'image en deux grandes composantes appelées luminance et chrominance. La composante luminance (le Y dans YCbCr) est essentiellement la partie noir et blanc de l'image, tandis que la composante chroma se compose de deux canaux de différence de couleur :un canal de différence bleu (Cb) et un canal de différence rouge (Cr).

L'aspect véritablement ingénieux de ce système est qu'il exploite directement la manière dont l'œil humain réagit différemment à la luminance (tons clairs et sombres) et à la couleur. Il le fait d'une manière très intelligente qui nous permet d'encoder des images vidéo précises en utilisant moins d'informations.

L’œil humain étant plus sensible à la luminance qu’à la couleur, il est possible de coder des informations de couleur avec une résolution inférieure tout en étant capable de reconstruire une image précise. Dans le cas d'un signal de télévision diffusé, cela correspond à l'utilisation de moins de bande passante pour les composantes chroma (couleur) que pour la composante luminance (luminance). Pour une image vidéo numérique, nous pouvons exploiter ce même concept d'économie d'espace en utilisant une plus petite fraction de nos données pour coder les composants chromatiques de résolution inférieure.

Mais comme le dit l'infopublicité, attendez, il y a plus encore…

Nos yeux sont également plus sensibles à la région centrale verte du spectre visible qu'aux couleurs plus proches des extrémités rouge ou bleue du spectre, ce qui signifie que nous pouvons réduire davantage la quantité de données que nous devons stocker pour notre image vidéo en stockant moins d'informations sur les couleurs rouge et bleue que sur les informations sur la couleur verte - et c'est exactement ce que YCbCr peut faire.

Mais à ce stade, vous vous demandez peut-être :"Où se trouvent exactement les informations sur le canal vert ? Nous avons la composante luminance (noir et blanc) et les canaux chromatiques pour les différences de couleur rouge et bleue. Allons-nous jeter le canal vert ?"

La réponse est non.

Parce que nos yeux sont plus sensibles au vert, les informations sur la couleur verte sont préservées dans la composante luminance à plus haute résolution. Lorsque les informations sur la couleur verte sont nécessaires à la reconstruction de l'image originale en RVB, elles peuvent être facilement extraites des données de luminance.

Soit dit en passant, cette sensibilité accrue de l'œil humain au vert se reflète également dans la disposition des filtres colorés dans la matrice Bayer (ou X-Trans si vous utilisez Fuji) qui se trouve probablement devant le capteur de votre appareil photo numérique et est utilisée pour reconstruire la couleur à partir de l'image de luminance pure vue par le capteur. Si vous regardez le diagramme ci-dessous, vous verrez qu'il y a deux filtres verts sur la matrice Bayer pour chaque filtre rouge ou bleu, pondérant plus fortement la composante verte de l'image en fonction de la réponse naturelle des couleurs de nos yeux.

Filtre Bayer (avec l'aimable autorisation d'Amada44, Wikipédia)

Sous-échantillonnage chroma :une astuce intelligente pour économiser sur le stockage de données

Parce que nos yeux sont plus sensibles à la luminance d'une image qu'à ses couleurs, nous pouvons sacrifier une certaine résolution des informations de couleur, en particulier dans les canaux bleu et rouge, sans trop compromettre la précision de notre image. Cela nous permet de réduire davantage la quantité de données dont nous avons besoin pour stocker l’image, avec les avantages correspondants lorsqu’il s’agit d’éviter certains des problèmes liés aux grands ensembles de données dont nous avons déjà parlé. Une façon d'obtenir cette réduction des données consiste à utiliser de manière sélective certaines informations de chrominance de certains pixels via une méthode connue sous le nom de sous-échantillonnage de chrominance.

Considérez ce tableau de 8 pixels de couleur dans l'image originale.

Tableau de pixels de couleur| © Gordon Webster

Nous pouvons séparer les composants de luminance et de chrominance de ce tableau de pixels comme ceci.

Séparer une image en composants de luminance et de chrominance | © Gordon Webster

Avant d'aller plus loin, il est important de noter que les pixels CbCr sont affichés comme une combinaison unique de pixels des canaux Cb et Cr, mais dans le système YCbCr, chacun d'eux serait en fait codé comme deux pixels Cb et Cr distincts.

Vous remarquerez qu'il y a deux rangées de pixels avec quatre pixels dans chaque rangée, et c'est de là que viennent les noms des formats de sous-échantillonnage de chrominance 4:2:0 et 4:2:2. Le premier nombre est la largeur du bloc de pixels sur lequel nous échantillonnons les couleurs – dans ce cas, 4. Le deuxième nombre est le nombre de pixels dont nous échantillonnerons les couleurs dans la première ligne. Le troisième nombre est le nombre de pixels dont nous échantillonnerons les couleurs dans la deuxième ligne.

L'image suivante montre plus clairement ces protocoles de sous-échantillonnage et nous aidera à comprendre les détails de chaque protocole.

Sous-échantillonnage de chrominance | © Gordon Webster

Au format 4:2:0, nous échantillonnons deux pixels de la première ligne CbCr (les pixels 1 et 3) et aucun pixel de la deuxième ligne. Ensuite, nous définissons les pixels 1 et 2 de la première ligne sur la valeur du pixel 1 et les pixels 3 et 4 sur la valeur du pixel 3. Comme nous n'avons échantillonné aucun pixel de la deuxième ligne, nous définissons simplement la valeur de chaque pixel de la deuxième ligne sur la valeur du pixel au-dessus dans la première ligne. En rajoutant le canal luma, nous obtenons le résultat que nous voyons au bas du diagramme.

Sur le diagramme, vous pouvez voir qu'avec un sous-échantillonnage 4:2:0, nous sacrifions la moitié de notre résolution chromatique verticalement et l'autre moitié horizontalement.

Au format 4:2:2, nous échantillonnons deux pixels de la première ligne (les pixels 1 et 3) et les deux mêmes pixels de la deuxième ligne. Ensuite, nous définissons les pixels 1 et 2 de la première ligne sur la valeur du pixel 1, et les pixels 3 et 4 sur la valeur du pixel 3. Mais cette fois, puisque nous avons également échantillonné deux pixels de la deuxième ligne, nous pouvons effectuer l'opération équivalente pour les pixels de la deuxième ligne.

Sur le diagramme, vous pouvez voir qu'avec le sous-échantillonnage 4:2:2, nous sacrifions la moitié de notre résolution chromatique horizontalement, mais conservons la totalité de notre résolution verticale d'origine.

Mais qu'en est-il du protocole 4:4:4 dans la troisième colonne ?

Vous remarquerez qu'avec le sous-échantillonnage 4:4:4, nous utilisons toutes les valeurs CbCr dans chaque ligne et ne sacrifions donc aucune résolution couleur. Le protocole 4:4:4 est ce que nous appelons un format d'encodage vidéo sans perte, et si vous ne l'aviez pas déjà deviné, le sous-échantillonnage 4:4:4 est plus communément appelé brut.

Revenons donc à la question de la qualité de l'image par rapport au stockage des données

Voyons d’abord combien de données chacun de ces protocoles de sous-échantillonnage nous permet d’économiser lorsque nous encodons nos séquences vidéo. La bonne nouvelle ici est que vous n’avez même pas besoin de mémoriser ces chiffres car il existe une règle empirique très simple pour les déterminer simplement à partir du nom du protocole. Je vais vous donner cette règle rapide dans un instant, mais voyons comment cela fonctionne.

Si nous codons les 8 pixels en utilisant YCbCr (4:4:4) avec une profondeur de bits de 8, nous avons besoin de 8 bits pour chaque pixel luma, de 8 bits pour chaque pixel Cb et de 8 bits pour chaque pixel Cr, pour un total de 192 bits pour coder le tableau complet de 8 pixels. Il s'agit de l'exigence de stockage pour le format brut sans perte, que nous pouvons prendre comme référence puisque nous n'économisons aucun espace en utilisant ce protocole.

Pour 4:2:2, nous n'avons que quatre pixels Cb et quatre Cr au lieu de huit de chaque, nous pouvons donc encoder l'ensemble complet de 8 pixels en utilisant seulement 128 bits, soit une économie d'un tiers.

Pour 4:2:0, nous n'avons que deux pixels Cb et deux pixels Cr au lieu de huit de chaque, nous pouvons donc encoder l'ensemble complet de 8 pixels en utilisant seulement 96 bits, soit une économie de moitié.

La règle simple et rapide pour déterminer combien chaque format vidéo vous permet d'économiser est d'additionner les nombres dans le nom du protocole et de les diviser par 12. Donc 4:4:4 =12/12 =1, 4:2:2 =8/12 =0,67 et 4:2:0 =6/12 =0,5. Facile !

Alors qu'en est-il de la qualité de l'image ?

Avec toutes les discussions sur l'abandon de la résolution couleur, vous pourriez être tenté de penser que 4:2:0 est une sorte de protocole rapide et sale pour capturer des séquences vidéo de faible qualité en utilisant un minimum de stockage, mais vous pourriez être surpris d'apprendre que 4:2:0 est en fait la norme pour les supports vidéo numériques de haute qualité comme le Blu-ray. Si vous prenez une analogie avec le monde de la photographie, nous supprimons effectivement une énorme quantité d'informations lorsque nous convertissons une image de son format brut d'origine en JPEG, mais nous pouvons toujours réaliser des impressions au format mural à partir d'une image JPEG si la résolution est suffisante.

En vérité, vous auriez du mal à voir beaucoup de différence, voire aucune, dans la plupart des circonstances entre une vidéo tournée au format brut et une vidéo tournée au format 4:2:0. Les différences sont certainement là si vous êtes déterminé à regarder les pixels, mais elles sont généralement subtiles et apparaissent principalement dans les scènes où le cadre est divisé par des bords nets aux limites des différentes couleurs. L'image ci-dessous montre une comparaison entre les trois protocoles de sous-échantillonnage discutés ici, et dans la vue agrandie, vous pouvez voir des traces des artefacts de sous-échantillonnage pour 4:2:0 et 4:2:2.

Artefacts de sous-échantillonnage chroma, avec l'aimable autorisation de Janke, Wikipedia

Outre la qualité supérieure des images qu'elle produit, la vidéo brute (4:4:4) brille vraiment en matière de montage. Pour revenir à notre analogie avec la photographie fixe, de nombreux photographes professionnels prennent des photos au format brut, même s'ils livrent finalement leurs images dans un format compressé tel que JPEG, car cela leur donne beaucoup plus de flexibilité et de contrôle pendant le processus d'édition. Le même type d'approche est souvent suivi par les vidéastes professionnels.

La vidéo brute n'est pas compressée (ou utilise une compression sans perte), conservant les couleurs en pleine résolution pour chaque pixel et évitant tout problème d'artefacts de compression au stade du montage. Étant donné que la vidéo n'est pas traitée, l'éditeur vidéo dispose de beaucoup plus de flexibilité pour manipuler et ajuster les images, par exemple en réglant la balance des blancs, en récupérant les hautes lumières ou les ombres sombres, ou en appliquant un étalonnage des couleurs. Pour le travail d'incrustation en chrominance (tournage sur un écran vert, par exemple) ou tout type de composition en post-production, l'utilisation de vidéo brute est essentielle afin d'éviter les artefacts tels que les franges de couleur et les bords irréguliers qui peuvent survenir à la suite du sous-échantillonnage de chrominance.

Ainsi, après avoir lu cet article, j'espère que la prochaine fois que vous plongerez dans le menu vidéo de votre appareil photo, vous trouverez la gamme d'options de format vidéo un peu moins intimidante, tout en ayant une meilleure idée des conséquences du choix d'un format plutôt qu'un autre lorsqu'il s'agit de stocker et de gérer vos images.