IA de raisonnement visuel :révolutionner la diffusion en direct grâce à la compréhension des scènes

L'intelligence artificielle (IA) a déjà transformé la post-production vidéo. Il existe désormais des outils d'IA pour tout, du sous-titrage aux effets spéciaux en passant par l'édition. Il est même possible de générer des images supplémentaires pour prolonger un clip trop court. Cependant, ces modèles d’IA fonctionnent tous avec des vidéos déjà créées. La prochaine frontière est la vidéo en direct.

Visual Reasoning AI est une nouvelle technologie née d'un partenariat entre PTZOptics et Moondream.ai. Il apporte une compréhension des scènes aux caméras et aux flux de travail vidéo en direct en temps réel. C'est gratuit, open source et fonctionne dans n'importe quel navigateur Web moderne.

Mais qu'est-ce que c'est exactement et comment ça marche ?

Modèle de langage de vision

Les grands modèles linguistiques (LLM) ont dominé le débat sur l’IA ces dernières années. Formés aux données textuelles, ils alimentent les chatbots et assistants virtuels de plus en plus familiers. Mais un LLM ne comprend que les mots.

Un modèle de langage de vision (VLM) comme Moondream est différent. Un VLM peut comprendre la vidéo, les images et l'audio ainsi que les entrées de texte. Cela signifie que Moondream peut interpréter des informations visuelles et audio, puis générer du texte et d'autres sorties en réponse à ce qu'il « voit ».

Moondream est un VLM open source créé par M87 Labs, basé à Seattle. Il est conçu pour comprendre les images, détecter des objets et analyser des scènes. Parce qu'il est open source, il peut être installé et exécuté localement sans frais. Un accès basé sur le cloud est également disponible, mais cela implique des frais d'utilisation.

IA de raisonnement visuel

Visual Reasoning AI apporte une automatisation pratique aux flux de travail audiovisuels professionnels, comme le streaming, la diffusion et la production en direct. À la base, la technologie génère des descriptions en langage naturel de ce qu'une caméra capture en temps réel.

Au-delà de la description, il peut localiser et mettre en évidence n’importe quel objet spécifié en langage simple, ainsi que compter et suivre les objets dans le champ de vision de la caméra. Peut-être plus particulièrement, il analyse les scènes pour anticiper ce qui est susceptible de se produire ensuite, déclenchant des réponses automatisées telles que le déplacement de caméras robotiques, l'envoi d'alertes ou la mise à jour des tableaux de bord.

Le résultat est un outil flexible qui peut être configuré dans un large éventail de scénarios de production.

Comment ça marche

IA de raisonnement visuel :révolutionner la diffusion en direct grâce à la compréhension des scènes

Image fournie avec l'aimable autorisation :IA de raisonnement visuel

Visual Reasoning est une solution basée sur le cloud, ce qui signifie qu'il n'y a aucun logiciel à télécharger ou à installer et aucun matériel spécial requis. Il fonctionne sur les ordinateurs de bureau, les ordinateurs portables, les tablettes et les smartphones via n'importe quel navigateur Web moderne, et est compatible avec n'importe quelle caméra, y compris les webcams, les caméras PTZ et les caméras de smartphone.

Après vous être connecté au site Web Visual Reasoning, les caméras connectées peuvent être ajoutées à l’interface. Le Moondream VLM traite une seule image vidéo à la fois. Ainsi, pour analyser la vidéo en direct, il capture plusieurs images à un intervalle défini. Ces images sont téléchargées sur la plateforme Moondream.ai, où l'IA interprète les changements au fil du temps.

Il convient de noter que cette approche image par image introduit une limitation naturelle. À un intervalle de deux secondes, le système est bien adapté aux environnements à rythme modéré (réunions, présentations, services de culte), mais peut avoir du mal à suivre une action rapide comme les sports rapides. Le paramètre d'intervalle permet aux opérateurs d'équilibrer la réactivité par rapport à la charge de traitement, mais l'analyse continue en temps réel n'est pas ce que propose actuellement ce système.

L’IA peut décrire une scène en langage naturel, identifiant des personnes, des objets et des lieux. Il peut également suivre et compter le nombre de personnes apparaissant dans un flux vidéo au fil du temps. La fonction de détection multi-objets dessine des cadres de délimitation autour d'éléments spécifiques de la scène :un opérateur saisit simplement une description en anglais simple, comme « porte », « livre » ou « homme en chemise rouge », et le raisonnement visuel mappe une boîte colorée autour de l'élément. Plusieurs objets peuvent être identifiés simultanément, avec des couleurs de boîte personnalisables.

Raisonnement visuel et production vidéo

Le site Web Visual Reasoning propose neuf outils open source gratuits pour une utilisation professionnelle de l'audiovisuel et de la diffusion. Les plus convaincantes démontrent ce qui devient possible lorsque la compréhension des scènes par l'IA est appliquée au contrôle de la caméra en direct.

Tracker automatique PTZ

Image fournie avec l'aimable autorisation :IA de raisonnement visuel

Le PTZ Auto-Tracker combine l'IA de raisonnement visuel avec le contrôle de la caméra PTZOptics pour créer un système de suivi intelligent. Plutôt que de s'appuyer sur la détection de mouvement ou sur des zones fixes, il accepte les descriptions en langage naturel de son sujet (« l'orateur à la veste bleue » ou « le joueur avec le ballon ») et contrôle la caméra pour effectuer un panoramique, une inclinaison et un zoom en conséquence. Pour les productions sans caméraman dédié, telles que les services religieux, les présentations de conférences ou les retransmissions sportives à petite échelle, c'est là que le potentiel de la technologie apparaît le plus immédiatement.

Fusion multimodale

La fusion multimodale est peut-être le plus ambitieux des neuf outils. Il analyse simultanément la vidéo et l'audio, donnant au raisonnement visuel une image sensorielle plus complète de la scène. Dans un environnement de présentation, cela signifie que le système peut détecter qui parle et changer automatiquement de caméra. Lors d'un spectacle musical en direct, il peut identifier le son d'un instrument particulier et diriger une caméra PTZ pour suivre cet artiste — une capacité qui nécessite généralement qu'un réalisateur humain qualifié prenne des décisions en une fraction de seconde.

L'extracteur de tableau de bord lit et numérise les informations du tableau de bord à partir de n'importe quel flux vidéo. Une caméra pointée vers un tableau d’affichage d’un gymnase ou un écran de stade fournit la source et l’IA extrait les données pertinentes. Les sports actuellement pris en charge incluent le football, le basket-ball et le volley-ball, avec la possibilité de spécifier les données à surveiller. Les informations extraites peuvent ensuite être superposées sur un flux de diffusion.

Assistant couleur

L'outil Color Assistant peut analyser les caractéristiques de couleur d'une image de référence. Il fournira ensuite des recommandations pour faire correspondre les paramètres de votre appareil photo. C’est idéal pour les productions multi-caméras où vous avez besoin de couleurs cohérentes sur différents modèles de caméras. Vous pouvez également utiliser l'outil Color Assistant pour obtenir un aspect cinématographique spécifique. Le modèle d'IA comprend la température de couleur, la saturation, le contraste et les caractéristiques tonales.

Moniteur de zone

Zone Monitor vous permet de définir des régions personnalisées dans votre flux vidéo. Il détecte ensuite automatiquement quand des objets ou des personnes spécifiques entrent, sortent ou restent dans ces zones. Cela pourrait être utile aux cinéastes animaliers, en déclenchant des caméras à distance pour suivre des animaux spécifiques et ignorer d'autres espèces.

Descripteur de scène

Le Scene Describer génère automatiquement des descriptions en langage naturel de ce qui se passe dans votre flux vidéo. Cela pourrait être utile pour l'analyse de contenu ou comme fonctionnalité d'accessibilité.

Boîtes de détection

Les zones de détection identifient les objets que vous choisissez dans votre flux vidéo et dessinent des zones de délimitation précises autour d'eux.

Compteur intelligent

Smart Counter utilise Visual Reasoning AI pour compter avec précision les personnes, les véhicules ou tout objet que vous spécifiez lorsqu'ils entrent et sortent d'une scène.

Analyseur de scène

Avec Scene Analyzer, vous pouvez poser des questions sur ce qui se passe dans votre vidéo. L'IA de raisonnement visuel répondra alors avec des réponses instantanées.

La puissance du raisonnement visuel

Le système Visual Reasoning est conçu pour être modulaire :ses outils peuvent être configurés et combinés pour s'adapter à différents environnements de production. Une démonstration sur le site Web de l’entreprise illustre cela avec un scénario de réunion de conseil d’administration. Au fur et à mesure que les participants entrent dans la salle, l’IA les compte et les identifie. Une fois la réunion commencée, Visual Reasoning détermine qui parle et change la vue de la caméra en conséquence. Il détecte également lorsqu'un flux vidéo apparaît sur un moniteur et passe à cette source.

Le système s'étend à des environnements plus dynamiques comme la musique live. En surveillant l'audio parallèlement à la vidéo, il peut détecter un chanteur et diriger une caméra pour le suivre. Lors d'un solo instrumental, il reconnaît le son, identifie l'instrument et l'interprète correspondants dans la scène et déplace une caméra PTZ pour les capturer. Lorsque le solo se termine, il revient à un plan large de la scène complète.

Étant donné que le raisonnement visuel repose sur un modèle de langage de vision, il accepte les instructions en langage naturel plutôt que de nécessiter une programmation traditionnelle. Cela signifie que les opérateurs peuvent décrire clairement ce qu'ils souhaitent que le système fasse et le reconfigurer relativement rapidement pour différents contextes, tels que des conférences, des lieux de culte, des théâtres en direct, des reportages sportifs, etc. Les instructions peuvent être préparées avant un événement, le système fonctionnant alors de manière autonome pendant la production.

Essayer

Il existe une page Playground sur le site Web de Visual Reasoning où vous pouvez découvrir la technologie et essayer les outils. Vous pouvez l'utiliser avec votre smartphone, ordinateur de bureau, ordinateur portable ou tablette. Ajoutez simplement votre e-mail et Visual Reasoning vous enverra un lien pour vous connecter. Il y a une limite au nombre de demandes que vous pouvez envoyer à l'IA. Cependant, vous pouvez vous rendre sur le site Moondream.ai pour demander une clé API gratuite pour plus d'accès.

Une avancée majeure pour la production vidéo IA

Le raisonnement visuel représente une avancée significative pour la production et la diffusion de vidéos IA. Lorsqu'il est associé aux caméras PTZOptics, il permet des systèmes de caméras automatisés qui peuvent être adaptés à des scénarios de production spécifiques. La technologie est open source et gratuite, ce qui signifie que son développement est susceptible de s'accélérer à mesure que son adoption se développe et que davantage d'utilisateurs contribuent à son évolution.