WO2025209878A1

Movatterモバイル変換

Info

Publication number: WO2025209878A1
Application number: PCT/EP2025/058091
Authority: WO
Inventors: Olivier Bouchet; Sylvain LEROUX; Thierry GAILLET
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2024-04-04
Filing date: 2025-03-25
Publication date: 2025-10-09
Anticipated expiration: 2026-10-04
Also published as: FR3161042A1

Abstract

The present application relates to a method for processing at least one multimedia scene comprising, for at least one real scene: - obtaining a multimedia scene representative of the real scene, - detecting at least one object of interest in the multimedia scene. According to the invention, the method also comprises: - processing the object of interest and/or the rest of the multimedia scene, outputting at least one copy of the processed object of interest, - rendering a volumetric representation of the processed object of interest and/or transmitting the at least one copy to an electronic device suitable for rendering a volumetric representation of the processed object of interest.

Description

Translated fromFrench

DESCRIPTIONDESCRIPTION

Titre de l’invention : Procédé de traitement d’un flux audiovisuel, dispositif électronique et produit programme d’ordinateur correspondants.Title of the invention: Method for processing an audiovisual stream, corresponding electronic device and computer program product.

1 . Domaine de l’invention1. Field of the invention

La présente demande se rapporte au domaine du traitement d'images et de flux audiovisuels, ou plus généralement de scènes multimédia, avec une application potentielle dans divers contextes telles la capture, la manipulation et/ou la diffusion d'images et/ou vidéos en 3D.This application relates to the field of processing images and audiovisual streams, or more generally multimedia scenes, with potential application in various contexts such as the capture, manipulation and/or broadcasting of 3D images and/or videos.

Elle concerne notamment un procédé de traitement d’une scène multimédia, associée par exemple à un flux audiovisuel.It relates in particular to a method for processing a multimedia scene, associated for example with an audiovisual stream.

Elle concerne aussi un dispositif électronique, produit programme d’ordinateur et système correspondants.It also concerns an electronic device, computer program product and corresponding system.

2. Etat de la technique2. State of the art

La stéréoscopie, développée au XIXe siècle, permet de percevoir une profondeur d’une scène en présentant deux images légèrement différentes à chaque œil. Depuis, les méthodes de capture et de restitution volumétrique d'images et de vidéos ont évolué, trouvant des applications dans des domaines aussi divers que la médecine ou la sécurisation des documents officiels. L'holographie, qui crée des images tridimensionnelles par enregistrement des interférences lumineuses, se distingue de la stéréoscopie par sa capacité à reproduire une image avec une perspective et une parallaxe correctes, sans nécessiter d'équipement spécial pour la visualisation. Toutefois, les systèmes holographiques contemporains rencontrent des défis pour une utilisation nomade et interactive. Ils requièrent une grande puissance de calcul et une capacité de stockage importante, ce qui est contraignant pour les dispositifs portables. L'incorporation d'écrans holographiques de petite taille reste un défi technique, limitant l'interaction utilisateur. Ces systèmes peuvent également faire face à des problèmes de luminosité insuffisante et à une consommation énergétique importante.Stereoscopy, developed in the 19th century, allows the perception of depth in a scene by presenting two slightly different images to each eye. Since then, methods for capturing and reproducing volumetric images and videos have evolved, finding applications in fields as diverse as medicine and the security of official documents. Holography, which creates three-dimensional images by recording light interference, differs from stereoscopy in its ability to reproduce an image with correct perspective and parallax, without requiring special equipment for viewing. However, contemporary holographic systems face challenges for nomadic and interactive use. They require significant computing power and storage capacity, which is restrictive for portable devices. Incorporating small holographic displays remains a technical challenge, limiting user interaction. These systems can also face problems of insufficient brightness and significant energy consumption.

Des systèmes alternatifs à l’holographie traditionnelle existent tels que ceux s’appuyant sur le « fantôme de Pepper ». Le principe repose sur une technique théâtrale du 19^ème siècle, inventée par John Henry Pepper, qui permet de créer une illusion d’optique tridimensionnelle par la réflexion d’un objet sur une surface transparente disposée de manière que l’image réfléchie semble exister dans l’espace. Appliquée à des écrans, cette technique peut permettre de générer des représentations volumétriques sans recourir à un équipement lourd et coûteux. Toutefois, les méthodes implémentant cette technique dépendent du format des flux audiovisuels à traiter. Ceux-ci sont donc principalement des contenus pré-enregistrés. À ce jour, il n'existe pas de système permettant de capturer une scène réelle et la traiter pour restituer une représentation volumétrique d’au moins l’un des objets composant la scène, de manière simple, intuitive et contrôlée, avec un terminal portable tel un smartphone ou une tablette.Alternative systems to traditional holography exist, such as those based on "Pepper's ghost." The principle is based on a^19th- century theatrical technique invented by John Henry Pepper, which creates a three-dimensional optical illusion by reflecting an object on a transparent surface arranged in such a way that the reflected image appears to exist in space. Applied to screens, this technique can generate volumetric representations without the need for heavy and expensive equipment. However, the methods implementing this technique depend on the format of the audiovisual streams to be processed. These are therefore mainly pre-recorded content. To date, there is no system that can capture a real scene and process it to restore a volumetric representation of at least one of the objects making up the scene, in a simple, intuitive and controlled manner, with a portable terminal such as a smartphone or a tablet.

La présente demande a ainsi pour objet de proposer des améliorations à au moins certains des inconvénients de l’état de la technique.The present application therefore aims to propose improvements to at least some of the drawbacks of the state of the art.

3. Exposé de l’invention3. Statement of the invention

La présente demande vise à améliorer la situation à l'aide d'un procédé de traitement d’au moins une scène multimédia comprenant, pour au moins une scène réelle : une obtention d’une scène multimédia représentative de ladite scène réelle, une détection d’au moins un objet d’intérêt dans ladite scène multimédia,The present application aims to improve the situation using a method for processing at least one multimedia scene comprising, for at least one real scene: obtaining a multimedia scene representative of said real scene, detecting at least one object of interest in said multimedia scene,

Selon l’invention, ledit procédé comprend également : un traitement dudit objet d’intérêt et/ou du reste de ladite scène multimédia, délivrant au moins une copie dudit objet d’intérêt traité (i.e. un exemplaire ou plusieurs exemplaires de l’objet d’intérêt traité), une restitution d’une représentation volumétrique dudit objet d’intérêt traité et/ou une transmission de ladite au moins une copie (par exemple dans un flux audiovisuel) à un dispositif électronique apte à restituer une représentation volumétrique dudit objet d’intérêt traité.According to the invention, said method also comprises: processing said object of interest and/or the rest of said multimedia scene, delivering at least one copy of said processed object of interest (i.e. one copy or several copies of the processed object of interest), rendering a volumetric representation of said processed object of interest and/or transmitting said at least one copy (for example in an audiovisual stream) to an electronic device capable of rendering a volumetric representation of said processed object of interest.

Ainsi, selon l’invention, on considère un procédé mis en œuvre par un dispositif comprenant des moyens de traitement d’une scène multimédia, également appelé dispositif de traitement. Un tel dispositif permet par exemple de traiter au moins un objet d’intérêt détecté dans la scène multimédia, ou de traiter le reste de la scène (par exemple l’arrière-plan de la scène) en vue d’une restitution d’une représentation volumétrique de l’objet d’intérêt, i.e. de l’objet d’intérêt en relief. Un tel traitement permet notamment de traiter des paramètres graphiques et/ou audio de la scène multimédia : détourage de l’objet d’intérêt, mise en surbrillance de l’objet d’intérêt, remplacement de l’objet d’intérêt par un avatar, suppression ou obscurcissement du reste de la scène (c'est à dire de la scène multimédia sans l’objet d’intérêt), etc.Thus, according to the invention, a method implemented by a device comprising means for processing a multimedia scene, also called a processing device, is considered. Such a device makes it possible, for example, to process at least one object of interest detected in the multimedia scene, or to process the rest of the scene (for example the background of the scene) with a view to rendering a volumetric representation of the object of interest, i.e. of the object of interest in relief. Such processing makes it possible in particular to process graphic and/or audio parameters of the multimedia scene: clipping of the object of interest, highlighting of the object of interest, replacement of the object of interest by an avatar, deletion or obscuring of the rest of the scene (i.e. of the multimedia scene without the object of interest), etc.

Le procédé peut ainsi aider à obtenir, dans au moins certains modes de réalisation, une représentation plus fidèle et immersive des objets d'intérêt que certaines méthodes traditionnelles de visualisation 3D, en prenant par exemple en compte un contexte volumétrique de capture et un contexte volumétrique de rendu. La mise en œuvre d’un tel procédé peut par exemple aider, dans au moins certains modes de réalisation, à améliorer le rendu de la profondeur des objets, et donc leur réalisme, dans des applications de visualisation 3D.The method can thus help to obtain, in at least certain embodiments, a more faithful and immersive representation of the objects of interest than certain traditional 3D visualization methods, for example by taking into account a volumetric capture context and a volumetric rendering context. The implementation of such a method can for example help, in at least certain embodiments, to improve the rendering of the depth of the objects, and therefore their realism, in 3D visualization applications.

Ainsi, dans un mode de réalisation particulier, la détection d’au moins un objet d’intérêt tient compte d’un contexte volumétrique de capture. La prise en compte du contexte volumétrique de capture lors de la détection de l'objet d'intérêt selon un mode de réalisation permet d'obtenir des informations sur une scène capturée, ce qui peut se traduire par exemple par une amélioration de la qualité et de la pertinence du traitement audiovisuel. De plus, cette prise en compte peut permettre une amélioration de la précision dans la détection, en distinguant un objet d'intérêt des éléments environnants à l’objet.Thus, in a particular embodiment, the detection of at least one object of interest takes into account a volumetric capture context. Taking into account the volumetric context of capture when detecting the object of interest according to one embodiment makes it possible to obtain information on a captured scene, which can result for example in an improvement in the quality and relevance of the audiovisual processing. In addition, this consideration can allow an improvement in the precision in the detection, by distinguishing an object of interest from the elements surrounding the object.

Le contexte volumétrique de capture fait référence à l'ensemble des paramètres et conditions techniques, spatiaux et/ou opérationnels qui peuvent impacter une ou plusieurs captures. Ce contexte inclut la géométrie de l'espace de capture, la position et l'orientation, dans cet espace, des objets dont on souhaite capturer une représentation audiovisuelle, ainsi que la position, l'angle et les caractéristiques techniques des équipements de capture utilisés. Le contexte volumétrique de capture peut aussi inclure les conditions environnementales telles que la luminosité au moment de la capture. La lumière ambiante, qu'elle soit naturelle ou artificielle, peut influencer la manière dont les images sont capturées. Elle peut ainsi affecter la visibilité, le contraste, les ombres et la couleur des objets dans la scène.The volumetric capture context refers to all the technical, spatial, and/or operational parameters and conditions that can impact one or more captures. This context includes the geometry of the capture space, the position and orientation, within this space, of the objects for which an audiovisual representation is to be captured, as well as the position, angle, and technical characteristics of the capture equipment used. The volumetric capture context can also include environmental conditions such as the brightness at the time of capture. Ambient light, whether natural or artificial, can influence how images are captured. It can affect the visibility, contrast, shadows, and color of objects in the scene.

Par ailleurs, la connaissance de la position et de l'orientation de l'objet d'intérêt dans l'espace peut aider à adapter le rendu de manière cohérente avec la perspective de l'utilisateur, ce qui peut aider à améliorer l'expérience visuelle de l'utilisateur et sa sensation d'immersion. Cette adaptation peut être utile pour le suivi d'objet en cas de mouvements rapides ou imprévus. La détection, en tenant compte du volume de capture, peut permettre d'estimer des tailles et de déterminer une relation spatiale entre des objets.Furthermore, knowing the position and orientation of the object of interest in space can help adapt the rendering consistently with the user's perspective, which can help improve the user's visual experience and sense of immersion. This adaptation can be useful for object tracking in case of rapid or unexpected movements. Detection, taking into account the capture volume, can help estimate sizes and determine a spatial relationship between objects.

Dans certains modes de réalisation, le procédé peut permettre de personnaliser le contenu ou les informations affichées en fonction de la position et de l'orientation de l'objet détecté, offrant ainsi une expérience utilisateur plus ciblée et pertinente. Enfin, en identifiant précisément l'objet d'intérêt, le procédé peut aider à concentrer les ressources de traitement là où elles sont nécessaires, aider à réduire ainsi la charge de calcul et améliorant l'efficacité énergétique.In some embodiments, the method may enable the content or information displayed to be personalized based on the position and orientation of the detected object, thereby providing a more targeted and relevant user experience. Finally, by accurately identifying the object of interest, the method may help focus processing resources where they are needed, thereby helping to reduce computational load and improving energy efficiency.

Dans un mode de réalisation particulier, le traitement de l’objet d’intérêt et/ou du reste de la scène multimédia met en œuvre une spatialisation dudit au moins un objet d’intérêt détecté tenant compte d’un contexte volumétrique de rendu.In a particular embodiment, the processing of the object of interest and/or the rest of the multimedia scene implements a spatialization of said at least one detected object of interest taking into account a volumetric rendering context.

La prise en compte d’un contexte volumétrique de rendu lors de l’étape de spatialisation offre l'avantage de pouvoir aider à ajuster en continu l'image projetée pour corriger une distorsion ou inadéquation qui pourrait survenir lors du processus de rendu. Cette approche dynamique permet d'obtenir des informations au fil de l’eau sur le rendu, qui peuvent être utilisées pour apporter des corrections au fil de l’eau à l'image, de façon à aider à ce que le résultat final se rapproche de l'intention originale. Le contexte volumétrique de rendu fait référence, dans la présente demande, à l'ensemble des paramètres, techniques et conditions d’affichages en lien avec le rendu d’images tridimensionnelles à partir de données spatiales. Cela inclut par exemple un équipement de restitution permettant un affichage perçu ou réalisé en 3 dimensions, mais également les conditions d’orientations, de stabilité et de position de l’équipement qui peuvent agir sur la perception de l’image. Il peut s’agir aussi de l’environnement physique dans lequel le ou les rendus peuvent s’effectuer comme la luminosité et/ou la clarté ambiante.Considering a volumetric rendering context during the spatialization step offers the advantage of being able to help continuously adjust the projected image to correct any distortion or mismatch that may arise during the rendering process. This dynamic approach provides ongoing information about the rendering, which can be used to make ongoing corrections to the image, helping to ensure that the final result is closer to the original intent. The volumetric rendering context refers, in this application, to all the parameters, techniques and display conditions related to the rendering of three-dimensional images from spatial data. This includes, for example, rendering equipment allowing a display perceived or produced in 3 dimensions, but also the conditions of orientation, stability and position of the equipment which can affect the perception of the image. It can also be the physical environment in which the rendering(s) can be carried out, such as ambient brightness and/or clarity.

Par rendu, on entend dans la présente demande un processus par lequel un ordinateur génère une restitution (ou « output » selon la terminologie anglaise) sur au moins une interface utilisateur, sous une forme quelconque, par exemple comprenant des composantes textuelle, audio et/ou vidéo, ou une combinaison de telles composantes. Le rendu peut aussi inclure une simulation de la lumière, des ombres, de la réflexion et de la réfraction pour aider à donner aux objets un aspect réaliste et/ou artistique. Il peut être réalisé au fil de l’eau et/ou en précalculé. ladite obtention d’une scène multimédia met en œuvre une capture de ladite scène réelle.Rendering, in the present application, means a process by which a computer generates a rendering (or “output” according to English terminology) on at least one user interface, in any form, for example comprising textual, audio and/or video components, or a combination of such components. Rendering may also include a simulation of light, shadows, reflection and refraction to help give objects a realistic and/or artistic appearance. It may be carried out on the fly and/or pre-calculated. said obtaining of a multimedia scene implements a capture of said real scene.

Selon ce mode de réalisation, le dispositif de traitement comprend également des moyens de capture de la scène réelle, en plus des moyens de traitement.According to this embodiment, the processing device also comprises means for capturing the actual scene, in addition to the processing means.

Par exemple, de tels moyens de capture comprennent une caméra, permettant de capturer le visage de l’utilisateur, soit directement, soit après réflexion du visage de l’utilisateur grâce à un miroir intégré au dispositif ou coopérant avec le dispositif. Une telle capture peut notamment être effectuée en temps réel.For example, such capture means include a camera, making it possible to capture the user's face, either directly or after reflection of the user's face using a mirror integrated into the device or cooperating with the device. Such capture can in particular be carried out in real time.

Plus généralement, une capture désigne, dans la présente demande, un processus de collecte de données audiovisuelles, notamment tridimensionnelles, telles que des images, des vidéos, des sons et/ou des informations spatiales, à partir d'un environnement réel, en utilisant des dispositifs comme des microphones, des caméras à capteur opto-numérique à transfert de charges (CCD ou « Charge Couple Device » en anglais), des capteurs télémétriques comme des capteurs à détection et estimation de distance par lumière (LiDAR ou « Light Detection And Ranging » en anglais) et/ou (ToF ou « Time of Flight » en anglais). Le LiDAR émet des impulsions laser et mesure le temps que met chaque impulsion pour revenir après avoir frappé un objet, ce qui permet de calculer la distance et de générer une carte de profondeur précise de la scène. Contrairement au LiDAR qui mesure le temps pour chaque point individuellement, les caméras ToF mesurent le temps pour l'ensemble d’une scène simultanément, ce qui donne une carte de profondeur.More generally, a capture designates, in the present application, a process of collecting audiovisual data, in particular three-dimensional data, such as images, videos, sounds and/or spatial information, from a real environment, using devices such as microphones, charge-coupled device (CCD) cameras, telemetric sensors such as light detection and ranging (LiDAR) and/or (ToF) sensors. LiDAR emits laser pulses and measures the time it takes for each pulse to return after hitting an object, which makes it possible to calculate the distance and generate an accurate depth map of the scene. Unlike LiDAR, which measures the time for each point individually, ToF cameras measure the time for an entire scene simultaneously, which gives a depth map.

Dans un autre mode de réalisation, ladite obtention d’une scène multimédia met en œuvre une réception d’un flux audiovisuel portant ladite scène multimédia. Selon ce mode de réalisation, la scène réelle est capturée par un autre dispositif (également appelé dispositif de capture), puis transmise au dispositif de traitement.In another embodiment, said obtaining of a multimedia scene implements a reception of an audiovisual stream carrying said multimedia scene. According to this embodiment, the actual scene is captured by another device (also called a capturing device) and then transmitted to the processing device.

Dans un mode de réalisation particulier, ledit traitement comprend : une sélection d’un objet visuel parmi des objets visuels candidats en tenant compte des caractéristiques dudit objet d'intérêt, une substitution dudit objet d’intérêt par ledit objet visuel sélectionné dans ladite au moins une copie.In a particular embodiment, said processing comprises: a selection of a visual object from among candidate visual objects taking into account the characteristics of said object of interest, a substitution of said object of interest by said selected visual object in said at least one copy.

La sélection d'un objet visuel en fonction des caractéristiques de l'objet d'intérêt détecté peut permettre une personnalisation, au moins une copie de l’objet d’intérêt traité étant adaptée aux spécificités de l'objet d’intérêt. La substitution de l'objet d'intérêt par un objet visuel sélectionné peut aussi améliorer la qualité visuelle de la représentation, en utilisant des modèles 3D et/ou des textures de haute résolution qui peuvent être plus détaillés que la scène réelle capturée avec une résolution plus faible, ou lorsque le débit de transmission de la scène capturée est limité.Selecting a visual object based on the characteristics of the detected object of interest can allow for customization, with at least one copy of the processed object of interest being adapted to the specificities of the object of interest. Substituting the object of interest with a selected visual object can also improve the visual quality of the representation, by using high-resolution 3D models and/or textures that may be more detailed than the actual scene captured with a lower resolution, or when the transmission rate of the captured scene is limited.

En particulier, ledit au moins un objet d’intérêt correspondant à un être vivant, ladite sélection dudit objet visuel tient compte d’une similitude, en termes d’expression corporelle, entre ledit objet d’intérêt et un desdits objets visuels candidats.In particular, said at least one object of interest corresponding to a living being, said selection of said visual object takes into account a similarity, in terms of bodily expression, between said object of interest and one of said candidate visual objects.

La sélection d'objets visuels basée sur la similitude d'expression corporelle peut aider à rendre les interactions plus naturelles et intuitives, améliorant ainsi la communication et l'engagement des utilisateurs. Le procédé peut aider à transmettre de manière plus précise les nuances de la communication non verbale, ce qui peut aider à proposer une interaction humaine plus authentique. La correspondance entre les expressions corporelles détectées et l'objet visuel sélectionné peut contribuer, dans certains modes de réalisation, à une expérience utilisateur plus naturelle et intuitive, en réduisant la dissonance entre les mouvements réels et leur représentation virtuelle.Selecting visual objects based on body expression similarity can help make interactions more natural and intuitive, thereby improving user communication and engagement. The method can help convey the nuances of nonverbal communication more accurately, which can help provide a more authentic human interaction. The matching between detected body expressions and the selected visual object can contribute, in some embodiments, to a more natural and intuitive user experience by reducing the dissonance between real-life movements and their virtual representation.

Dans un mode de réalisation particulier, le traitement délivre quatre copies identiques dudit objet d’intérêt traité (i.e. quatre exemplaires identiques de l’objet d’intérêt traité), destinées à être affichées en croix sur un écran du dispositif apte à restituer ladite représentation volumétrique dudit objet d’intérêt traité (i.e. soit le dispositif de traitement, soit un dispositif de restitution distinct).In a particular embodiment, the processing delivers four identical copies of said processed object of interest (i.e. four identical copies of the processed object of interest), intended to be displayed in a cross on a screen of the device capable of restoring said volumetric representation of said processed object of interest (i.e. either the processing device or a separate restoration device).

Dans un mode de réalisation particulier, ledit traitement comprend une adaptation d’au moins un paramètre graphique et/ou audio de ladite scène multimédia.In a particular embodiment, said processing comprises an adaptation of at least one graphic and/or audio parameter of said multimedia scene.

Dans un mode de réalisation particulier selon lequel le procédé met en œuvre la restitution d’une représentation volumétrique de l’objet d’intérêt traité (i.e. le dispositif de traitement comprend des moyens de restitution), le procédé comprend également : une capture de la représentation volumétrique, une adaptation dynamique d’au moins un paramètre graphique et/ou audio de ladite scène multimédia tenant compte de ladite représentation volumétrique capturée.In a particular embodiment according to which the method implements the restitution of a volumetric representation of the processed object of interest (i.e. the processing device comprises restitution means), the method also comprises: a capture of the volumetric representation, a dynamic adaptation of at least one graphic and/or audio parameter of said multimedia scene taking into account said captured volumetric representation.

De cette façon, il est possible d’ajuster en temps réel les paramètres pour améliorer la qualité de la restitution de la représentation volumétrique de l’objet d’intérêt traité.In this way, it is possible to adjust the parameters in real time to improve the quality of the restitution of the volumetric representation of the object of interest being processed.

En d’autres termes, il est possible de qualifier la restitution de la représentation volumétrique, pour améliorer la qualité de la restitution, en temps réel. Par exemple, si l’on considère un objet d’intérêt de type être vivant, il est possible d’analyser la représentation volumétrique pour détecter une expression ou un geste de cet être vivant indiquant un problème de son ou de compréhension. Il est alors possible d’ajuster un paramètre graphique et/ou audio de la scène multimédia pour corriger ce problème.In other words, it is possible to qualify the restitution of the volumetric representation, to improve the quality of the restitution, in real time. For example, if we consider an object of interest of the living being type, it is possible to analyze the volumetric representation to detect an expression or a gesture of this living being indicating a sound or comprehension problem. It is then possible to adjust a graphic and/or audio parameter of the multimedia scene to correct this problem.

Par exemple, le ou les paramètres graphiques appartiennent au groupe comprenant : une position de l’objet d’intérêt traité une orientation de l’objet d’intérêt traité, un paramètre graphique correspondant à une résolution de ladite scène multimédia ; un paramètre graphique correspondant à une fréquence de rafraichissement de ladite scène multimédia ; un paramètre de réglage de contraste ; un paramètre de réglage de luminosité ; un paramètre de réglage de balance des blancs ; un paramètre de réglages de netteté ; une combinaison d’au moins deux des paramètres ci-dessus ; et/ou le ou les paramètres audio appartiennent au groupe comprenant : un paramètre de réglage de volume ; un paramètre d’égalisation ; un paramètre de spatialisation sonore.For example, the graphic parameter(s) belong(s) to the group comprising: a position of the processed object of interest; an orientation of the processed object of interest; a graphic parameter corresponding to a resolution of said multimedia scene; a graphic parameter corresponding to a refresh rate of said multimedia scene; a contrast adjustment parameter; a brightness adjustment parameter; a white balance adjustment parameter; a sharpness adjustment parameter; a combination of at least two of the above parameters; and/or the audio parameter(s) belong(s) to the group comprising: a volume adjustment parameter; an equalization parameter; a sound spatialization parameter.

Par exemple, dans un environnement bruyant, le procédé peut augmenter le volume des dialogues tout en réduisant les bruits de fond, ou ajuster la direction d'où provient le son pour correspondre à la position des objets à l'écran.For example, in a noisy environment, the process can increase the volume of dialogue while reducing background noise, or adjust the direction sound is coming from to match the position of objects on the screen.

Selon un autre exemple, l'adaptation dynamique des paramètres graphiques peut permettre d’assurer une qualité d'image adaptée aux variations des conditions d'utilisation et aux spécificités de l'équipement de l'utilisateur. Elle offre la possibilité d’ajuster la qualité visuelle de la restitution en fonction des conditions de visualisation, comme l'éclairage ambiant et/ou les caractéristiques de l'écran, améliorant ainsi l'expérience visuelle globale. Elle peut aussi améliorer la lisibilité des éléments affichés, en particulier lors de la visualisation de textes, de graphiques et/ou de détails fins. Le réglage de la résolution et de la fréquence de rafraîchissement peut par exemple aider à ajuster la fluidité des images volumétriques, offrant potentiellement une expérience visuelle de meilleure qualité sans compromettre la performance. En ajustant ces paramètres graphiques, le procédé peut par exemple permettre de contrôler l'utilisation de la bande passante, ce qui peut être avantageux dans des environnements avec des connexions Internet limitées ou instables. L'ajustement des paramètres graphiques, tels que la luminosité, le contraste ou la saturation, peut par exemple aider à répondre à des préférences visuelles ou à des exigences de contenus spécifiques.In another example, dynamic adaptation of graphics settings can ensure image quality that is adapted to variations in usage conditions and the specifics of the user's equipment. It provides the ability to adjust the visual quality of the rendering based on viewing conditions, such as ambient lighting and/or screen characteristics, thereby improving the overall viewing experience. It can also improve the readability of displayed elements, particularly when viewing text, graphics, and/or fine details. For example, adjusting the resolution and refresh rate can help adjust the smoothness of volumetric images, potentially providing a higher-quality visual experience without compromising performance. By adjusting these graphics settings, the method can, for example, help control bandwidth usage, which can be beneficial in environments with limited or unstable internet connections. Adjusting graphics settings, such as brightness, contrast, or saturation, can, for example, help meet specific visual preferences or content requirements.

Dans un mode de réalisation particulier selon lequel la scène multimédia comprend une séquence vidéo, la détection est mise en œuvre sur une image de la séquence, et le procédé met en œuvre un suivi en temps réel de l’objet d’intérêt dans au moins une autre image de la séquence.In a particular embodiment according to which the multimedia scene comprises a video sequence, the detection is implemented on an image of the sequence, and the method implements real-time tracking of the object of interest in at least one other image of the sequence.

Dans un mode de réalisation particulier, au moins une partie du procédé de traitement peut être réalisée au sein d’un environnement informatique en nuage (ou « cloud computing » en anglais), où les processus et les méthodes décrits peuvent être distribués sur une pluralité de serveurs. En particulier, de tels serveurs peuvent être gérés par un opérateur de télécommunications.In a particular embodiment, at least part of the processing method may be performed within a cloud computing environment, where the processes and methods described may be distributed across a plurality of servers. In particular, such servers may be managed by a telecommunications operator.

Dans au moins un mode de réalisation, la solution proposée permet une optimisation en temps réel des échanges entre au moins deux participants au cours d’une session de communication, par exemple via une plateforme de type « cloud ».In at least one embodiment, the proposed solution allows real-time optimization of exchanges between at least two participants during a communication session, for example via a “cloud” type platform.

L’invention concerne par ailleurs un procédé de restitution d’au moins une représentation volumétrique d’un objet d’intérêt comprenant, pour au moins une scène réelle :The invention further relates to a method for rendering at least one volumetric representation of an object of interest comprising, for at least one real scene:

- une réception d’au moins une copie d’un objet d’intérêt traité, obtenue par traitement d’un objet d’intérêt détecté dans une scène multimédia représentative d’une scène réelle et/ou par traitement du reste de ladite scène multimédia,- a reception of at least one copy of a processed object of interest, obtained by processing an object of interest detected in a multimedia scene representative of a real scene and/or by processing the rest of said multimedia scene,

- une restitution d’une représentation volumétrique dudit objet d’intérêt traité.- a restitution of a volumetric representation of said object of interest treated.

Selon ce mode de réalisation, le procédé de restitution est mis en œuvre par un dispositif de restitution distinct du dispositif de traitement. Un tel dispositif de restitution reçoit donc au moins une copie d’un objet d’intérêt traité selon le procédé de traitement décrit ci-dessus, et peut restituer une représentation volumétrique de l’objet d’intérêt traité.According to this embodiment, the rendering method is implemented by a rendering device separate from the processing device. Such a rendering device therefore receives at least one copy of an object of interest processed according to the processing method described above, and can render a volumetric representation of the processed object of interest.

La réception d’au moins une copie d’un objet d’intérêt traité (par exemple dans un flux audiovisuel contenant au moins une image spatialisée) peut permettre à un utilisateur de bénéficier d'une expérience de visualisation volumétrique, quel que soit le terminal ou dispositif de restitution qu’il utilise. Le fait que les objets d’intérêt soient déjà traités / que les images soient déjà spatialisées peut permettre, dans certains modes de réalisation, de réduire la charge de calcul sur le terminal récepteur de l'utilisateur, ce qui peut être particulièrement avantageux pour les terminaux avec des capacités de traitement limitées.Receiving at least one copy of a processed object of interest (e.g., in an audiovisual stream containing at least one spatialized image) may allow a user to benefit from a volumetric visualization experience, regardless of the rendering terminal or device that the user is using. The fact that the objects of interest are already processed/that the images are already spatialized may, in certain embodiments, reduce the computational load on the receiving terminal of the user, which can be particularly advantageous for terminals with limited processing capabilities.

En particulier, un tel procédé de restitution peut également mettre en œuvre : une capture de la représentation volumétrique, une transmission à un dispositif de traitement d’au moins une information permettant au dispositif de traitement d’adapter dynamiquement au moins un paramètre graphique et/ou audio de la scène multimédia en tenant compte de la représentation volumétrique capturée.In particular, such a restitution method can also implement: a capture of the volumetric representation, a transmission to a processing device of at least one piece of information allowing the processing device to dynamically adapt at least one graphic and/or audio parameter of the multimedia scene taking into account the captured volumetric representation.

Comme déjà indiqué, il est ainsi possible d’ajuster en temps réel les paramètres pour améliorer la qualité de la restitution de la représentation volumétrique de l’objet d’intérêt traité.As already indicated, it is thus possible to adjust the parameters in real time to improve the quality of the restitution of the volumetric representation of the object of interest processed.

Dans un mode de réalisation particulier, ladite restitution d’une représentation volumétrique dudit objet d’intérêt traité est mise en œuvre à partir d’au moins une réflexion de ladite au moins une copie sur une surface transparente ou semi-transparente. Par exemple, au moins deux surfaces semi -transparentes sont utilisées pour réfléchir chacune une copie dudit objet d’intérêt, permettant une restitution en relief de l’objet d’intérêt.In a particular embodiment, said restitution of a volumetric representation of said processed object of interest is implemented from at least one reflection of said at least one copy on a transparent or semi-transparent surface. For example, at least two semi-transparent surfaces are used to each reflect a copy of said object of interest, allowing a relief restitution of the object of interest.

En particulier, la ou les copies de l’objet d’intérêt traité peuvent être affichées sur un écran d’un dispositif apte à restituer une représentation volumétrique de l’objet d’intérêt (qui peut être le dispositif de traitement ou un autre dispositif de restitution) et réfléchies sur une surface transparente ou semi- transparente du dispositif de restitution, ou coopérant avec le dispositif de restitution, de façon à restituer une représentation volumétrique de l’objet d’intérêt après traitement.In particular, the copy(ies) of the processed object of interest may be displayed on a screen of a device capable of rendering a volumetric representation of the object of interest (which may be the processing device or another rendering device) and reflected on a transparent or semi-transparent surface of the rendering device, or cooperating with the rendering device, so as to render a volumetric representation of the object of interest after processing.

Dans un autre mode de réalisation, ladite restitution d’une représentation volumétrique dudit objet d’intérêt traité est mise en œuvre à partir d’au moins deux copies légèrement distinctes dudit objet d’intérêt traité, selon un principe de stéréoscopie. Les deux copies peuvent correspondre par exemple à une même scène multimédia ou un même objet, avec des angles de vue différents.In another embodiment, said restitution of a volumetric representation of said processed object of interest is implemented from at least two slightly distinct copies of said processed object of interest, according to a principle of stereoscopy. The two copies may correspond, for example, to the same multimedia scene or the same object, with different viewing angles.

Dans encore un autre mode de réalisation, ladite restitution d’une représentation volumétrique dudit objet d’intérêt traité est mise en œuvre à partir d’une copie dudit objet traité et d’une mesure de profondeur.In yet another embodiment, said restitution of a volumetric representation of said processed object of interest is implemented from a copy of said processed object and a depth measurement.

Dans un mode de réalisation particulier, les obtention, détection, traitement, restitution, capture et/ou transmission du procédé de traitement et/ou du procédé de restitution sont mises en œuvre en temps réel.In a particular embodiment, the obtaining, detection, processing, restitution, capture and/or transmission of the processing method and/or the restitution method are implemented in real time.

Dans un autre mode de réalisation, l’invention concerne un dispositif de traitement d’au moins une scène multimédia comprenant au moins un processeur adapté pour : obtenir une scène multimédia représentative d’une scène réelle, détecter au moins un objet d’intérêt dans ladite scène multimédia. En particulier, ledit au moins un processeur est également adapté pour : traiter ledit objet d’intérêt et/ou le reste de ladite scène multimédia, délivrant au moins une copie dudit objet d’intérêt traité, restituer une représentation volumétrique dudit objet d’intérêt traité et/ou transmettre ladite au moins une copie à un dispositif électronique apte à restituer une représentation volumétrique dudit objet d’intérêt traité.In another embodiment, the invention relates to a device for processing at least one multimedia scene comprising at least one processor adapted to: obtain a multimedia scene representative of a real scene, detect at least one object of interest in said multimedia scene. In particular, said at least one processor is also suitable for: processing said object of interest and/or the remainder of said multimedia scene, delivering at least one copy of said processed object of interest, rendering a volumetric representation of said processed object of interest and/or transmitting said at least one copy to an electronic device capable of rendering a volumetric representation of said processed object of interest.

Un tel dispositif est notamment adapté à mettre en œuvre le procédé de traitement décrit précédemment. Il pourra bien sûr comporter les différentes caractéristiques relatives au procédé de traitement selon l’invention, qui peuvent être combinées ou prises isolément. Ainsi, les caractéristiques et avantages du dispositif de traitement sont les mêmes que ceux du procédé de traitement décrit précédemment. Par conséquent, ils ne sont pas détaillés plus amplement.Such a device is particularly suitable for implementing the treatment method described above. It may of course include the various characteristics relating to the treatment method according to the invention, which may be combined or taken in isolation. Thus, the characteristics and advantages of the treatment device are the same as those of the treatment method described above. Consequently, they are not detailed further.

Par exemple, le dispositif de traitement est un serveur intermédiaire. Un tel serveur intermédiaire peut être un serveur physique ou virtuel (dans le cloud). En particulier, un tel serveur peut être géré par un opérateur de télécommunications.For example, the processing device is an intermediary server. Such an intermediary server can be a physical or virtual server (in the cloud). In particular, such a server can be managed by a telecommunications operator.

Dans un autre mode de réalisation, l’invention concerne un dispositif de restitution d’au moins une représentation volumétrique d’un objet d’intérêt comprenant au moins un processeur adapté pour :In another embodiment, the invention relates to a device for rendering at least one volumetric representation of an object of interest comprising at least one processor adapted for:

- recevoir au moins une copie d’un objet d’intérêt traité, obtenue par traitement d’un objet d’intérêt détecté dans une scène multimédia représentative d’une scène réelle et/ou par traitement du reste de ladite scène multimédia,- receive at least one copy of a processed object of interest, obtained by processing an object of interest detected in a multimedia scene representative of a real scene and/or by processing the rest of said multimedia scene,

- restituer une représentation volumétrique dudit objet d’intérêt traité.- restore a volumetric representation of said object of interest treated.

Un tel dispositif est notamment adapté à mettre en œuvre le procédé de restitution décrit précédemment. Il pourra bien sûr comporter les différentes caractéristiques relatives au procédé de restitution selon l’invention, qui peuvent être combinées ou prises isolément. Ainsi, les caractéristiques et avantages du dispositif de restitution sont les mêmes que ceux du procédé de restitution décrit précédemment. Par conséquent, ils ne sont pas détaillés plus amplement.Such a device is particularly suitable for implementing the restitution method described above. It may of course include the various characteristics relating to the restitution method according to the invention, which may be combined or taken in isolation. Thus, the characteristics and advantages of the restitution device are the same as those of the restitution method described above. Consequently, they are not detailed further.

Dans un mode de réalisation particulier, les dispositifs de traitement et de restitution sont un même dispositif. En variante, le dispositif de traitement peut être un serveur intermédiaire, ou intégré à un dispositif de capture.In a particular embodiment, the processing and rendering devices are the same device. Alternatively, the processing device may be an intermediate server, or integrated into a capture device.

En particulier, un tel dispositif de restitution comprend une surface transparente ou semi-transparente. Par exemple, une telle surface est un écran dudit dispositif de restitution, par exemple un écran ou une portion d’écran d’un smartphone pliable. En variante, un tel dispositif de restitution coopère avec une telle surface transparente ou semi-transparente. Par exemple, une telle surface appartient à un accessoire qui peut se fixer temporairement au dispositif de restitution. L’invention concerne encore un ou plusieurs programmes d’ordinateur comportant des instructions pour la mise en œuvre d’un procédé tel que décrit ci-dessus lorsque ce ou ces programmes sont exécutés par au moins un processeur.In particular, such a rendering device comprises a transparent or semi-transparent surface. For example, such a surface is a screen of said rendering device, for example a screen or a portion of a screen of a foldable smartphone. Alternatively, such a rendering device cooperates with such a transparent or semi-transparent surface. For example, such a surface belongs to an accessory which can be temporarily attached to the rendering device. The invention also relates to one or more computer programs comprising instructions for implementing a method as described above when this or these programs are executed by at least one processor.

L’invention concerne aussi un support d’informations lisible par un ordinateur, et comportant des instructions d’un programme d’ordinateur tel que mentionné ci-dessus.The invention also relates to a computer-readable information medium, comprising instructions of a computer program as mentioned above.

Le programme mentionné ci-dessus peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.The above-mentioned program may use any programming language, and may be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other desirable form.

Les supports d’enregistrements (ou d'informations) mentionnés dans la présente demande peuvent être n'importe quelle entité ou quel dispositif capable de stocker le programme. Par exemple, un support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique.The recording (or information) media mentioned in this application may be any entity or device capable of storing the program. For example, a medium may comprise a storage medium, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording medium.

Un tel moyen de stockage peut par exemple être un disque dur, une mémoire flash, etc.Such storage means can be, for example, a hard disk, flash memory, etc.

D'autre part, un support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.On the other hand, an information carrier may be a transmissible carrier such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means. A program according to the invention may in particular be downloaded from a network such as the Internet.

Alternativement, un support d'informations peut être un circuit intégré dans lequel un programme est incorporé ; dans la présente demande, le circuit est adapté pour exécuter ou pour être utilisé dans l'exécution de l’un quelconque des modes de réalisation des procédés objets de la présente demande de brevet.Alternatively, an information carrier may be an integrated circuit in which a program is incorporated; in the present application, the circuit is adapted to execute or to be used in the execution of any of the embodiments of the methods which are the subject of the present patent application.

L’invention concerne encore un système de traitement d’au moins une scène multimédia comprenant : des moyens de capture d’au moins une scène réelle, délivrant une scène multimédia représentative de la scène réelle, un dispositif de traitement de ladite scène multimédia tel que décrit ci-dessus, des moyens de restitution d’une représentation volumétrique de l’objet d’intérêt traité, lesdits moyens de capture et/ou de restitution appartenant audit dispositif de traitement ou à des dispositifs distincts.The invention also relates to a system for processing at least one multimedia scene comprising: means for capturing at least one real scene, delivering a multimedia scene representative of the real scene, a device for processing said multimedia scene as described above, means for restoring a volumetric representation of the object of interest processed, said capture and/or restoration means belonging to said processing device or to separate devices.

D’autres modes de réalisation, non revendiqués, sont présentés ci-après, et concernent un procédé de traitement d’un flux audiovisuel associé à la scène multimédia, et un dispositif électronique correspondant.Other embodiments, not claimed, are presented below, and relate to a method for processing an audiovisual stream associated with the multimedia scene, and a corresponding electronic device.

En particulier, un tel procédé comprend :In particular, such a method comprises:

- une obtention d’au moins une image d’un premier flux audiovisuel, - une détection d’au moins un objet d’intérêt dans ladite image tenant compte d’un contexte volumétrique de capture,- obtaining at least one image from a first audiovisual stream, - a detection of at least one object of interest in said image taking into account a volumetric capture context,

- une spatialisation dudit au moins un objet d’intérêt détecté tenant compte d’un contexte volumétrique de rendu.- a spatialization of said at least one detected object of interest taking into account a volumetric rendering context.

Dans au moins un mode de réalisation, ladite spatialisation comprend une création d’au moins une première image spatialisée dudit objet d’intérêt, ladite création comprenant :In at least one embodiment, said spatialization comprises a creation of at least one first spatialized image of said object of interest, said creation comprising:

- une sélection d’un objet visuel parmi des objets visuels candidats en tenant compte des caractéristiques dudit objet d'intérêt détecté,- a selection of a visual object from among candidate visual objects taking into account the characteristics of said detected object of interest,

- une substitution dudit objet d’intérêt dans ladite image dudit premier flux ou dans ladite première image spatialisée par ledit objet visuel sélectionné.- a substitution of said object of interest in said image of said first stream or in said first spatialized image by said selected visual object.

Dans certains modes mode de réalisation, le procédé comprend un rendu de ladite au moins une première image spatialisée. Le rendu d'images spatialisées peut aider à améliorer la qualité de la visualisation volumétrique, offrant une expérience plus réaliste et interactive.In some embodiments, the method includes rendering the at least one first spatialized image. Rendering spatialized images can help improve the quality of the volumetric visualization, providing a more realistic and interactive experience.

Dans certains modes de réalisation, le procédé comprend une pluralité de rendus sur une même fenêtre temporelle de ladite une première image spatialisée. Ce mode de réalisation peut par exemple être utilisé pour un rendu sur un type de dispositif d’affichage requérant plusieurs copies de l’image spatialisée à rendre pour que celle-ci puisse être perçue comme tridimensionnelle.In some embodiments, the method comprises a plurality of renderings on a same time window of said first spatialized image. This embodiment can for example be used for rendering on a type of display device requiring several copies of the spatialized image to be rendered so that it can be perceived as three-dimensional.

Dans au moins un mode de réalisation, ledit procédé comprend, lors dudit rendu, une adaptation dynamique d’au moins un paramètre graphique dudit premier flux audiovisuel et/ou d’au moins une portion de ladite au moins une première image spatialisée.In at least one embodiment, said method comprises, during said rendering, a dynamic adaptation of at least one graphic parameter of said first audiovisual stream and/or of at least one portion of said at least one first spatialized image.

Dans certains modes de réalisation, ledit au moins un paramètre graphique appartient à un groupe comprenant :In some embodiments, said at least one graphics parameter belongs to a group comprising:

- un paramètre graphique correspondant à une résolution de ladite première image spatialisée ;- a graphic parameter corresponding to a resolution of said first spatialized image;

- un paramètre graphique correspondant à une fréquence de rafraichissement d’image dudit premier flux audiovisuel ;- a graphic parameter corresponding to an image refresh rate of said first audiovisual stream;

- un paramètre de réglage de contraste ;- a contrast adjustment parameter;

- un paramètre de réglage de luminosité ;- a brightness adjustment parameter;

- un paramètre de réglage de balance des blancs ;- a white balance adjustment parameter;

- un paramètre de réglages de netteté ;- a sharpness adjustment parameter;

- une combinaison d’au moins deux des paramètres ci-dessus.- a combination of at least two of the above parameters.

Dans certains modes de réalisation, le rendu de ladite au moins une première image spatialisée tient compte dudit contexte volumétrique de capture et/ou dudit au moins un objet d’intérêt détecté. En tenant compte de l’environnement volumétrique au moment de la capture, le procédé peut permettre de réaliser un rendu se rapprochant de la réalité en aidant à améliorer une cohérence spatiale entre l'environnement réel et l'environnement virtuel, et peut par exemple aider à adapter l'image spatialisée à l'environnement spécifique de l’utilisateur ; par exemple en ajustant l'échelle ou la perspective des objets pour qu'ils s'intégrent naturellement dans leur espace physique. En prenant en compte l'objet d'intérêt détecté lors du rendu, le procédé peut aider à obtenir des interactions plus réalistes entre les participants et les objets virtuels ou spatialisés, par exemple comme si ces interactions se produisaient dans le monde réel.In certain embodiments, the rendering of said at least one first spatialized image takes into account said volumetric capture context and/or said at least one detected object of interest. By taking into account the volumetric environment at the time of capture, the method can make it possible to achieve a rendering closer to reality by helping to improve spatial coherence between the real environment and the virtual environment, and can for example help to adapt the spatialized image to the user's specific environment; for example by adjusting the scale or perspective of objects so that they fit naturally into their physical space. By taking into account the object of interest detected during rendering, the method can help to obtain more realistic interactions between participants and virtual or spatialized objects, for example as if these interactions occurred in the real world.

Dans certains modes de réalisation, lorsque ledit au moins un objet d’intérêt détecté est un être vivant, ladite sélection dudit objet visuel tient compte d’une similitude, en termes d’expression corporelle, entre ledit au moins un objet d’intérêt détecté et ledit objet visuel.In some embodiments, when said at least one detected object of interest is a living being, said selection of said visual object takes into account a similarity, in terms of bodily expression, between said at least one detected object of interest and said visual object.

Dans certains modes réalisation, ladite adaptation dynamique tient compte dudit objet visuel. Une cohérence visuelle entre l'objet d'intérêt détecté et sa représentation spatialisée peut ainsi être favorisée, aidant ainsi par exemple à améliorer l'intégration de l'objet dans le flux audiovisuel contenant au moins une image spatialisée.In certain embodiments, said dynamic adaptation takes into account said visual object. Visual coherence between the detected object of interest and its spatialized representation can thus be promoted, thus helping for example to improve the integration of the object in the audiovisual stream containing at least one spatialized image.

Dans certains modes de réalisation, le procédé comprend une émission d’un second flux audiovisuel contenant ladite au moins une première image spatialisée. La transmission d'un flux audiovisuel enrichi de contenu volumétrique peut aider à partager des expériences immersives potentiellement avec d'autres utilisateurs, étendant les possibilités de communication et de collaboration. De plus, le procédé peut, dans certains modes de réalisation, présenter l’avantage de permettre de déporter une partie du traitement du flux audiovisuel sur un dispositif ayant la capacité de traitement nécessaire en réalisant et/ou en complétant la détection d’au moins un objet d’intérêt et/ou la spatialisation de l’au moins un objet d’intérêt.In some embodiments, the method comprises transmitting a second audiovisual stream containing said at least one first spatialized image. Transmitting an audiovisual stream enriched with volumetric content can help to share immersive experiences potentially with other users, extending the possibilities for communication and collaboration. In addition, the method can, in some embodiments, have the advantage of allowing part of the processing of the audiovisual stream to be transferred to a device having the necessary processing capacity by performing and/or completing the detection of at least one object of interest and/or the spatialization of the at least one object of interest.

Dans certains modes de réalisation, le procédé comprend :In some embodiments, the method comprises:

- une réception d’un troisième flux audiovisuel ;- reception of a third audiovisual stream;

- un rendu d’une seconde image spatialisée obtenue à partir dudit troisième flux audiovisuel reçu.- a rendering of a second spatialized image obtained from said third audiovisual stream received.

Dans certains modes de réalisation, le procédé est mis en œuvre par un premier dispositif électronique pendant une session de communication avec au moins un second dispositif électronique.In some embodiments, the method is implemented by a first electronic device during a communication session with at least one second electronic device.

L'utilisation de dispositifs électroniques pour mettre en œuvre le procédé assure que la technologie peut être intégrée et utilisée dans un large éventail d'appareils, selon les modes de réalisation, favorisant ainsi une plus grande interopérabilité entre différents systèmes et plateformes. Un dispositif peut ainsi traiter et adapter le contenu en fonction de ses caractéristiques techniques et des besoins de son utilisateur, contribuant par exemple ainsi à offrir une expérience personnalisée lors de la session de communication.The use of electronic devices to implement the method ensures that the technology can be integrated and used in a wide range of devices, depending on the embodiments, thus promoting greater interoperability between different systems and platforms. A device can thus process and adapt the content according to its technical characteristics and the needs of its user, thus contributing for example to offering a personalized experience during the communication session.

Ces caractéristiques, présentées isolément dans la présente demande en lien avec certains modes de réalisation du procédé de la présente demande peuvent être combinées entre elles selon d’autres modes de réalisation du présent procédé.These characteristics, presented in isolation in the present application in connection with certain embodiments of the method of the present application, can be combined with each other according to other embodiments of the present method.

4. Brève description des dessins4. Brief description of the drawings

D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :Other characteristics and advantages of the invention will appear more clearly on reading the following description of particular embodiments, given as simple illustrative and non-limiting examples, and the appended drawings, among which:

La [Fig 1] présente une vue simplifiée d’un système adapté à mettre en œuvre au moins certains modes de réalisation du procédé de la présente demande,[Fig 1] presents a simplified view of a system suitable for implementing at least certain embodiments of the method of the present application,

La [Fig 2] présente une vue simplifiée d’un dispositif adapté à mettre en œuvre au moins certains modes de réalisation du procédé de traitement d’un flux audiovisuel de la présente demande,[Fig 2] presents a simplified view of a device suitable for implementing at least certain embodiments of the method for processing an audiovisual stream of the present application,

La [Fig 3] présente une vue d’ensemble du procédé de traitement d’un flux audiovisuel de la présente demande, dans certains de ses modes de réalisation.[Fig 3] presents an overview of the method for processing an audiovisual stream of the present application, in certain of its embodiments.

La [Fig 4] présente un chronogramme du procédé de traitement d’un flux audiovisuel de la présente demande, dans certains de ses modes de réalisation.[Fig 4] presents a timing diagram of the method for processing an audiovisual stream of the present application, in certain of its embodiments.

La [Fig 5] présente un exemple d’une communication de deux participants utilisant deux dispositifs de traitement d’un flux audiovisuel.[Fig 5] shows an example of a communication between two participants using two devices for processing an audiovisual stream.

La [Fig 6] présente un exemple d’une pluralité de rendus sur une même fenêtre temporelle d’une image spatialisée.[Fig 6] shows an example of a plurality of renderings on the same time window of a spatialized image.

La [Fig 7] présente un exemple d’un dispositif de traitement d’un flux audiovisuel permettant une adaptation dynamique de paramètres graphiques d’un flux audiovisuel et/ou d’au moins une portion d’au moins une image spatialisée.[Fig 7] presents an example of a device for processing an audiovisual stream allowing dynamic adaptation of graphic parameters of an audiovisual stream and/or of at least one portion of at least one spatialized image.

Les [Fig 8A] et [8B] illustrent les principales étapes mises en œuvre par un procédé de traitement et/ou de restitution selon un mode de réalisation.[Fig 8A] and [8B] illustrate the main steps implemented by a processing and/or restitution method according to one embodiment.

5. Description des modes de réalisation5. Description of embodiments

5.1 Principe général5.1 General principle

Le principe général de l’invention repose sur le traitement d’au moins une scène multimédia obtenue à partir d’une scène réelle, permettant une restitution volumétrique d’au moins un objet d’intérêt détecté dans la scène multimédia.The general principle of the invention is based on the processing of at least one multimedia scene obtained from a real scene, allowing a volumetric restitution of at least one object of interest detected in the multimedia scene.

La figure 8A illustre les principales étapes d’un procédé de traitement, mises en œuvre par un dispositif de traitement 80 selon un mode de réalisation de l’invention. Comme illustré en figure 8A, une scène multimédia représentative d’une scène réelle est obtenue au cours d’une étape 81 .Figure 8A illustrates the main steps of a processing method, implemented by a processing device 80 according to an embodiment of the invention. As illustrated in Figure 8A, a multimedia scene representative of a real scene is obtained during a step 81.

Si le dispositif de traitement 80 est équipé de moyens de capture, l’étape d’obtention 81 peut mettre en œuvre une capture de la scène réelle.If the processing device 80 is equipped with capture means, the obtaining step 81 can implement a capture of the real scene.

Si le dispositif de traitement 80 n’est pas équipé de moyens de capture (par exemple il s’agit d’un serveur intermédiaire ou d’un dispositif de restitution), l’étape d’obtention 81 met en œuvre une réception d’un flux audiovisuel portant la scène multimédia représentative de la scène réelle, capturée par un autre dispositif (par exemple un dispositif de capture).If the processing device 80 is not equipped with capture means (for example it is an intermediate server or a rendering device), the obtaining step 81 implements a reception of an audiovisual stream carrying the multimedia scene representative of the real scene, captured by another device (for example a capture device).

En particulier, un dispositif de restitution peut être intégré ou coopérer avec un terminal récepteur, et un dispositif de capture peut être intégré ou coopérer avec un terminal émetteur.In particular, a rendering device may be integrated or cooperate with a receiving terminal, and a capturing device may be integrated or cooperate with a transmitting terminal.

La scène multimédia obtenue est représentative d’une scène réelle. Ainsi, la scène multimédia peut être une représentation fidèle de la scène réelle. Dans un mode de réalisation particulier, la scène multimédia peut être une scène en réalité augmentée dans laquelle des éléments virtuels sont insérés dans la scène réelle. Dans un autre mode de réalisation, la scène multimédia peut être une scène en réalité diminuée dans laquelle certains éléments sont supprimés de la scène réelle. La scène multimédia peut également être générée par ordinateur, par exemple par une intelligence artificielle, à partir de la scène réelle.The resulting multimedia scene is representative of a real scene. Thus, the multimedia scene may be a faithful representation of the real scene. In a particular embodiment, the multimedia scene may be an augmented reality scene in which virtual elements are inserted into the real scene. In another embodiment, the multimedia scene may be a diminished reality scene in which certain elements are removed from the real scene. The multimedia scene may also be computer-generated, for example by artificial intelligence, from the real scene.

Au cours d’une étape 82, au moins un objet d’intérêt est détecté dans la scène multimédia.During a step 82, at least one object of interest is detected in the multimedia scene.

Au cours d’une étape 83, l’objet d’intérêt et/ou le reste de la scène multimédia est traité, délivrant au moins une copie (i.e. au moins un exemplaire) de l’objet d’intérêt traité.During a step 83, the object of interest and/or the rest of the multimedia scene is processed, delivering at least one copy (i.e. at least one example) of the processed object of interest.

Par exemple, si le débit associé à la réception d’une scène capturée est insuffisant, il est possible de remplacer un objet d’intérêt de la scène par un avatar qui peut présenter une meilleure résolution que l’objet d’intérêt.For example, if the throughput associated with receiving a captured scene is insufficient, it is possible to replace an object of interest in the scene with an avatar that may have a better resolution than the object of interest.

Au cours d’une étape 85, une représentation volumétrique de l’objet d’intérêt traité est restituée.During a step 85, a volumetric representation of the processed object of interest is restored.

Si le dispositif de traitement 80 est équipé ou coopère avec des moyens de restitution (par exemple le dispositif de traitement 80 comprend ou coopère avec une surface transparente ou semi -transparente apte à réfléchir au moins une copie de l’objet d’intérêt traité), comme illustré en figure 8A, le dispositif de traitement 80 peut mettre en œuvre une telle étape de restitution 85.If the processing device 80 is equipped or cooperates with restitution means (for example the processing device 80 comprises or cooperates with a transparent or semi-transparent surface capable of reflecting at least one copy of the processed object of interest), as illustrated in FIG. 8A, the processing device 80 can implement such a restitution step 85.

En variante, si le dispositif de traitement 80 n’est pas équipé ou n’est pas apte à coopérer avec de tels moyens de restitution, comme illustré en figure 8B, le dispositif de traitement 80 met en œuvre une transmission 841 de la ou des copies à un dispositif de restitution 90. La figure 8B illustre, en plus des étapes décrites ci-dessus, les principales étapes d’un procédé de restitution mis en œuvre par un dispositif de restitution 90 selon cette variante. Un tel dispositif de restitution 90 peut ainsi mettre en œuvre : une réception 842 d’au moins une copie d’un objet d’intérêt traité, obtenue par traitement d’un objet d’intérêt détecté dans une scène multimédia représentative d’une scène réelle et/ou par traitement du reste de la scène multimédia, et la restitution 85 d’une représentation volumétrique de l’objet d’intérêt traité.Alternatively, if the processing device 80 is not equipped or is not capable of cooperating with such restitution means, as illustrated in FIG. 8B, the processing device 80 implements a transmission 841 of the copy(ies) to a restitution device 90. Figure 8B illustrates, in addition to the steps described above, the main steps of a rendering method implemented by a rendering device 90 according to this variant. Such a rendering device 90 can thus implement: a reception 842 of at least one copy of a processed object of interest, obtained by processing an object of interest detected in a multimedia scene representative of a real scene and/or by processing the rest of the multimedia scene, and the rendering 85 of a volumetric representation of the processed object of interest.

Ainsi, selon un premier mode de réalisation illustré en figure 8A, le dispositif de traitement 80 peut comprendre des moyens de restitution (permettant la mise en œuvre de l’étape de restitution 85) en plus des moyens de traitement (permettant la mise en œuvre des étapes d’obtention 81 , de détection 82, et de traitement 83).Thus, according to a first embodiment illustrated in FIG. 8A, the processing device 80 may comprise restitution means (allowing the implementation of the restitution step 85) in addition to the processing means (allowing the implementation of the obtaining steps 81, detection 82, and processing 83).

Selon un deuxième mode de réalisation illustré en figure 8B, le dispositif de traitement 80 peut comprendre des moyens de traitement (permettant la mise en œuvre des étapes d’obtention 81 , de détection 82, et de traitement 83). Le dispositif de restitution 90 peut comprendre des moyens de restitution (permettant la mise en œuvre de l’étape de restitution 85).According to a second embodiment illustrated in FIG. 8B, the processing device 80 may comprise processing means (allowing the implementation of the steps of obtaining 81, detection 82, and processing 83). The restitution device 90 may comprise restitution means (allowing the implementation of the restitution step 85).

Selon ces deux modes de réalisation, la restitution 85 d’une représentation volumétrique de l’objet d’intérêt traité est par exemple mise en œuvre à partir d’au moins une réflexion de ladite au moins une copie sur une surface transparente ou semi-transparente appartenant ou coopérant avec le dispositif de traitement 80 (premier mode de réalisation) ou avec le dispositif de restitution 90 (deuxième mode de réalisation).According to these two embodiments, the restitution 85 of a volumetric representation of the processed object of interest is for example implemented from at least one reflection of said at least one copy on a transparent or semi-transparent surface belonging to or cooperating with the processing device 80 (first embodiment) or with the restitution device 90 (second embodiment).

En variante ou en complément, le dispositif de traitement 80 peut comprendre des moyens de capture en plus des moyens de traitement décrits ci-dessus.Alternatively or additionally, the processing device 80 may comprise capture means in addition to the processing means described above.

Ainsi, un premier dispositif, par exemple un smartphone « appelant », peut comprendre des moyens de capture et de traitement, et un deuxième dispositif, par exemple un smartphone « appelé », peut comprendre des moyens restitution. En variante, un premier dispositif, par exemple un smartphone « appelant », peut comprendre des moyens de capture, et un deuxième dispositif, par exemple un smartphone « appelé », peut comprendre des moyens de traitement et de restitution. Encore en variante, un premier dispositif, par exemple un smartphone « appelant », peut comprendre des moyens de capture, un deuxième dispositif, par exemple un smartphone « appelé », peut comprendre des moyens de restitution, et un dispositif intermédiaire, par exemple un serveur intermédiaire physique ou virtuel, peut comprendre des moyens de traitement. Dans un mode de réalisation, le premier dispositif peut comprendre des moyens de restitution en plus des moyens de capture, et/ou le deuxième dispositif peut comprendre des moyens de capture en plus des moyens de restitution. Un tel dispositif peut ainsi être « appelant » et/ou « appelé ».Thus, a first device, for example a “calling” smartphone, may comprise capture and processing means, and a second device, for example a “called” smartphone, may comprise restitution means. Alternatively, a first device, for example a “calling” smartphone, may comprise capture means, and a second device, for example a “called” smartphone, may comprise processing and restitution means. Still alternatively, a first device, for example a “calling” smartphone, may comprise capture means, a second device, for example a “called” smartphone, may comprise restitution means, and an intermediate device, for example a physical or virtual intermediate server, may comprise processing means. In one embodiment, the first device may comprise rendering means in addition to the capturing means, and/or the second device may comprise capturing means in addition to the rendering means. Such a device may thus be "calling" and/or "called".

On note par ailleurs que les étapes d’obtention 81 (capture ou réception), détection 82, traitement 83, transmission 841 , réception 842, et/ou restitution 85 peuvent être mises en œuvre en temps réel. Une telle mise en œuvre permet par exemple des communications en temps réel entre deux smartphones.It is also noted that the steps of obtaining 81 (capture or reception), detection 82, processing 83, transmission 841, reception 842, and/or restitution 85 can be implemented in real time. Such an implementation allows, for example, real-time communications between two smartphones.

5.2 Exemples de mise en œuvre5.2 Implementation examples

On décrit ci-après différents exemples de mise en œuvre, selon lesquels le traitement de l’objet d’intérêt et/ou du reste de la scène multimédia délivre au moins une copie de l’objet d’intérêt traité correspondant à une première image spatialisée, destinée à être rendue en trois dimensions. En particulier, la ou les copies de l’objet d’intérêt traité peuvent être transmises dans un flux audiovisuel.Various implementation examples are described below, according to which the processing of the object of interest and/or the rest of the multimedia scene delivers at least one copy of the processed object of interest corresponding to a first spatialized image, intended to be rendered in three dimensions. In particular, the copy(ies) of the processed object of interest can be transmitted in an audiovisual stream.

Ainsi, un exemple de mise en œuvre vise à proposer une visualisation volumétrique d’un flux audiovisuel à partir d’au moins un dispositif de traitement utilisant des techniques de traitement d’images et tirant partie de l’environnement physique dans lequel se trouve ledit dispositif.Thus, an example of implementation aims to propose a volumetric visualization of an audiovisual stream from at least one processing device using image processing techniques and taking advantage of the physical environment in which said device is located.

Dans le cadre de cet exemple de mise en œuvre, le terme 'flux audiovisuel' désigne des données comprenant des images et, optionnellement, des données audio associées. Bien que, dans certains modes de réalisation, le procédé puisse traiter les deux composantes, certains modes de réalisation peuvent se concentrer exclusivement sur la partie visuelle.For the purposes of this exemplary implementation, the term 'audiovisual stream' refers to data comprising images and, optionally, associated audio data. Although in some embodiments the method may process both components, some embodiments may focus exclusively on the visual portion.

Cet exemple de mise en œuvre vise en particulier un procédé de traitement d'un flux audiovisuel permettant de détecter et de spatialiser des objets d'intérêt du flux en prenant en compte un contexte de capture et/ou de rendu.This implementation example aims in particular at a method for processing an audiovisual stream making it possible to detect and spatialize objects of interest in the stream by taking into account a capture and/or rendering context.

Notamment, à l'inverse de certaines solutions de l'art antérieur proposant des dispositifs volumineux, énergivores et/ou limités à la visualisation de contenus pré-enregistrés, cet exemple de mise en œuvre propose un traitement d'un flux audiovisuel pouvant être adapté à des terminaux portables connectés, cette adaptation pouvant être dynamique.In particular, unlike certain prior art solutions offering bulky, energy-consuming devices and/or devices limited to viewing pre-recorded content, this implementation example offers processing of an audiovisual stream that can be adapted to connected portable terminals, this adaptation being able to be dynamic.

Le procédé selon cet exemple de mise en œuvre comprend une obtention d'au moins une image au sein du flux. Il identifie également au moins un objet d’intérêt dans l’image en tenant compte du contexte volumétrique de la capture nécessaire à l’obtention de l’image. Enfin, le procédé comporte une spatialisation de l’objet d’intérêt détecté en tenant compte par exemple du contexte volumétrique de rendu de l’image spatialisée.The method according to this exemplary implementation comprises obtaining at least one image within the stream. It also identifies at least one object of interest in the image by taking into account the volumetric context of the capture necessary to obtain the image. Finally, the method comprises a spatialization of the detected object of interest by taking into account, for example, the volumetric context of rendering of the spatialized image.

En particulier, dans certains modes de réalisation où l’objet d’intérêt détecté est un être vivant, on peut prendre en compte une expression corporelle (par exemple un mouvement de tête ou une grimace pouvant signifier un problème de compréhension) du ou des utilisateurs , notamment dans la restitution de leur représentation volumétrique, afin d’adapter en conséquence le traitement du flux audiovisuel, la prise en compte pouvant par exemple tenir compte d’une similarité entre une expression corporelle et des modèles d’expression corporelle préétablis et/ou évolutifs (par exemple via un système d’apprentissage par intelligence artificielle).In particular, in certain embodiments where the detected object of interest is a living being, a bodily expression (for example a head movement or a grimace which may signify a problem of understanding) of the user(s) can be taken into account, in particular in the restitution of their volumetric representation, in order to adapt the processing of the audiovisual flow accordingly, the consideration being able, for example, to take into account a similarity between a bodily expression and pre-established and/or evolving bodily expression models (for example via an artificial intelligence learning system).

Nous décrivons maintenant, à titre d’exemple, un système de télécommunication dans lequel peut être mis en œuvre le procédé de traitement de selon un exemple de mise en œuvre.We now describe, by way of example, a telecommunications system in which the processing method according to an exemplary implementation can be implemented.

La figure 1 illustre un tel système de télécommunication 100. Ce système comprend un ou plusieurs dispositifs de traitement de flux audiovisuel (110, 111 , 115), qui peuvent être des terminaux numériques tels que des smartphones, des tablettes ou des ordinateurs portables ou fixes (110, 111 ), ou bien des serveurs 115. Ces dispositifs de traitement peuvent intégrer ou être associés à des équipements de capture opto-numérique CCD et/ou LiDAR et/ou ToF (120,121 , 122) qui ont la capacité de capturer des informations visuelles et/ou métriques d’une scène extérieure (101 , 102) aux équipements, également appelée scène réelle. Dans certains modes de réalisation, au moins certains des équipements de capture opto-numérique (120, 121 ) peuvent être intégrés dans les dispositifs de traitement de flux (110,111 ). Dans certains modes de réalisation, au moins certains des équipements de capture opto- numérique 122 peuvent être externes aux dispositifs de traitement de flux et transmettre les images capturées à au moins un dispositif de traitement de flux 110 via une interface réseau, filaire (USB, RJ45, optique (fibre monomode ou multimode) ou sans-fil (4G, 5Gn, WiFi, Bluetooth).Figure 1 illustrates such a telecommunication system 100. This system comprises one or more audiovisual stream processing devices (110, 111, 115), which may be digital terminals such as smartphones, tablets or laptops or desktop computers (110, 111), or servers 115. These processing devices may integrate or be associated with CCD and/or LiDAR and/or ToF opto-digital capture equipment (120, 121, 122) which have the capacity to capture visual and/or metric information of a scene external (101, 102) to the equipment, also called real scene. In some embodiments, at least some of the opto-digital capture equipment (120, 121) may be integrated into the stream processing devices (110, 111). In some embodiments, at least some of the opto-digital capture equipment 122 may be external to the stream processing devices and transmit the captured images to at least one stream processing device 110 via a network interface, wired (USB, RJ45, optical (single-mode or multi-mode fiber) or wireless (4G, 5Gn, WiFi, Bluetooth).

En outre, dans certains modes de réalisation, le système de télécommunication 100 peut être configuré pour centraliser au moins partiellement un traitement du flux audiovisuel au sein d'un dispositif 115, tel qu'un serveur physique ou virtuel (par exemple un serveur « cloud »).Furthermore, in certain embodiments, the telecommunications system 100 may be configured to at least partially centralize processing of the audiovisual stream within a device 115, such as a physical or virtual server (for example a “cloud” server).

Dans certains modes de réalisation, le système peut également inclure des terminaux connectés (150, 160) qui peuvent interagir avec les dispositifs de traitement de flux audiovisuel 115. Un terminal connecté émetteur 150 (comprenant par exemple des moyens de capture) peut par exemple envoyer un flux audiovisuel à un dispositif de traitement de flux audiovisuel 115, qui après traitement de ce flux audiovisuel, peut émettre un flux audiovisuel contenant au moins une image spatialisée vers un autre dispositif de traitement 111 et/ou un terminal connecté récepteur 160 (comprenant des moyens de restitution).In some embodiments, the system may also include connected terminals (150, 160) which can interact with the audiovisual stream processing devices 115. A connected transmitting terminal 150 (comprising for example capture means) may for example send an audiovisual stream to an audiovisual stream processing device 115, which after processing this audiovisual stream, may transmit an audiovisual stream containing at least one spatialized image to another processing device 111 and/or a connected receiving terminal 160 (comprising rendering means).

La figure 2 illustre une structure simplifiée d’un dispositif électronique 200, adapté à mettre en œuvre les principes de cet exemple de mise en œuvre. Selon les modes de réalisation, il peut s’agir d’un serveur et/ou d’un terminal. Le dispositif 200 peut par exemple correspondre à un dispositif de traitement de flux audiovisuel (110,111 , 115) du système 100 en figure 1 . Le dispositif 200 comprend notamment au moins une mémoire M 210. Le dispositif 200 peut notamment comprendre une mémoire tampon, une mémoire volatile, par exemple de type RAM (pour « Random Access Memory » selon la terminologie anglaise), et/ou une mémoire non volatile par exemple de type ROM (pour « Read Only Memory » selon la terminologie anglaise). La mémoire peut par exemple être utilisée pour stocker temporairement ou de manière permanente des images, et/ou vidéo, et/ou les sons et/ou flux audiovisuels capturés avant, pendant et après le traitement d’un flux audiovisuel selon cet exemple de mise en œuvre. Cela inclut par exemple des images 2D originales capturées, des images spatialisées, ainsi que, optionnellement, les données audio associées. La mémoire peut aussi contenir des données relatives à des objets visuels comme des modèles 2D et/ou 3D ainsi que des paramètres et des données de configuration nécessaires au traitement de flux audiovisuels, tels que des traitements basés sur des algorithmes de détection d'objets, de spatialisation, et des paramètres graphiques d'affichage volumétrique.Figure 2 illustrates a simplified structure of an electronic device 200, adapted to implement the principles of this exemplary implementation. Depending on the embodiments, it may be a server and/or a terminal. The device 200 may for example correspond to an audiovisual stream processing device (110, 111, 115) of the system 100 in Figure 1. The device 200 comprises in particular at least one memory M 210. The device 200 may in particular comprise a buffer memory, a volatile memory, for example of the RAM type (for “Random Access Memory” according to English terminology), and/or a non-volatile memory for example of the ROM type (for “Read Only Memory” according to English terminology). The memory may for example be used to temporarily or permanently store images, and/or video, and/or sounds and/or audiovisual streams captured before, during and after the processing of an audiovisual stream according to this exemplary implementation. This includes for example original 2D images captured, spatialized images, as well as, optionally, the associated audio data. The memory may also contain data relating to visual objects such as 2D and/or 3D models as well as parameters and configuration data necessary for the processing of audiovisual streams, such as processing based on object detection algorithms, spatialization, and volumetric display graphics parameters.

Le dispositif 200 peut également comprendre une unité de traitement UT 220, équipée par exemple d’au moins un processeur P 222, et pilotée par un programme d’ordinateur PG 212 stocké en mémoire M 210. A l’initialisation, les instructions de code du programme d’ordinateur PG sont par exemple chargées dans une mémoire RAM avant d’être exécutées par le processeur P. Ledit au moins un processeur P 222 de l’unité de traitement UT 220 peut notamment mettre en œuvre, individuellement ou collectivement, l’un quelconque des modes de réalisation du procédé de la présente demande (décrit notamment en relation avec la figure 3), selon les instructions du programme d’ordinateur PG.The device 200 may also comprise a processing unit UT 220, equipped for example with at least one processor P 222, and controlled by a computer program PG 212 stored in memory M 210. Upon initialization, the code instructions of the computer program PG are for example loaded into a RAM memory before being executed by the processor P. Said at least one processor P 222 of the processing unit UT 220 may in particular implement, individually or collectively, any one of the embodiments of the method of the present application (described in particular in relation to FIG. 3), according to the instructions of the computer program PG.

Dans certains modes de réalisation, le dispositif 200 peut aussi comporter des moyens de réception d’un flux audiovisuel depuis au moins une interface réseau du dispositif 200. L’interface réseau peut communiquer avec un réseau de manière filaire (comme Ethernet ou USB) ou sans fil (comme WiFi, Bluetooth, ou 4G/5G).In certain embodiments, the device 200 may also comprise means for receiving an audiovisual stream from at least one network interface of the device 200. The network interface may communicate with a network in a wired manner (such as Ethernet or USB) or wirelessly (such as WiFi, Bluetooth, or 4G/5G).

De même, dans certains modes de réalisation, le dispositif 200 a la capacité de pouvoir émettre au moins un flux audiovisuel provenant du réseau 140.Likewise, in certain embodiments, the device 200 has the capacity to be able to transmit at least one audiovisual stream originating from the network 140.

Par interface utilisateur (ou « interface homme-machine ») du dispositif, on entend par exemple une interface intégrée au dispositif 200, ou une partie d’un dispositif tiers couplé à ce dispositif par des moyens de communication filaires ou sans fils.By user interface (or “human-machine interface”) of the device, we mean for example an interface integrated into the device 200, or a part of a third-party device coupled to this device by wired or wireless communication means.

Une interface utilisateur peut notamment être une interface utilisateur, dite «de sortie », adaptée à un rendu (ou au contrôle d’un rendu) d’un élément de sortie d'une application informatique utilisée par le dispositif 200, par exemple une application s’exécutant au moins partiellement sur le dispositif 200 ou une application « en ligne » s’exécutant au moins partiellement à distance, par exemple une application accessible via le dispositif 200. Des exemples d’interface utilisateur de sortie du dispositif incluent un ou plusieurs écrans, notamment au moins un écran graphique (tactile par exemple), un ou plusieurs haut-parleurs, un casque connecté, un ou plusieurs indicateur(s) lumineux tels que des diodes électroluminescentes (ou LED pour « Light Electronic Display » selon la terminologie anglaise). En outre, le dispositif 200 peut être équipé (ou couplé à) au moins un équipement de restitution (ou rendu) (130,131 ), comme un écran de visualisation adapté pour rendre un flux audiovisuel contenant au moins une image spatialisée. L’équipement de restitution peut être par exemple un équipement de type « fantôme de Pepper ».A user interface may in particular be a user interface, called an “output” user interface, adapted to a rendering (or to the control of a rendering) of an output element of a computer application used by the device 200, for example an application running at least partially on the device 200 or an “online” application running at least partially remotely, for example an application accessible via the device 200. Examples of output user interfaces of the device include a or several screens, in particular at least one graphic screen (touch screen for example), one or more speakers, a connected headset, one or more light indicators such as light-emitting diodes (or LED for "Light Electronic Display" according to English terminology). In addition, the device 200 can be equipped with (or coupled to) at least one piece of rendering equipment (130,131), such as a display screen adapted to render an audiovisual stream containing at least one spatialized image. The rendering equipment can be, for example, a piece of "Pepper's phantom" type equipment.

Par rendu, comme détaillé ci-avant, on entend ici une restitution (ou « output » selon la terminologie anglaise) sur au moins une interface utilisateur, sous une forme quelconque, par exemple comprenant des composantes textuelle, audio et/ou vidéo, ou une combinaison de telles composantes.By rendering, as detailed above, we mean here a restitution (or “output” according to English terminology) on at least one user interface, in any form, for example including textual, audio and/or video components, or a combination of such components.

Par ailleurs, une interface utilisateur peut être une interface utilisateur, dite « d’entrée », adaptée à une acquisition d’une commande d’un utilisateur du dispositif 200. Il peut s’agir notamment d’une action à effectuer et/ou d’une commande à transmettre à une application informatique utilisée par le dispositif 200, par exemple une application s’exécutant au moins partiellement sur le dispositif 200 . Une interface utilisateur « d’entrée » peut aussi être adaptée à une acquisition d’au moins un paramètre de configuration lié à un dispositif d’affichage.Furthermore, a user interface may be a so-called “input” user interface, adapted to acquiring a command from a user of the device 200. This may in particular be an action to be performed and/or a command to be transmitted to a computer application used by the device 200, for example an application running at least partially on the device 200. An “input” user interface may also be adapted to acquiring at least one configuration parameter linked to a display device.

Des exemples d’interface utilisateur d’entrée du dispositif 200 incluent un capteur, un moyen d’acquisition audio et/ou vidéo (microphone, caméra (webcam) par exemple), un clavier, une souris.Examples of input user interface of the device 200 include a sensor, an audio and/or video acquisition means (microphone, camera (webcam) for example), a keyboard, a mouse.

Dans certains modes de réalisation, le dispositif peut comprendre (ou être couplé à) des moyens de capture de flux audiovisuel, ou visuel, comme au moins un équipement de capture opto-numérique adapté à une capture d’une image ou d’une vidéo, tel une caméra intégrée 120 ou connectée 122 au dispositif de traitement 200, par exemple, une caméra frontale d'un smartphone ou d'une webcam d'ordinateur. Dans des modes de réalisation où le dispositif comprend (ou est couplé à) des moyens de capture indépendant d’un flux visuel et d’un flux audio, le dispositif peut en outre comprendre des moyens de synchronisation de ces flux visuel et audio.In certain embodiments, the device may comprise (or be coupled to) means for capturing an audiovisual or visual stream, such as at least one opto-digital capture device suitable for capturing an image or a video, such as a camera integrated 120 or connected 122 to the processing device 200, for example, a front camera of a smartphone or a computer webcam. In embodiments where the device comprises (or is coupled to) means for capturing independently a visual stream and an audio stream, the device may further comprise means for synchronizing these visual and audio streams.

Dans certains modes de réalisation, le dispositif 200 peut aussi comprendre (séparément ou en complément des moyens ci-dessus) des interfaces de capture spécialisées, comme des capteurs LiDAR et/ou ToF pour l’acquisition de données volumétriques.In some embodiments, the device 200 may also include (separately or in addition to the above means) specialized capture interfaces, such as LiDAR and/or ToF sensors for the acquisition of volumetric data.

Ledit au moins un microprocesseur du dispositif 200 peut notamment être adapté pour mettre en œuvre un traitement d’un flux audiovisuel, comprenant :Said at least one microprocessor of the device 200 can in particular be adapted to implement processing of an audiovisual stream, comprising:

- une obtention d’au moins une image d’un premier flux audiovisuel,- obtaining at least one image from a first audiovisual stream,

- une détection d’au moins un objet d’intérêt dans ladite image tenant compte d’un contexte volumétrique de capture, - une spatialisation dudit au moins un objet d’intérêt détecté tenant compte d’un contexte volumétrique de rendu.- a detection of at least one object of interest in said image taking into account a volumetric capture context, - a spatialization of said at least one detected object of interest taking into account a volumetric rendering context.

Certains des modules d’entrée -sorties ci-dessus sont optionnels et peuvent donc être absents du dispositif 200 dans certains modes de réalisation. Notamment, si la présente demande est parfois détaillée en lien avec un dispositif communiquant avec au moins un second dispositif du système 100, le procédé peut également être mis en œuvre localement par un dispositif, en utilisant par exemple des éléments de sortie d’applications ne nécessitant pas d’échanges entre dispositifs (cas d’un dispositif dit « stand-alone » par exemple).Some of the above input-output modules are optional and may therefore be absent from the device 200 in certain embodiments. In particular, if the present application is sometimes detailed in connection with a device communicating with at least one second device of the system 100, the method can also be implemented locally by a device, for example using application output elements not requiring exchanges between devices (case of a so-called “stand-alone” device for example).

Au contraire, dans certains de ses modes de réalisation, le procédé peut être mis en œuvre de façon distribuée entre au moins deux dispositifs (101 ,102) du système 100.On the contrary, in some of its embodiments, the method can be implemented in a distributed manner between at least two devices (101, 102) of the system 100.

On décrit à présent en liaison avec la figure 3, de façon simplifiée, un exemple de mise en œuvre du procédé 300 de traitement d’un flux audiovisuel . Le procédé 300 peut être mis en œuvre par exemple par le dispositif 200 décrit ci-avant.We now describe in connection with Figure 3, in a simplified manner, an example of implementation of the method 300 for processing an audiovisual stream. The method 300 can be implemented for example by the device 200 described above.

Comme illustré en figure 3, le procédé 300 comprend une obtention 310 d’au moins un flux audiovisuel. Cette obtention peut dépendre des modes de réalisation. Ainsi, dans certains modes de réalisation, l’obtention peut être réalisée par exemple via une capture par un équipement de capture du dispositif 200. L’obtention d’un flux audiovisuel peut être réalisé, dans certains modes de réalisation, en se connectant par exemple à un service de streaming comme un pont de visioconférence, où les données sont transmises en continu depuis un serveur distant. Le dispositif 200 peut communiquer par exemple, dans certains modes de réalisation, avec d'autres appareils, tels que des smartphones, des tablettes ou des caméras de surveillance, pour obtenir leur flux audiovisuel. Le procédé peut permettre dans certains modes de réalisation, d’obtenir un flux audiovisuel en important des fichiers vidéo et audio préenregistrés stockés localement ou accessibles via le réseau depuis un lieu de stockage.As illustrated in Figure 3, the method 300 comprises obtaining 310 at least one audiovisual stream. This obtaining may depend on the embodiments. Thus, in certain embodiments, the obtaining may be carried out for example via a capture by a capture device of the device 200. Obtaining an audiovisual stream may be carried out, in certain embodiments, by connecting for example to a streaming service such as a videoconferencing bridge, where the data is transmitted continuously from a remote server. The device 200 may communicate for example, in certain embodiments, with other devices, such as smartphones, tablets or surveillance cameras, to obtain their audiovisual stream. The method may make it possible, in certain embodiments, to obtain an audiovisual stream by importing pre-recorded video and audio files stored locally or accessible via the network from a storage location.

Dans certains modes de réalisation, l’obtention comprend la mise en mémoire dans le dispositif 200 du flux audiovisuel. Il peut s’agir par exemple de l’usage d’une mémoire tampon (ou buffer) conçu pour stocker temporairement les données en transit, peut permettre un traitement continu et fluide des images, des vidéos et/ou sons. En ajustant dynamiquement la taille du buffer en fonction du débit de données et des capacités de traitement du dispositif, le procédé peut réduire efficacement le risque de ralentissement ou d'interruption dans le traitement du flux audiovisuel.In some embodiments, obtaining includes storing the audiovisual stream in the device 200. This may involve, for example, the use of a buffer memory designed to temporarily store data in transit, which may allow continuous and smooth processing of images, videos and/or sounds. By dynamically adjusting the size of the buffer according to the data rate and the processing capabilities of the device, the method can effectively reduce the risk of slowdown or interruption in the processing of the audiovisual stream.

Suite à l’obtention d'au moins une image issue du flux audiovisuel, le procédé 300 peut comprendre une détection 320 d'au moins un objet d'intérêt. Le procédé peut par exemple comprendre une reconnaissance et une détermination d’au moins un emplacement d'au moins un élément particulier (objet d’intérêt) dans une image ou une séquence vidéo obtenue. Cette détection peut être effectuée de diverses façons selon les modes de réalisation. Elle peut mettre en œuvre par exemple diverses techniques de reconnaissance vocale et/ou de vision par ordinateur et d'intelligence artificielle. Des réseaux de neurones convolutifs (CNN ou « Convolutional Neural Network » en anglais) ou d'autres architectures d'apprentissage profond peuvent par exemple être entraînés pour reconnaître et localiser des types d’objets d'intérêt (audio et/ou visuel). Les objets d'intérêt peuvent être prédéfinis pendant la phase d'entraînement, où un réseau de neurones est exposé à de nombreuses images ou échantillons audio labellisés (étiquetés) représentant ces objets. Le réseau de neurones peut aussi apprendre à reconnaître des caractéristiques distinctives des objets d'intérêt et à distinguer ces objets d’intérêt des autres éléments audio et/ou visuels dans de nouvelles images ou échantillons audio non étiquetés. Ainsi, la prédéfinition des objets d'intérêt peut être intégrée, dans certains modes de réalisation, dans le modèle d'apprentissage profond, ce qui peut permettre de les détecter (i.e. les reconnaître et les localiser (avec précision)) dans des flux audiovisuels. De telles techniques peuvent aider à obtenir une classification des objets d’intérêt même dans des conditions complexes en raison par exemple, dans le cas du traitement d’une image, d’une présence d’obstacles masquant l’objet ou d’arrière-plans qui peuvent amener à confondre les objets avec leur environnement. Des algorithmes d'analyse d'image peuvent par exemple être utilisés pour analyser le flux audiovisuel et détecter des motifs, des formes ou des couleurs qui correspondent à des objets d'intérêt prédéfinis. Des techniques de reconnaissance de formes peuvent aussi être appliquées pour aider à identifier des types d’objets en se basant sur leur géométrie, leur texture ou leur contour. Par exemple, de telles techniques peuvent participer à une détection de visages humains ou d’objets de la vie quotidienne.Following the obtaining of at least one image from the audiovisual stream, the method 300 may comprise a detection 320 of at least one object of interest. The method may for example comprise a recognition and a determination of at least one location of at least one particular element (object of interest) in an image or a video sequence obtained. This detection may be carried out in various ways depending on the embodiments. It may implement, for example, various speech recognition and/or computer vision and artificial intelligence techniques. Convolutional neural networks (CNNs) or other deep learning architectures may, for example, be trained to recognize and localize types of objects of interest (audio and/or visual). The objects of interest may be predefined during the training phase, where a neural network is exposed to many labeled (tagged) images or audio samples representing these objects. The neural network may also learn to recognize distinctive characteristics of the objects of interest and to distinguish these objects of interest from other audio and/or visual elements in new unlabeled images or audio samples. Thus, the predefinition of the objects of interest may be integrated, in certain embodiments, into the deep learning model, which may allow them to be detected (i.e., recognized and localized (accurately)) in audiovisual streams. Such techniques can help to obtain a classification of objects of interest even under complex conditions due, for example, in the case of image processing, to the presence of obstacles masking the object or backgrounds that can lead to confusing objects with their environment. Image analysis algorithms can, for example, be used to analyze the audiovisual stream and detect patterns, shapes or colors that correspond to predefined objects of interest. Pattern recognition techniques can also be applied to help identify types of objects based on their geometry, texture or outline. For example, such techniques can participate in the detection of human faces or everyday objects.

Dans le cas où le flux audiovisuel comprend une séquence vidéo, une fois un objet d'intérêt détecté dans une portion (image par exemple) du flux, le procédé 300 peut comprendre un suivi (tracking en anglais) de l’objet, effectué en temps réel, à travers les différentes images de la séquence qui suivent la première image où l’objet a été détecté. Le procédé peut ainsi permettre de maintenir une focalisation sur un objet d’intérêt détecté dans un flux audiovisuel.In the case where the audiovisual stream comprises a video sequence, once an object of interest has been detected in a portion (image for example) of the stream, the method 300 may comprise tracking of the object, carried out in real time, through the different images of the sequence which follow the first image where the object was detected. The method may thus make it possible to maintain focus on an object of interest detected in an audiovisual stream.

Cette détection peut aider à analyser le contenu du flux audiovisuel et à réagir en conséquence, que ce soit pour modifier l'image, interagir avec l'utilisateur ou prendre des décisions basées sur les objets détectés.This detection can help analyze the content of the audiovisual stream and react accordingly, whether to modify the image, interact with the user or make decisions based on the detected objects.

Comme illustré en figure 3, le procédé 300 peut comprendre une spatialisation 330 d’au moins un objet détecté. Par spatialisation d’une image ou portion d’image (comme un objet d’intérêt), on entend une transformation d’au moins une image, respectivement la portion d’image considérée, en une représentation tridimensionnelle (ou image spatialisée) qui pourra être ainsi perçue par un utilisateur en tant qu'imagé en 3 dimensions. Parmi les techniques de transformation d’images 2D en représentation 3D, la stéréoscopie peut par exemple être utilisée par obtention de deux images capturées sous des angles légèrement différents comme illustré dans la partie gauche de figure 6. A partir d’un smartphone, une capture stéréoscopique, c’est-à-dire une capture simultanée de deux flux audiovisuels représentant une même scène (ici un utilisateur), est réalisée par l’intermédiaire de deux caméras relié au smartphone : une caméra frontale 120 surmontée d’un système périscopique permettant l’orientation de la captation vers l’utilisateur et une autre caméra 122 branchée par exemple sur le port USB du terminal 110 et orientée vers l’utilisateur. Les capteurs de profondeur comme des caméras LiDAR et/ou ToF peuvent aussi être utilisées pour fournir des mesures directes qui, associées à une image en 2D, permettent une construction d’un modèle 3D basé sur l’image. Les réseaux de neurones convolutifs peuvent également être entraînés pour estimer la profondeur à partir d'une image unique, tandis que les techniques de suivi de caractéristiques et de reconstruction basées sur le mouvement analysent le déplacement des points d'intérêt pour modéliser la scène en 3D. Par exemple, les champs de radiance neuronale (Neural Radiance Fields ou NeRFs en anglais) peuvent également être utilisés pour modéliser avec précision les interactions lumineuses dans une scène tridimensionnelle. En entraînant un réseau de neurones avec un ensemble d'images 2D prises sous différents angles, les NeRFs apprennent à synthétiser de nouvelles vues de la scène, offrant une perception de profondeur et de volume.As illustrated in Figure 3, the method 300 may comprise a spatialization 330 of at least one detected object. By spatialization of an image or portion of an image (such as an object of interest), we mean a transformation of at least one image, respectively the portion of the image considered, into a three-dimensional representation (or spatialized image) which can thus be perceived by a user as a 3-dimensional image. Among the techniques for transforming 2D images into a three-dimensional representation 3D, stereoscopy can for example be used by obtaining two images captured from slightly different angles as illustrated in the left part of figure 6. From a smartphone, a stereoscopic capture, that is to say a simultaneous capture of two audiovisual streams representing the same scene (here a user), is carried out by means of two cameras connected to the smartphone: a front camera 120 surmounted by a periscopic system allowing the orientation of the capture towards the user and another camera 122 connected for example to the USB port of the terminal 110 and oriented towards the user. Depth sensors such as LiDAR and/or ToF cameras can also be used to provide direct measurements which, associated with a 2D image, allow construction of a 3D model based on the image. Convolutional neural networks can also be trained to estimate depth from a single image, while feature tracking and motion-based reconstruction techniques analyze the displacement of interest points to model the 3D scene. For example, Neural Radiance Fields (NeRFs) can also be used to accurately model light interactions in a three-dimensional scene. By training a neural network with a set of 2D images taken from different angles, NeRFs learn to synthesize new views of the scene, providing depth and volume perception.

Comme illustré en figure 4, dans un mode de réalisation, la spatialisation 330, effectuée par un dispositif 200 D1 d’un objet d'intérêt détecté 320 dans un flux audiovisuel obtenu 310 depuis un utilisateur U1 en amont, peut comprendre une sélection 332 d’un objet visuel en tenant compte des caractéristiques de l’objet d’intérêt considéré. Par exemple, si le système détecte un visage comme objet d'intérêt, l’objet visuel sélectionné peut être un modèle 3D d'un visage. Il peut s’agir par exemple d’un avatar, dont au moins certaines caractéristiques correspondent à des caractéristiques visuelles de l’objet d’intérêt détecté, telles que la forme du visage, la position des yeux, du nez et de la bouche, de façon à créer une représentation volumétrique correspondant au moins partiellement au visage détectérAs illustrated in Figure 4, in one embodiment, the spatialization 330, performed by a device 200 D1 of a detected object of interest 320 in an audiovisual stream obtained 310 from an upstream user U1, may comprise a selection 332 of a visual object taking into account the characteristics of the object of interest considered. For example, if the system detects a face as an object of interest, the selected visual object may be a 3D model of a face. It may for example be an avatar, at least some characteristics of which correspond to visual characteristics of the detected object of interest, such as the shape of the face, the position of the eyes, the nose and the mouth, so as to create a volumetric representation corresponding at least partially to the detected face.

Le procédé peut comprendre une substitution 334 où, suite à la sélection d'un modèle 3D, l'objet d'intérêt est remplacé dans l'image par un objet correspondant à ce modèle. Cette substitution peut se baser par exemple sur des informations de profondeur préalablement obtenues 310 par un capteur LiDAR ou par l'application de techniques de reconstruction 3D. Cette étape peut également nécessiter par exemple l'estimation de la géométrie de l'objet sous différents angles ou l'exploitation des données de profondeur issues des capteurs mentionnés.The method may comprise a substitution 334 where, following the selection of a 3D model, the object of interest is replaced in the image by an object corresponding to this model. This substitution may be based for example on depth information previously obtained 310 by a LiDAR sensor or by the application of 3D reconstruction techniques. This step may also require for example the estimation of the geometry of the object from different angles or the exploitation of depth data from the sensors mentioned.

L’objet d’intérêt peut également être remplacé par un modèle 3D suite à une capture de la représentation volumétrique de l’objet d’intérêt. Lors de la spatialisation de l'objet d'intérêt, le procédé peut également inclure un traitement de la composante audio du flux audiovisuel pour créer une expérience immersive cohérente avec l’image spatialisée. Ce traitement peut comprendre, dans des modes de réalisation où le flux audiovisuel obtenu a une composante audio, un ajustement du son capturé de façon à qu'il corresponde à la position spatiale de l'objet dans l'environnement virtuel ou réel, créant ainsi une cohérence entre l'audio et le visuel. En fonction de la position et/ou de l'orientation de l'objet d'intérêt détecté, le son peut être modifié pour refléter sa position dans l'espace. Par exemple, si l'objet se déplace vers la gauche de l'écran, le son sera également déplacé vers la gauche dans le mixage audio. Par exemple, le procédé peut permettre d’améliorer la perception du contexte d’une scène comportant plusieurs objets et/ou personnes.The object of interest can also be replaced by a 3D model following a capture of the volumetric representation of the object of interest. When spatializing the object of interest, the method may also include processing the audio component of the audiovisual stream to create an immersive experience consistent with the spatialized image. This processing may include, in embodiments where the resulting audiovisual stream has an audio component, adjusting the captured sound to match the spatial position of the object in the virtual or real environment, thereby creating consistency between the audio and the visual. Depending on the position and/or orientation of the detected object of interest, the sound may be modified to reflect its position in space. For example, if the object moves to the left of the screen, the sound will also be moved to the left in the audio mix. For example, the method may improve the perception of the context of a scene comprising multiple objects and/or people.

Dans certains modes de réalisation, le procédé peut comprendre un rendu 340 d’une ou plusieurs images spatialisées, i.e. une restitution d’une représentation volumétrique d’au moins un objet d’intérêt. Le rendu peut être effectué sur le dispositif 200, par exemple le dispositif D1 dans la figure 4 qui peut être un terminal comme un smartphone ou une tablette. L’utilisateur U1 de ce dispositif peut ainsi visualiser de manière tridimensionnelle une scène contenant un ou plusieurs objet d’intérêt issus de la capture au travers d’un dispositif d’affichage comme les dispositifs 130 ou 131 de la figure 1 .In certain embodiments, the method may comprise a rendering 340 of one or more spatialized images, i.e. a restitution of a volumetric representation of at least one object of interest. The rendering may be carried out on the device 200, for example the device D1 in FIG. 4 which may be a terminal such as a smartphone or a tablet. The user U1 of this device can thus view in three-dimensional manner a scene containing one or more objects of interest resulting from the capture through a display device such as the devices 130 or 131 of FIG. 1.

Le rendu 340 peut être optionnel dans certains modes de réalisation, comme par exemple lorsque le procédé comprend (ou précède) une transmission d’au moins une image spatialisée à un autre dispositif, ou lorsque le rendu est effectué en différé (par exemple lors d’une demande ultérieure d’un utilisateur).Rendering 340 may be optional in certain embodiments, such as when the method comprises (or precedes) a transmission of at least one spatialized image to another device, or when rendering is performed later (for example upon a subsequent request from a user).

On note que, dans certains modes de réalisation, le procédé 300 peut comprendre un traitement de l’objet visuel sélectionné, effectué par exemple en amont et/ou lors de la spatialisation 330 pour produire un rendu volumétrique. Le rendu volumétrique fait référence à la création d’une représentation en trois dimensions qui simule la profondeur et le volume d’un objet, aidant ainsi à une perception plus réaliste par l’utilisateur. Dans certains modes de réalisation, le procédé peut inclure un ajout d'effets de lumière, d'ombres et/ou de textures pour améliorer le réalisme de la représentation spatiale par exemple.It is noted that, in certain embodiments, the method 300 may comprise processing of the selected visual object, carried out for example upstream and/or during the spatialization 330 to produce a volumetric rendering. Volumetric rendering refers to the creation of a three-dimensional representation which simulates the depth and volume of an object, thus aiding a more realistic perception by the user. In certain embodiments, the method may include adding lighting effects, shadows and/or textures to improve the realism of the spatial representation for example.

Dans au moins un mode de réalisation, le rendu 340 peut tenir compte du contexte volumétrique de capture de flux audiovisuel. Par exemple, le rendu peut tenir compte d’informations spatiales et de profondeur obtenues lors de la prise de vue avec un équipement de capture volumétrique comme un LiDAR et/ou ToF. Lors de la capture, l’équipement de capture volumétrique peut par exemple mesurer la distance entre l'équipement de capture volumétrique et les objets dans la scène. Ces données de profondeur peuvent ensuite être synchronisées avec les images 2D capturées pour créer un modèle 3D de la scène et peuvent permettre lors du rendu d’appliquer des effets de lumière, d'ombres et de textures pour augmenter le réalisme de la scène 3D. Il peut aussi s’agir de tenir compte de la position, l'intensité et/ou la couleur des sources de lumière dans une scène pour créer des effets d'éclairage. Au moins certaines des informations spatiales peuvent être représentatives d’une position de l’objet d’intérêt ainsi, optionnellement, qu’à une évolution de cette position dans le temps. Dans de tels modes de réalisation, les objets statiques peuvent par exemple nécessiter moins de ressources de calcul pour le rendu que les objets en mouvement, permettant ainsi une optimisation des performances du dispositif 200 en fonction de l'état de l'objet d’intérêt.In at least one embodiment, the rendering 340 may take into account the volumetric context of audiovisual stream capture. For example, the rendering may take into account spatial and depth information obtained during shooting with volumetric capture equipment such as a LiDAR and/or ToF. During capture, the volumetric capture equipment may, for example, measure the distance between the volumetric capture equipment and objects in the scene. This depth data may then be synchronized with the captured 2D images to create a 3D model of the scene and may allow, during rendering, the application of lighting, shadow and texture effects. to increase the realism of the 3D scene. It may also involve taking into account the position, intensity and/or color of light sources in a scene to create lighting effects. At least some of the spatial information may be representative of a position of the object of interest as well as, optionally, an evolution of this position over time. In such embodiments, static objects may for example require fewer computing resources for rendering than moving objects, thus allowing optimization of the performance of the device 200 depending on the state of the object of interest.

Ainsi, dans certains modes de réalisation, le rendu 340 peut utiliser non seulement les données visuelles, mais aussi des données tridimensionnelles pour créer une image qui reflète le volume et la structure de l’objet d’intérêt. Par exemple, le procédé peut être appliqué à une capture d'une scène pour une application de réalité augmentée, le contexte volumétrique pouvant alors être utilisé pour placer des objets virtuels de manière cohérente avec l'environnement physique.Thus, in some embodiments, the rendering 340 may use not only the visual data, but also three-dimensional data to create an image that reflects the volume and structure of the object of interest. For example, the method may be applied to a capture of a scene for an augmented reality application, where the volumetric context may then be used to place virtual objects consistently with the physical environment.

Dans certains modes de réalisation, une fois la spatialisation d’image effectuée, comme illustré en figure 4, le procédé 300 peut comprendre une pluralité de rendus 340 de l’image spatialisée sur une même fenêtre temporelle. Par exemple, le procédé peut comprendre une création de plusieurs copies d'une même image spatialisée et un affichage conjoint de l’image spatialisée et de ses copies.In some embodiments, once the image spatialization has been performed, as illustrated in FIG. 4, the method 300 may comprise a plurality of renderings 340 of the spatialized image over a same time window. For example, the method may comprise creating multiple copies of a same spatialized image and jointly displaying the spatialized image and its copies.

Dans la suite de la demande, nous désignerons par flux audiovisuel spatialisé un flux audiovisuel contenant au moins une image spatialisée.In the remainder of the application, we will designate by spatialized audiovisual stream an audiovisual stream containing at least one spatialized image.

Comme illustré en figure 4, le procédé 300 peut comprendre une adaptation dynamique 342 de paramètres graphiques et/ou audio lors du rendu du flux audiovisuel spatialisé. L’adaptation dynamique comprend par exemple une modification au fil de l’eau des paramètres graphiques en réponse aux variations des conditions de visualisation ou aux changements dans le contenu du flux. Elle peut s’appliquer selon les modes de réalisation, au flux dans son ensemble, y compris les séquences d’images et/ou de son, à une portion spécifique d’une image et/ou d’une piste audio, ou à une combinaison des deux.As illustrated in Figure 4, the method 300 may comprise a dynamic adaptation 342 of graphic and/or audio parameters during the rendering of the spatialized audiovisual stream. The dynamic adaptation comprises, for example, an ongoing modification of the graphic parameters in response to variations in viewing conditions or changes in the content of the stream. It may apply, depending on the embodiments, to the stream as a whole, including the sequences of images and/or sound, to a specific portion of an image and/or an audio track, or to a combination of the two.

L'adaptation des paramètres audio peut par exemple inclure un ajustement du volume, de l'égalisation ou de la spatialisation sonore pour assurer une cohérence avec l'image spatialisée et améliorer l'immersion de l'utilisateur. Par exemple, dans un environnement bruyant, le procédé peut augmenter le volume des dialogues tout en réduisant les bruits de fond, ou ajuster la direction d'où provient le son pour correspondre à la position des objets à l'écran.Adapting audio settings can, for example, include adjusting volume, equalization, or sound spatialization to ensure consistency with the spatialized image and improve user immersion. For example, in a noisy environment, the method can increase the volume of dialogue while reducing background noise, or adjust the direction from which the sound comes to correspond to the position of objects on the screen.

Des exemples de paramètres graphiques d'une image incluent, mais ne se limitent pas à, des paramètres relatifs à : - la résolution d'une image, qui peut être définie par le nombre de pixels en largeur et en hauteur. Plus la résolution est élevée, plus l’image contient de détailsExamples of graphics settings for an image include, but are not limited to, settings related to: - the resolution of an image, which can be defined by the number of pixels in width and height. The higher the resolution, the more detail the image contains

- la fréquence de rafraîchissement qui exprime le nombre de fois qu'une image est actualisée à l'écran par seconde, mesurée par exemple en hertz (Hz). Une fréquence de rafraîchissement plus élevée peut aider à rendre le mouvement plus fluide et réduire la fatigue oculaire.- the refresh rate, which expresses the number of times an image is updated on the screen per second, measured for example in hertz (Hz). A higher refresh rate can help make movement smoother and reduce eye strain.

- le contraste, qui peut être défini comme le rapport entre les parties les plus claires et les plus sombres d'une image. Un contraste élevé peut aider à rendre plus faciles à distinguer les éléments de l'image.- contrast, which can be defined as the ratio between the lightest and darkest parts of an image. High contrast can help make elements in the image easier to distinguish.

- la luminosité, qui fait référence à l'intensité de la lumière émise ou reflétée par l'image. Ajuster la luminosité peut aider à rendre l'image plus visible selon l'éclairage ambiant.- brightness, which refers to the intensity of light emitted or reflected by the image. Adjusting brightness can help make the image more visible depending on the ambient lighting.

- la balance des blancs, qui ajuste la reproduction des couleurs pour que les objets qui sont blancs dans la réalité soient rendus blancs sur l'image. La température de couleur de l'image et son rendu global peuvent ainsi être adaptés selon la balance des blancs.- white balance, which adjusts color reproduction so that objects that are white in reality appear white in the image. The color temperature of the image and its overall rendering can thus be adapted according to the white balance.

- la netteté, qui permet d’améliorer la clarté des détails d'une image. Un réglage de netteté approprié permet ainsi de distinguer plus facilement les textures et les contours.- sharpness, which improves the clarity of details in an image. An appropriate sharpness setting makes it easier to distinguish textures and contours.

Dans certains modes de réalisation, en ajustant ces paramètres graphiques de manière séparée ou en combinaison, le procédé 300 peut aider à contrôler l'utilisation de la bande passante nécessaire pour transmettre une image ou une vidéo, ce qui peut être avantageux dans des environnements avec des connexions Internet limitées ou instables. Par exemple, réduire la résolution d'une image diminue le nombre de pixels à transmettre, ce qui contribue à réduire la taille des données et donc la bande passante nécessaire pour l'émission ou la transmission de l'image. De même, l’ajustement de la fréquence de rafraîchissement d’un flux audiovisuel impacte le nombre d’images transmises par seconde. Par exemple, une diminution de la fréquence de rafraîchissement peut aider à diminuer la quantité de données à envoyer et de l’adapter à la capacité de sa connexion réseau. Cet ajustement peut également aider à maintenir la fluidité du flux audiovisuel et à assurer la synchronisation entre les composantes audio et vidéo, en fonction des performances du dispositif 200.In some embodiments, by adjusting these graphics parameters separately or in combination, the method 300 can help control the use of bandwidth required to transmit an image or video, which can be advantageous in environments with limited or unstable internet connections. For example, reducing the resolution of an image decreases the number of pixels to be transmitted, which helps reduce the data size and therefore the bandwidth required to transmit or transmit the image. Similarly, adjusting the refresh rate of an audiovisual stream impacts the number of images transmitted per second. For example, decreasing the refresh rate can help reduce the amount of data to be sent and adapt it to the capacity of its network connection. This adjustment can also help maintain the fluidity of the audiovisual stream and ensure synchronization between the audio and video components, depending on the performance of the device 200.

Dans certains modes de réalisation, le procédé peut comprendre une adaptation dynamique de la luminosité et/ou du contraste du rendu de l’image spatialisée en lien avec la luminosité ambiante de l’environnement dans lequel se situe le dispositif.In some embodiments, the method may include dynamic adaptation of the brightness and/or contrast of the rendering of the spatialized image in relation to the ambient brightness of the environment in which the device is located.

Il peut s’agir par exemple de modes de réalisation où l’obtention d’un flux audiovisuel, selon le procédé, est mise en œuvre dans un endroit de faible luminosité ambiante. Une augmentation de luminosité du rendu et un ajustement de son contraste peut par exemple être réalisé selon le procédé pour améliorer la visibilité de l’image spatialisée pour un utilisateur. A l’inverse, dans certains modes de réalisation, le procédé peut comprendre une diminution de la luminosité du rendu, notamment des situations où celle- ci n’altère pas significativement la qualité de l'image perçue.These may be, for example, embodiments where obtaining an audiovisual stream, according to the method, is implemented in a location with low ambient light. An increase in the brightness of the rendering and an adjustment of its contrast may, for example, be carried out according to the method to improve the visibility of the spatialized image for a user. Conversely, in certain embodiments, the method may include a reduction in the brightness of the rendering, in particular situations where this does not significantly alter the quality of the perceived image.

Dans certains modes de réalisation, l'adaptation peut cibler une portion spécifique de l'image spatialisée. Par exemple, si une zone de l'image nécessite une attention particulière, comme un visage, les paramètres graphiques de cette zone peuvent être ajustés indépendamment du reste de l'image pour en améliorer la clarté et/ou l'éclairage.In some embodiments, the adaptation may target a specific portion of the spatialized image. For example, if an area of the image requires special attention, such as a face, the graphics parameters of that area may be adjusted independently of the rest of the image to improve clarity and/or lighting.

Le fait que l’adaptation soit réalisée de façon continue peut aider à un ajustement des paramètres graphiques de l’image au fil de l’eau, dès le premier rendu. Dans certains modes de réalisation, le procédé peut comprendre une capture opto-numérique du rendu (i.e. de la représentation volumétrique), de façon par exemple à permettre de détecter les écarts entre l’image projetée et la manière dont elle est perçue sur le dispositif de rendu. Par exemple, le procédé peut comprendre dans certains modes de réalisation, une modification de l’image source obtenue 310 tenant compte de ces informations de retour (« feedback » en anglais). De tels modes de réalisation peuvent aider à compenser par exemple des effets de perspective, des déformations optiques ou des variations liées auxdits paramètres graphiques qui pourraient affecter la qualité de la visualisation. Par exemple, le dispositif de capture du rendu peut correspondre au dispositif de capture qui a servi pour obtenir l’image dans l’étape d’obtention 310 du flux audiovisuel. En variante, des moyens de capture sont intégrés ou coopèrent avec le dispositif de restitution.The fact that the adaptation is carried out continuously can help to adjust the graphic parameters of the image over time, from the first rendering. In certain embodiments, the method can comprise an opto-digital capture of the rendering (i.e. of the volumetric representation), so as, for example, to make it possible to detect the differences between the projected image and the way in which it is perceived on the rendering device. For example, the method can comprise, in certain embodiments, a modification of the source image obtained 310 taking into account this feedback information. Such embodiments can help to compensate, for example, perspective effects, optical deformations or variations linked to said graphic parameters which could affect the quality of the visualization. For example, the rendering capture device can correspond to the capture device which was used to obtain the image in the step 310 of obtaining the audiovisual stream. Alternatively, capture means are integrated or cooperate with the rendering device.

Selon un exemple, dans des modes de réalisation où l'image de l’utilisateur est projetée de manière volumétrique à l’aide du procédé, si le dispositif de capture du rendu capte une image projetée et détecte que ses couleurs sont délavées en raison de l'éclairage ambiant, une boucle de réaction peut être mise en place. Le procédé pourra ajuster alors automatiquement la balance des blancs et/ou la luminosité pour compenser les effets de l'éclairage et améliorer la fidélité des couleurs.In one example, in embodiments where the user's image is volumetrically projected using the method, if the rendering capture device captures a projected image and detects that its colors are washed out due to ambient lighting, a feedback loop may be implemented. The method may then automatically adjust the white balance and/or brightness to compensate for the effects of lighting and improve color fidelity.

De même, selon un autre exemple, si l'image projetée apparaît floue ou si des détails sont perdus en raison d'une résolution inadéquate, le procédé peut par exemple permettre d’augmenter dynamiquement la netteté et d’ajuster la résolution pour que les détails soient plus clairs et précis.Similarly, in another example, if the projected image appears blurry or details are lost due to inadequate resolution, the method may, for example, dynamically increase sharpness and adjust resolution so that details are clearer and more precise.

L’adaptation dynamique 342 des paramètres graphiques peut par exemple être utile dans des environnements où les conditions de visualisation changent fréquemment, où la luminosité et le contraste peuvent nécessiter des ajustements constants pour maintenir la lisibilité de l'image face aux changements de lumière naturelle ou artificielle. Ainsi, l’adaptation dynamique 342 peut aider à maintenir la qualité de l'image au fil de l’eau, en ajustant les paramètres graphiques en fonction des retours continus obtenus par la surveillance de l'image rendue. Dans certains modes de réalisation, le procédé peut inclure également un suivi (continu ou intermittent (périodique par exemple)) du contexte physique dans lequel se trouve le dispositif utilisateur. Le suivi peut comprendre par exemple une capture des valeurs courantes de données ambiantes telles que la luminosité, le contraste et la température de couleur. Ces données peuvent être utilisées, dans certains modes de réalisation, pour adapter dynamiquement les paramètres graphiques de l'image spatialisée, afin d’aider à améliorer la visibilité de l'image en fonction de l'environnement immédiat de l'utilisateur. Optionnellement, cette adaptation peut également prendre en compte les caractéristiques spécifiques de l’équipement de restitution utilisé, telles que sa résolution, sa fréquence de rafraîchissement et ses capacités de contraste, pour aider à améliorer l’intégration de l’image spatialisée dans le rendu.Dynamic adaptation 342 of graphics settings may, for example, be useful in environments where viewing conditions change frequently, where brightness and contrast may require constant adjustments to maintain image readability in the face of changes in natural or artificial light. Thus, dynamic adaptation 342 may help maintain image quality over time by adjusting graphics settings based on continuous feedback obtained by monitoring the rendered image. In some embodiments, the method may also include tracking (continuously or intermittently (periodically for example)) the physical context in which the user device is located. The tracking may include, for example, capturing current values of ambient data such as brightness, contrast, and color temperature. This data may be used, in some embodiments, to dynamically adapt the graphics parameters of the spatialized image, in order to help improve the visibility of the image based on the immediate environment of the user. Optionally, this adaptation may also take into account the specific characteristics of the rendering equipment used, such as its resolution, refresh rate, and contrast capabilities, to help improve the integration of the spatialized image into the rendering.

Dans certains modes de réalisation, l’adaptation dynamique 342 peut aussi tenir compte de l’objet visuel sélectionné 332 lors de la spatialisation 330. Dans de tels modes de réalisation, le procédé 300 peut comprendre un ajustement de paramètres graphiques en fonction de l’objet visuel, ce qui peut aider à adapter les performances de rendu, en allouant par exemple des ressources du dispositif 200 de manière plus efficace pour maintenir une qualité d’image élevée sans surcharger le dispositif intégrant le procédé. Cette approche peut permettre, dans certains modes de réalisation, une personnalisation du rendu, en adaptant non seulement l’apparence de l’objet visuel mais aussi son rendu en fonction des préférences et des besoins de l’utilisateur. Par exemple, dans certains modes de réalisation, lors d'une visioconférence où des intervenants s'expriment à distance, le procédé peut adapter la netteté, la luminosité et le contraste de l'avatar (i.e. l’objet visuel) ou de l'image spatialisée d’au moins un intervenant. De tels modes de réalisation peuvent à aider à s'assurer que leur représentation est claire et cohérente avec leur expression corporelle réelle, améliorant ainsi potentiellement la qualité de la communication. Il peut aussi s’agir par exemple d’un ajustement dynamique des paramètres graphiques pour mettre en évidence des avatars ou des objets spatialisés qui pourraient être activement utilisés ou manipulés par les utilisateurs en fonction de leurs expressions corporelles.In some embodiments, the dynamic adaptation 342 may also take into account the selected visual object 332 during the spatialization 330. In such embodiments, the method 300 may include an adjustment of graphics parameters based on the visual object, which may help adapt the rendering performance, for example by allocating resources of the device 200 more efficiently to maintain high image quality without overloading the device integrating the method. This approach may allow, in some embodiments, a customization of the rendering, by adapting not only the appearance of the visual object but also its rendering according to the preferences and needs of the user. For example, in some embodiments, during a videoconference where speakers speak remotely, the method may adapt the sharpness, brightness and contrast of the avatar (i.e. the visual object) or the spatialized image of at least one speaker. Such embodiments can help ensure that their representation is clear and consistent with their actual bodily expression, thereby potentially improving the quality of communication. Examples include dynamic adjustment of graphical parameters to highlight avatars or spatialized objects that could be actively used or manipulated by users based on their bodily expressions.

Dans certains modes de réalisation, le procédé 300 peut comprendre une émission 350 du flux audiovisuel spatialisé. Par exemple, en liaison avec les figures 1 et 4, si le dispositif 200 D1 est un terminal connecté, le flux contenant au moins une image spatialisée de l'utilisateur 101 U1 peut être émis depuis son smartphone via un réseau 140. Il peut aussi s’agir d’un serveur réseau 115 qui, après avoir traité un flux audiovisuel à l’aide du procédé, émet un flux spatialisé via ledit réseau 140.In certain embodiments, the method 300 may comprise a transmission 350 of the spatialized audiovisual stream. For example, in connection with FIGS. 1 and 4, if the device 200 D1 is a connected terminal, the stream containing at least one spatialized image of the user 101 U1 may be transmitted from his smartphone via a network 140. It may also be a network server 115 which, after having processed an audiovisual stream using the method, transmits a spatialized stream via said network 140.

Le flux audiovisuel spatialisé ainsi émis (issu du dispositif de traitement) peut être reçu par un dispositif récepteur. Le dispositif récepteur peut être un dispositif D2 adapté à un rendu du flux reçu (comme un dispositif mettant en œuvre le procédé de restitution de la présente demande) comme illustré en figureThe spatialized audiovisual stream thus emitted (from the processing device) can be received by a receiving device. The receiving device can be a D2 device adapted to rendering the received stream (such as a device implementing the rendering method of the present application) as illustrated in figure

4 ou un serveur. Dans certains modes de réalisation, le procédé peut comprendre un rendu 340 du flux audiovisuel spatialisé sur le dispositif 200 (si ledit dispositif 200 est un terminal connecté 160 comme un smartphone par exemple).4 or a server. In certain embodiments, the method may comprise a rendering 340 of the spatialized audiovisual stream on the device 200 (if said device 200 is a connected terminal 160 such as a smartphone for example).

On note que dans certains modes de réalisation, le procédé peut être mis en œuvre au moins partiellement par un dispositif 200 correspondant à un serveur, comme le serveur 115 de la figure 1. Ainsi, un tel serveur peut être configuré pour mettre en œuvre le procédé 300 de manière à centraliser le traitement d’au moins un flux audiovisuel reçu selon le procédé de la présente demande. Par exemple, le procédé peut comprendre une réception 360 d’images et/ou de vidéos provenant de terminaux (110, 150). Cette centralisation peut permettre d'optimiser les ressources de traitement en concentrant les opérations complexes et gourmandes en calcul sur un équipement dédié 115, capable de gérer de grandes quantités de données. Dans de tels modes de réalisation, certains dispositifs (110, 111) peuvent par exemple implémenter certaines étapes du procédé, telle que la capture locale ou le rendu final du flux audiovisuel spatialisé, tout en bénéficiant des capacités de traitement du serveur 115 (qui implémentera certaines étapes du procédé).It is noted that in certain embodiments, the method can be implemented at least partially by a device 200 corresponding to a server, such as the server 115 of FIG. 1. Thus, such a server can be configured to implement the method 300 so as to centralize the processing of at least one audiovisual stream received according to the method of the present application. For example, the method can comprise a 360 reception of images and/or videos from terminals (110, 150). This centralization can make it possible to optimize the processing resources by concentrating the complex and computationally intensive operations on dedicated equipment 115, capable of managing large quantities of data. In such embodiments, certain devices (110, 111) can for example implement certain steps of the method, such as the local capture or the final rendering of the spatialized audiovisual stream, while benefiting from the processing capabilities of the server 115 (which will implement certain steps of the method).

Selon un autre exemple, le procédé mis en œuvre sur le serveur peut comprendre une réception 360 d’au moins un flux audiovisuel déjà spatialisé relativement à un premier objet d’intérêt (et provenant d’un dispositif implémentant le procédé de traitement de la présente demande) mais dont un complément de spatialisation relativement à un deuxième objet d’intérêt peut être réalisé sur le serveur 115.According to another example, the method implemented on the server may comprise a 360 reception of at least one audiovisual stream already spatialized relative to a first object of interest (and originating from a device implementing the processing method of the present application) but of which a further spatialization relative to a second object of interest may be carried out on the server 115.

Une mise en œuvre du procédé de façon non distribuée peut aider à simplifier la mise à jour d’une application informatique implémentant le procédé.Implementing the method in a non-distributed manner can help simplify the updating of a computer application implementing the method.

Dans certains modes de réalisation, le procédé peut être mis en œuvre lors d'une visioconférence. Par exemple, le procédé peut être mis en œuvre au moins partiellement sur un serveur intégrant des fonctionnalités de pont de vidéoconférence, pour traiter des flux audiovisuels des participants de manière séparées ou combinées.In some embodiments, the method may be implemented during a video conference. For example, the method may be implemented at least partially on a server integrating video conference bridge functionality, to process audiovisual streams of the participants separately or in combination.

Ainsi, le procédé peut être mis en œuvre par un premier dispositif 200 pendant une session de communication avec au moins un second dispositif 200. Par exemple, comme illustré dans la figure 5, dans le cas d'une télécommunication entre deux utilisateurs 101 et 102 équipés chacun d'un dispositif 200 de traitement de flux audiovisuel 110, respectivement 111 , une représentation volumétrique des utilisateurs peut être affichée de manière conjointe sur les équipements de restitution 130 et 131 .Thus, the method can be implemented by a first device 200 during a communication session with at least one second device 200. For example, as illustrated in FIG. 5, in the case of a telecommunication between two users 101 and 102 each equipped with a device 200 for processing audiovisual streams 110, respectively 111, a volumetric representation of the users can be displayed jointly on the rendering equipment 130 and 131.

Le procédé de la présente demande peut également aider, dans au moins certains de modes de réalisations, à mieux évaluer la communication non verbale des participants en détectant les expressions corporelles d’un utilisateur et en sélectionnant ou en créant un avatar 3D qui reproduit fidèlement ces expressions. Lors par exemple d'une réunion en visioconférence, le procédé peut permettre d’obtenir une image du participant afin de détecter son visage ou son corps entier comme objet d'intérêt en tenant compte du contexte volumétrique de capture (par exemple, la position du participant dans la pièce et la distance par rapport à la caméra). Le procédé peut détecter le visage d'un participant et sélectionner un avatar 3D qui correspond à ses caractéristiques (comme la coiffure, la forme du visage, ou même l'expression). L'avatar personnalisé est ensuite substitué à l'image réelle du participant, permettant une représentation personnalisée de participant dans l'environnement de visioconférence. Cela peut aussi être le cas d’un visage lors d’une visioconférence où, via l’étape de spatialisation, le procédé peut créer un modèle tridimensionnel du visage qui peut ensuite être orienté dans n'importe quelle direction souhaitée. Cela permettrait, par exemple, de présenter le visage de l'interlocuteur face à la caméra, même si la personne est physiquement tournée sur le côté, améliorant ainsi l'engagement et le contact visuel pendant une visioconférence. Cette capacité d'ajuster l'orientation d'un visage capturé est particulièrement utile dans les situations où le maintien du contact visuel est important pour la communication, comme dans les réunions professionnelles. Le procédé de la présente demande peut ainsi aider, dans au moins certains de modes de réalisations, à une expérience de communication plus naturelle et efficace, en simulant une présence face à face des participants.The method of the present application may also assist, in at least some embodiments, in better assessing the nonverbal communication of participants by detecting a user's body expressions and selecting or creating a 3D avatar that faithfully reproduces these expressions. For example, during a videoconference meeting, the method may enable obtaining an image of the participant in order to detect their face or entire body as an object of interest by taking into account the volumetric context of capture (e.g., the participant's position in the room and the distance from the camera). The method can detect a participant's face and select a 3D avatar that matches their characteristics (such as hairstyle, face shape, or even expression). The personalized avatar is then substituted for the participant's real image, allowing for a personalized representation of the participant in the videoconferencing environment. This can also be the case for a face during a videoconference where, via the spatialization step, the method can create a three-dimensional model of the face that can then be oriented in any desired direction. This would, for example, allow the face of the interlocutor to be presented facing the camera, even if the person is physically turned to the side, thus improving engagement and eye contact during a videoconference. This ability to adjust the orientation of a captured face is particularly useful in situations where maintaining eye contact is important for communication, such as in business meetings. The method of the present application may thus assist, in at least some embodiments, in a more natural and effective communication experience, by simulating a face-to-face presence of the participants.

Le procédé de la présente demande peut aider, dans au moins certains de modes de réalisations, à améliorer l’interprétation par un utilisateur d’une scène en améliorant la netteté d'un objet d'intérêt telle qu’un visage qui serait initialement flou via la capture, en le reconstruisant en trois dimensions de manière partielle ou totale pour en augmenter la précision. Le rendu peut aussi par exemple comprendre une application d’effets visuels à l’image spatialisée tels que l'augmentation du contraste, la saturation des couleurs et/ou l'application d'un contour lumineux autour des objets d'intérêt pour les rendre plus visibles et les distinguer du reste de la scène. Cela peut aussi être le cas par exemple, lors d’une présentation à distance, où un tableau blanc peut être détecté comme un objet d'intérêt par le procédé. L’ajustement automatique de la luminosité et du contraste peut par exemple être réalisé pour que les annotations du tableau soient clairement visibles par tous les participants. Le procédé peut également aider à adapter la netteté et/ou la résolution de graphique, par exemple, pour une meilleure interprétation par les participants. Il peut aussi s’agir d’une présentation en ligne où le procédé peut permettre de détecter un produit tenu par le présentateur et le substituer par un modèle 3D interactif de meilleure qualité. Les participants peuvent alors visualiser le produit sous différents angles ou avec différentes configurations, améliorant ainsi l'expérience de présentation. Dans une réunion axée sur l'analyse de données, le procédé peut détecter comme objets d’intérêt des graphiques ou des tableaux présentés par les participants et les substituer par des visualisations volumétriques interactives, permettant aux participants de manipuler et d'examiner les données de manière plus intuitive. Si un participant montre un objet physique comme un prototype de produit, le procédé peut rendre une version spatialisée de cet objet qui tient compte de sa position et de sa taille réelles, permettant aux autres participants de voir l'objet comme s'il était présent sur leur propre bureau.The method of the present application may help, in at least some embodiments, to improve a user's interpretation of a scene by improving the sharpness of an object of interest such as a face that would initially be blurred via capture, by reconstructing it in three dimensions in part or in full to increase its accuracy. The rendering may also, for example, include an application of visual effects to the spatialized image such as increasing contrast, color saturation and/or applying a luminous outline around the objects of interest to make them more visible and distinguish them from the rest of the scene. This may also be the case, for example, during a remote presentation, where a whiteboard may be detected as an object of interest by the method. Automatic adjustment of brightness and contrast may, for example, be performed so that the annotations on the board are clearly visible to all participants. The method may also help to adapt the sharpness and/or the resolution of graphics, for example, for better interpretation by the participants. It can also be an online presentation where the process can detect a product held by the presenter and substitute it with a higher quality interactive 3D model. Participants can then view the product from different angles or with different configurations, thus improving the presentation experience. In a meeting focused on data analysis, the process can detect graphs or charts presented by participants as objects of interest and substitute them with interactive volumetric visualizations, allowing participants to manipulate and examine data more intuitively. If a participant shows a physical object such as a product prototype, the process can render a spatialized version of that object that takes into account its actual position and size, allowing other participants to see the object as if it were present on their own desktop.

Le procédé de la présente demande peut aider, dans au moins certains modes de réalisation, à faciliter la visualisation du rendu en fonction des spécificités d’un équipement de restitution comme dans le cas d’un équipement exigeant d’avoir des rendus multiples et simultanés. Deux exemples sont illustrés en figure 6 . A gauche de la figure 6, 4 images spatialisées identiques sont rendues simultanément sur l’écran d’affichage du terminal et par réflexion en utilisant le principe du fantôme de Pepper, sur les quatre faces d'une pyramide inversée tronquée transparente (130, 131 ) produisant ainsi une unique image perçue comme tridimensionnelle. A droite de la figure 6, la même image spatialisée est rendue simultanément sur 4 tablettes disposées autour d’une pyramide inversée tronquée transparente reproduisant l’image perçue comme tridimensionnelle.The method of the present application can help, in at least certain embodiments, to facilitate the visualization of the rendering according to the specificities of a rendering equipment as in the case of equipment requiring multiple and simultaneous renderings. Two examples are illustrated in Figure 6. On the left of Figure 6, 4 identical spatialized images are rendered simultaneously on the display screen of the terminal and by reflection using the principle of Pepper's ghost, on the four faces of a transparent truncated inverted pyramid (130, 131) thus producing a single image perceived as three-dimensional. On the right of Figure 6, the same spatialized image is rendered simultaneously on 4 tablets arranged around a transparent truncated inverted pyramid reproducing the image perceived as three-dimensional.

Le procédé de la présente demande peut également aider, dans au moins certains modes de réalisation, à abaisser la consommation énergétique nécessaire au traitement d’un flux multimédia en diminuant la luminosité du rendu. Il peut s’agir par exemple d’un équipement de restitution de type « fantôme de Pepper appliqué à un terminal connecté comme un smartphone et/ou une tablette. Un tel exemple de rendu est illustré en figure 5 où un utilisateur U1 peut voir son propre visage et le percevoir en 3 dimensions grâce à un miroir placé sur une lame transparente positionnée à environ 45°de l’écran du terminal 110, le miroir permettant la capture de l’utilisateur par la caméra frontale 120 du terminal. Une chambre noire associée à l’équipement de rendu peut consister en un espace ou un compartiment obscurci autour de la lame transparente. Cette chambre noire aurait pour but de minimiser la quantité de lumière parasite qui atteint la lame transparente, en absorbant la lumière ambiante et en réduisant les reflets indésirables. Ainsi, l'image projetée sur la lame transparente bénéficierait d'un contraste plus élevé. Le procédé peut diminuer la luminosité du rendu en l’adaptant aux conditions de visualisations ainsi créées.The method of the present application may also help, in at least some embodiments, to lower the energy consumption required for processing a multimedia stream by reducing the brightness of the rendering. This may for example be a “Pepper phantom” type rendering equipment applied to a connected terminal such as a smartphone and/or a tablet. Such an example of rendering is illustrated in FIG. 5 where a user U1 can see his own face and perceive it in 3 dimensions thanks to a mirror placed on a transparent blade positioned at approximately 45° from the screen of the terminal 110, the mirror allowing the capture of the user by the front camera 120 of the terminal. A darkroom associated with the rendering equipment may consist of a darkened space or compartment around the transparent blade. This darkroom would have the purpose of minimizing the amount of stray light that reaches the transparent blade, by absorbing ambient light and reducing unwanted reflections. Thus, the image projected onto the transparent blade would benefit from higher contrast. The process can reduce the brightness of the rendering by adapting it to the viewing conditions thus created.

Le procédé de la présente demande peut aider, dans au moins certains modes de réalisation, à améliorer la qualité du rendu du flux audiovisuelle spatialisé en permettant sa capture en adaptant au fil de l’eau les paramètres graphiques de l’image spatialisée sur obtention du rendu, constituant ainsi une boucle de réaction. Dans l’exemple illustré dans la figure 7, le dispositif 200 est un terminal de type smartphone ou une tablette placée à l’horizontale. La partie gauche de la figure 7 représente le terminal de profil sur sa longueur et la partie droite représente le terminal de profil sur sa largeur. Un écran transparent est placé à 45° de l’écran du dispositif pour réaliser un affichage de type « fantôme de Pepper ». Comme représenté aussi dans la figure 5, un miroir 510 est placé sur l’écran afin que la caméra frontale 120 puisse capter l’image de l’utilisateur 101. Un verre semi -transparent 710 placé perpendiculairement au miroir 510 et à l’écran transparent 130 peut permettre de capter le rendu final. De plus, la spatialisation d'un objet d'intérêt en tenant compte d'un contexte volumétrique de rendu représente un avantage dans le traitement de flux audiovisuels, en particulier lorsqu'il s'agit de projeter une image sur des surfaces non planes, telles par exemple qu'un cône transparent utilisé dans le dispositif du fantôme de Pepper. Lors du rendu, cette approche peut permettre d'adapter et de déformer l'image de manière qu'elle épouse parfaitement la forme du support de projection, garantissant ainsi que l'illusion tridimensionnelle soit préservée et que l'image projetée ne soit pas distordue ou altérée de manière inappropriée. Lorsque l'on projette une image sur une surface conique, par exemple, une simple projection plane entraînerait une distorsion significative, car l'image doit s'étendre pour couvrir une surface plus large à mesure qu'elle s'éloigne du sommet du cône. En prenant en compte le contexte volumétrique de rendu, le procédé peut précalculer les ajustements nécessaires pour que l'image finale apparaisse correcte du point de vue de l'observateur. Cela implique de déformer l'image originale en prévision de la manière dont elle sera étirée sur la surface conique, de sorte que, une fois projetée, elle apparaisse comme une représentation fidèle et non déformée de l'objet d'intérêt.The method of the present application can help, in at least certain embodiments, to improve the quality of the rendering of the spatialized audiovisual stream by allowing its capture by adapting the graphic parameters of the spatialized image on the fly upon obtaining the rendering, thus constituting a feedback loop. In the example illustrated in Figure 7, the device 200 is a smartphone-type terminal or a tablet placed horizontally. The left part of Figure 7 represents the terminal in profile along its length and the right part represents the terminal in profile along its width. A transparent screen is placed at 45° from the screen of the device to produce a “ghost” type display. Pepper ». As also shown in Figure 5, a mirror 510 is placed on the screen so that the front camera 120 can capture the image of the user 101. A semi-transparent glass 710 placed perpendicular to the mirror 510 and the transparent screen 130 can make it possible to capture the final rendering. In addition, the spatialization of an object of interest taking into account a volumetric rendering context represents an advantage in the processing of audiovisual streams, in particular when it comes to projecting an image onto non-planar surfaces, such as for example a transparent cone used in the Pepper ghost device. During rendering, this approach can make it possible to adapt and deform the image so that it perfectly matches the shape of the projection medium, thus ensuring that the three-dimensional illusion is preserved and that the projected image is not distorted or altered inappropriately. When projecting an image onto a conical surface, for example, a simple planar projection would result in significant distortion, as the image must expand to cover a wider area as it moves away from the apex of the cone. By taking into account the volumetric rendering context, the method can pre-calculate the necessary adjustments to ensure that the final image appears correct from the viewer's perspective. This involves distorting the original image in anticipation of how it will be stretched onto the conical surface, so that, when projected, it appears as a faithful and undistorted representation of the object of interest.