FR2940737A1

Movatterモバイル変換

Info

Publication number: FR2940737A1
Application number: FR0859156A
Authority: FR
Inventors: Patrice Alexandre; Philippe Daubigne; Neindre Guillaume Le
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-12-31
Filing date: 2008-12-31
Publication date: 2010-07-02
Also published as: WO2010076269A1

Abstract

Translated fromFrench

Selon l'invention, on rajoute dans le flux d'images codées H264 une information, dite d'accélération, renseignant sur les vitesses d'accélération (x2,x4,x8,x16...) supportées par chaque image du flux à décoder. Cette information d'accélération est introduite dans l'en-tête d'au moins un des paquets de données vidéo de l'image. Lorsque le décodeur reçoit ce flux de paquets de données vidéo, les informations d'accélération contenues dans les paquets des images lui permettent d'obtenir directement, sans décodage préalable des images, les vitesses d'avance ou de retour rapide possibles pour décoder le flux ainsi que les images à décoder pour chacune des vitesses. L'invention est plus particulièrement destinée à améliorer le fonctionnement des décodeurs numériques vidéo ne disposant pas de capacité de décodage plus rapide que le temps réel.According to the invention, a piece of information, called acceleration, is added to the stream of coded images H264, giving information on the acceleration rates (x2, x4, x8, x16, etc.) supported by each image of the stream to be decoded. . This acceleration information is introduced into the header of at least one of the video data packets of the image. When the decoder receives this stream of video data packets, the acceleration information contained in the packets of the images allow it to obtain directly, without prior decoding of the images, the possible forward or rewind speeds to decode the stream. as well as the images to be decoded for each of the speeds. The invention is more particularly intended to improve the operation of video digital decoders having no decoding capability faster than real time.

Description

Translated fromFrench

1 Domaine de l'invention La présente invention concerne un procédé de traitement d'une séquence d'images vidéo dans un codeur vidéo pour générer un flux de paquets de données vidéo destiné à être décodé par un décodeur s numérique. L'invention est destinée à améliorer le fonctionnement des décodeurs numériques vidéo ne disposant pas de capacité de décodage plus rapide que le temps réel.FIELD OF THE INVENTION The present invention relates to a method of processing a video image sequence in a video encoder to generate a stream of video data packets to be decoded by a digital decoder. The invention is intended to improve the operation of video digital decoders having no decoding capability faster than real time.

Arrière-plan technologique 10 Les décodeurs numériques vidéo sont couramment équipés de disque de stockage, ce qui permet une relecture ultérieure des données vidéo. Pour cela, le flux vidéo codé est stocké dès réception sur le disque de stockage puis relu pour être décodé lors du visionnage. La lecture à partir d'un disque de stockage apporte la possibilité de fonctions 1s avancées comme l'avance rapide (AR) et le retour rapide (RR). Cependant, ces fonctions ARIRR ne sont possibles qu'à condition de pouvoir décoder très rapidement les images du flux vidéo. Deux solutions sont envisageables pour cela: soit le décodeur dispose d'une capacité de décodage plus rapide que le temps réel et il peut alors 20 décoder toutes les images pour n'en afficher que le nombre requis pour la vitesse d'affichage demandée par l'utilisateur, soit le décodeur ne dispose pas d'une capacité de décodage plus rapide que le temps réel et il ne décode qu'une partie des images du flux vidéo codé. La présente invention est destinée aux décodeurs ne 25 disposant pas de capacité de décodage plus rapide que le temps réel et s'applique tout particulièrement au flux vidéo codé selon la norme H264 (AVC/MPEG4). Un flux vidéo H264 introduit des relations d'interdépendance dans le codage, et par là-même dans le décodage, des 30 images. Ces relations permettent de réduire considérablement la quantité d'informations nécessaires à la transmission ou au stockage d'images successives fortement corrélées temporellement. Ce codage basé sur des techniques dites de prédiction avec compensation de mouvement permet de déduire avec un minimum d'informations additionnelles la plupart des 2 images vidéo à partir de ses voisines. Il existe donc une interdépendance des images qui permet de les hiérarchiser. Dans la suite de la présente description, on considérera une hiérarchie comportant 4 types d'images: s - les images I (pour Intra) qui n'ont aucune dépendance avec les autres images et qui, de ce fait, constituent des points d'accès au décodage d'un flux vidéo; ces images servent généralement de référence aux autres images du flux vidéo; - les images P (pour Prédites) dont le décodage se fait en 10 référence à des images I ou P précédemment décodées du le flux vidéo; - les images Br (pour Bidirectionnelles références) dont le décodage se fait en référence à des images I ou P ou Br du flux vidéo; elles sont dites bidirectionnelles car elles s'appuient sur des images situées en amont et en aval dans le flux vidéo et servent de référence 1s pour le décodage d'autres images; - les images B (pour Bidirectionnelles) dont le décodage se fait en référence à des images I, P ou Br du flux vidéo; elles sont dites bidirectionnelles car elles s'appuient sur des images situées en amont et en aval dans le flux vidéo mais ne servent pas de référence pour le 20 décodage des autres images du flux. Ces relations d'interdépendance sont montrées sur la figure 1 pour un groupe d'images successives comportant 16 images. Dans cette figure, les flèches indiquent les relations de dépendance prédictive entre les images. Une image pointant sur une autre image indique que le 25 décodage (ou codage) de l'image qui pointe dépend temporellement de l'image pointée. Dans cette figure, les images sont représentées dans l'ordre temporel. Dans l'exemple de la figure 1, deux niveaux hiérarchiques sont définis pour les images de type Br: le décodage des images Br de niveau 2, notées Br2, se fait uniquement en référence à des 30 images I ou P et le décodage des images Br de niveau 1, notées Br1, se fait uniquement en référence à des images I, P ou Br2. A noter que les dernières images Br2, Br1 et B du groupe d'images se réfèrent à une image I du groupe d'images suivant. 3 Cette figure 1 montre que cette organisation hiérarchique des prédictions entre images présente un intérêt pour réaliser des applications de décodage accéléré. En effet, un décodage des images I et P uniquement permet un décodage accéléré de rapport 8 par rapport à un s décodage temps réel. De la même façon, un décodage des images I, P et Br2 uniquement permet un décodage accéléré de rapport 4 par rapport à un décodage temps réel. Enfin, un décodage des images I, P, Br2 et Br1 uniquement permet un décodage accéléré de rapport 2 par rapport à un décodage temps réel. 10 Si cette organisation hiérarchique constitue un apport évident pour la réalisation de fonctions d'avance rapide dans le décodeur numérique, il convient néanmoins de noter que le choix de l'organisation hiérarchique, c'est-à-dire le nombre de niveaux hiérarchiques, a un impact sensible sur la performance du codage en termes de qualité de 1s rendu des images, les solutions de codage les plus performantes consistant à rendre dynamique la structure du groupe d'images (ou GOP en langue anglaise pour Group of Pictures) en l'ajustant au mieux au contenu des images à coder. En effet, d'un point de vue purement intuitif, il est 20 compréhensible d'imaginer qu'une baisse de la fréquence des images I et P rend l'apport de la prédiction temporelle moins efficace pour le codage. En effet, l'éloignement des images I ou P entre elles augmente les distorsions spatiales liées aux déplacements des objets et/ou de la caméra dans la scène. Ainsi, plus les scènes présentent des mouvements 25 complexes et importants, plus il convient de réduire la période entre images I ou P lorsque l'on cherche à optimiser la performance de codage. Les figures 2A à 2D montrent différentes structures de GOP définies en fonction du contenu vidéo des images de ce GOP. 30 La figure 2A montre une première structure de GOP comprenant 32 images et 6 niveaux hiérarchiques. Le GOP comprend plus précisément une image I, une image P, 2 images Br3 (images Br de niveau 3), quatre images Br2 (images Br de niveau 2), huit images Br1 (images Br de niveau 1) et seize images B. Une image I ou P apparaît 4 toutes les 16 images. Cette structure est adaptée pour les mouvements très lents et peu complexes. La figure 2B montre une deuxième structure de GOP comprenant 16 images et 5 niveaux hiérarchiques. Le GOP comprend s plus précisément une image I, deux images P, deux images Br2 (images Br de niveau 2), quatre images Br1 (images Br de niveau 1) et huit images B. Une image I ou P apparaît dans le GOP toutes les 8 images. Cette structure est adaptée pour les mouvements lents et moyennement complexes. 10 La figure 2C montre une troisième structure de GOP comprenant 16 images et 4 niveaux hiérarchiques. Le GOP comprend plus précisément une image I, quatre images P, quatre images Br1 (images Br de niveau 1) et huit images B. Une image I ou P apparaît dans le GOP toutes les 8 images. Cette structure est adaptée pour les 1s mouvements moyens et/ou complexes. La figure 2D montre une quatrième structure de GOP comprenant 16 images et 4 niveaux de hiérarchie. Le GOP comprend plus précisément une image I, huit images P et huit images B. Une image I ou P apparaît dans le GOP toutes les 4 images. Cette structure est 20 adaptée pour les mouvements forts et/ou très complexes. En référence à ces figures, on remarque que le nombre de niveaux hiérarchiques se réduit au fur et à mesure que la complexité et/ou l'amplitude du mouvement des objets et/ou de la caméra dans la scène filmée s'intensifie(nt). 25 Si l'utilisation de structures dynamiques de GOP hiérarchique adaptées au contenu vidéo permet d'améliorer la performance du codage, elle rend la gestion des fonctions de décodage accéléré difficile à gérer. En effet, les dépendances entre les images du GOP étant variables, la norme H264 ne permet pas actuellement au 30 décodeur de disposer d'informations pertinentes et facilement accessibles pour déterminer à tout instant les images qu'il doit décoder pour atteindre la vitesse d'accélération demandée par l'utilisateur. La seule solution consiste à effectuer un décodage d'au moins une partie du flux vidéo pour accéder à ces informations pertinentes. Ce décodage est 2940737 s coûteux en ressources, notamment si un cryptage est réalisé sur les données lors de leur transport et/ou stockage. Pour remédier à ce problème, la norme DVB ETSI TS 101154 a défini une structure de données appelée AU_information. Cette structure de données est placée s sur une couche non cryptée de la paquétisation (section utilisateur de la couche de transport MPEG2 ISO/IEC 13181-1) et fournit des informations au décodeur pour faciliter l'accès aux images. Mais, avec la norme DVB ETSI TS 101154 telle qu'elle existe actuellement, le décodeur est uniquement en mesure de connaître le type des images 10 I/P/B et de savoir si l'image sert de référence (champ AU_ref_pic_idc de la structure AU_information) à une autre image. Ce champ permet simplement de distinguer une image Br (champ AU_ref_pic_idc non nul) d'une image B (champ AU_ref pic_idc nul). A partir de ces informations, le décodeur n'est pas en mesure de déterminer les relations 1s d'interdépendance entre les images du GOP, surtout si les images bidirectionnelles comportent plusieurs niveaux hiérarchiques et si la structure du GOP est variable.BACKGROUND OF THE INVENTION Digital video decoders are commonly equipped with a storage disk, which allows a subsequent replay of the video data. For this, the coded video stream is stored upon reception on the storage disk and then read again to be decoded during viewing. Playback from a storage disk provides the possibility of advanced 1s functions such as fast forward (AR) and fast reverse (RR). However, these ARIRR functions are only possible if the images of the video stream can be decoded very quickly. Two solutions are conceivable for this: either the decoder has a faster decoding capacity than the real time and it can then decode all the images to display only the number required for the display speed requested by the decoder. user, the decoder does not have a decoding capacity faster than real time and it decodes only part of the images of the encoded video stream. The present invention is intended for decoders having no decoding capability faster than real time and particularly applies to video encoded according to H264 (AVC / MPEG4). An H264 video stream introduces interdependence relationships into the encoding, and hence into the decoding, of the images. These relationships considerably reduce the amount of information needed to transmit or store successive images that are highly correlated temporally. This coding, based on so-called prediction techniques with motion compensation, makes it possible to deduce with a minimum of additional information most of the video images from its neighbors. There is thus an interdependence of the images which makes it possible to hierarchize them. In the remainder of the present description, a hierarchy with 4 types of images will be considered: s - the images I (for Intra) which have no dependence on the other images and which, therefore, constitute points of interest; access to decoding a video stream; these images are generally used as reference to the other images of the video stream; the P (for Predicted) images whose decoding is made with reference to previously decoded I or P images of the video stream; the images Br (for Bidirectional references) whose decoding is made with reference to images I or P or Br of the video stream; they are bidirectional because they are based on images located upstream and downstream in the video stream and serve as 1s reference for the decoding of other images; images B (for Bidirectional) whose decoding is made with reference to I, P or Br images of the video stream; they are said bidirectional because they rely on images located upstream and downstream in the video stream but do not serve as a reference for the decoding of the other images of the stream. These interrelationships are shown in FIG. 1 for a group of successive images comprising 16 images. In this figure, the arrows indicate the predictive dependence relationships between the images. An image pointing to another image indicates that the decoding (or coding) of the image that is pointing depends temporally on the dotted image. In this figure, the images are represented in the temporal order. In the example of FIG. 1, two hierarchical levels are defined for the images of the Br type: the decoding of the Br level 2 images, denoted Br2, is done solely with reference to I or P images and the decoding of the images. Br level 1, denoted Br1, is only with reference to images I, P or Br2. Note that the last images Br2, Br1 and B in the group of images refer to an image I of the following group of images. 3 This FIG. 1 shows that this hierarchical organization of predictions between images is of interest for making accelerated decoding applications. Indeed, a decoding of I and P images only allows an accelerated decoding of ratio 8 with respect to a real time decoding. Similarly, decoding I, P and Br2 images only allows accelerated decoding of ratio 4 with respect to real-time decoding. Finally, a decoding of the images I, P, Br2 and Br1 only allows an accelerated decoding of ratio 2 with respect to a real-time decoding. If this hierarchical organization is an obvious contribution to the realization of fast forward functions in the digital decoder, it should nevertheless be noted that the choice of the hierarchical organization, that is to say the number of hierarchical levels, has a significant impact on the coding performance in terms of the quality of image rendering, the most efficient coding solutions consisting in making the Group of Pictures (GOP) structure dynamic in Europe. 'optimally adjusting the content of the images to be coded. Indeed, from a purely intuitive point of view, it is understandable to imagine that a decrease in the frequency of I and P images makes the contribution of temporal prediction less effective for coding. Indeed, the distance of the images I or P between them increases the spatial distortions related to the movements of the objects and / or the camera in the scene. Thus, the more complex and important the movements of the scenes, the shorter the period between I and P images when optimizing the coding performance. Figures 2A to 2D show different GOP structures defined according to the video content of the images of this GOP. Figure 2A shows a first GOP structure comprising 32 images and 6 hierarchical levels. The GOP further includes an I-picture, a P-picture, 2 Br3 pictures (Br-level 3 pictures), four Br2 pictures (Br-level 2 pictures), eight Br1 pictures (Br-level 1 pictures), and sixteen B-pictures. An I or P picture appears 4 every 16 frames. This structure is suitable for very slow and uncomplicated movements. Figure 2B shows a second GOP structure comprising 16 images and 5 hierarchical levels. The GOP includes more precisely one I-image, two P-images, two Br2-images (Br-level 2 images), four Br-1 images (Br-level 1 images), and eight B-images. An I or P-image appears in the GOP all the 8 images. This structure is suitable for slow and moderately complex movements. Figure 2C shows a third GOP structure comprising 16 images and 4 hierarchical levels. The GOP includes more precisely one I-image, four P-images, four Br1 images (Br-level 1 images) and eight B-images. An I or P image appears in the GOP every 8 images. This structure is suitable for medium and / or complex movements. Figure 2D shows a fourth GOP structure with 16 images and 4 levels of hierarchy. The GOP includes more precisely an I-frame, eight P-frames, and eight B-frames. An I or P-frame appears in the GOP every 4 frames. This structure is suitable for strong and / or very complex movements. Referring to these figures, it should be noted that the number of hierarchical levels is reduced as the complexity and / or the amplitude of the movement of the objects and / or the camera in the filmed scene intensifies. . If the use of hierarchical GOP dynamic structures adapted to the video content improves coding performance, it makes the management of accelerated decoding functions difficult to manage. Indeed, the dependencies between the GOP images being variable, the H264 standard does not currently allow the decoder to have relevant and easily accessible information to determine at any time the images it must decode to reach the speed of user requested acceleration. The only solution is to decode at least a portion of the video stream to access this relevant information. This decoding is expensive in terms of resources, especially if encryption is performed on the data during their transport and / or storage. To remedy this problem, DVB ETSI TS 101154 has defined a data structure called AU_information. This data structure is placed on an unencrypted layer of the packetization (user section of the ISO / IEC 13181-1 MPEG2 transport layer) and provides information to the decoder to facilitate access to the images. But, with the DVB ETSI TS 101154 standard as it currently exists, the decoder is only able to know the type of 10 I / P / B images and to know if the image serves as a reference (AU_ref_pic_idc field of the structure AU_information) to another image. This field simply makes it possible to distinguish a picture Br (non-zero field AU_ref_pic_idc) of a picture B (field AU_ref pic_idc null). From this information, the decoder is not able to determine the interdependency relationships 1s between the GOP images, especially if the bidirectional images comprise several hierarchical levels and if the structure of the GOP is variable.

Résumé de l'invention 20 Un objet de l'invention est de proposer une solution permettant au décodeur de connaître à tout instant les accélérations de décodage couvertes par chacune des images codées. Selon l'invention, on introduit, pour chaque image du flux vidéo H264, une information dite d'accélération renseignant sur les vitesses d'accélération 25 (x2,x4,x8,x16,...) pour lesquelles cette image est à décoder. Cette information est introduite par le codeur dans les paquets du flux vidéo. Aussi la présente invention a pour objet un procédé de traitement d'au moins un groupe d'images consécutives d'une séquence d'images vidéo dans un codeur vidéo destiné à générer un flux de 30 paquets de données vidéo en vue de leur stockage ou de leur transport, caractérisé en ce qu'il comprend les étapes suivantes: - analyser ledit groupe d'images consécutives de manière à attribuer un type d'image à chaque image vidéo dudit groupe, le type d'image de chaque image vidéo définissant la dépendance entre ladite 35 image vidéo et les autres images vidéo dudit groupe, 6 - coder lesdites images du groupe en fonction de leur type d'image de manière à générer des images vidéo codées, - déterminer une information, dite d'accélération, pour chaque image vidéo du groupe, ladite information d'accélération s indiquant les vitesses d'avance ou de retour rapide pour lesquelles l'image vidéo codée correspondante est à décoder lors du décodage du groupe d'images, et - générer, à partir desdites images codées, un flux de paquets de données vidéo, l'information d'accélération de chaque image 10 vidéo du groupe étant introduite dans l'en-tête d'au moins un paquet se rapportant à l'image vidéo correspondante. Lorsque le décodeur reçoit ce flux de paquets de données vidéo, les informations d'accélération contenues dans les paquets des images lui permettent d'obtenir directement, sans décodage préalable des 1s images, les vitesses d'avance ou de retour rapide possibles pour décoder le flux ainsi que les images à décoder pour chacune des vitesses. Selon une particularité de l'invention, l'information d'accélération de chaque image vidéo est déterminée à partir de son type d'image. 20 Selon un mode de réalisation particulier, les images vidéo sont codées conformément à la norme H264 et le type des images vidéo est sélectionné parmi les types I, P, Br (avec plusieurs niveaux hiérarchiques possibles Br1, Br2...) et B. Selon un mode de réalisation avantageux, l'information 25 d'accélération d'une image vidéo est en outre déterminée en fonction de l'écart minimum entre deux images de type I ou P consécutives dans le groupe d'images pour tenir compte des cas où la période entre deux images I ou P varie au sein du GOP. Selon un mode de réalisation particulier, les paquets générés 30 sont conformes à la norme ISO/IEC 13818-1 et l'information d'accélération est introduite dans la structure AU information définie par la norme DVB ETSI TS 101154.SUMMARY OF THE INVENTION An object of the invention is to propose a solution enabling the decoder to know at any time the decoding accelerations covered by each of the coded images. According to the invention, for each image of the video stream H264, a so-called acceleration information providing information on the acceleration speeds 25 (x2, x4, x8, x16, ...) for which this image is to be decoded is introduced. . This information is introduced by the coder into the packets of the video stream. Also the present invention relates to a method of processing at least one group of consecutive images of a sequence of video images in a video encoder for generating a stream of video data packets for storage or their transport, characterized in that it comprises the following steps: - analyzing said group of consecutive images so as to assign an image type to each video image of said group, the image type of each video image defining the dependence between said video image and the other video images of said group, 6 - coding said images of the group according to their image type so as to generate coded video images, - determining a so-called acceleration information for each video image of the group, said acceleration information being indicative of the fast forward or rewind speeds for which the corresponding encoded video image is to be decoded when decoding the ima group and generating, from said coded images, a stream of video data packets, the acceleration information of each video frame of the group being introduced into the header of at least one packet relating to the corresponding video image. When the decoder receives this flow of video data packets, the acceleration information contained in the packets of the images allow it to obtain directly, without prior decoding of the 1s images, the speeds of advance or fast return possible to decode the flows as well as the images to be decoded for each speed. According to one particularity of the invention, the acceleration information of each video image is determined from its image type. According to a particular embodiment, the video images are coded according to the H264 standard and the type of the video images is selected from the types I, P, Br (with several possible hierarchical levels Br1, Br2 ...) and B. According to an advantageous embodiment, the acceleration information of a video image is further determined according to the minimum difference between two consecutive I or P type images in the image group to take account of the cases. where the period between two I or P images varies within the GOP. According to a particular embodiment, the packets generated 30 are in accordance with ISO / IEC 13818-1 and the acceleration information is introduced in the structure AU information defined by the DVB ETSI TS 101154 standard.

L'invention concerne également un procédé de décodage 35 d'un flux de paquets de données vidéo généré selon le procédé de 7 traitement décrit précédemment, caractérisé en ce qu'il comprend les étapes suivantes: - recevoir une consigne de vitesse d'avance ou de retour rapide; s - extraire, à partir dudit flux de paquets de données vidéo, des images codées et une information d'accélération pour chacune desdites images codées; et - décoder les images vidéo codées dont l'information d'accélération contient une vitesse d'avance ou de retour rapide égale à 10 ladite consigne de vitesse d'avance ou de retour rapide ou, en l'absence de telles images, décoder les images vidéo codées dont l'information d'accélération contient la vitesse d'avance ou de retour rapide la plus proche en valeur absolue de ladite consigne de vitesse d'avance ou de retour rapide. 15 L'invention concerne également un encodeur vidéo destiné à traiter au moins un groupe d'images consécutives d'une séquence d'images vidéo et à générer un flux de paquets de données vidéo, caractérisé en ce qu'il comprend: 20 - un module d'analyse pour analyser ledit groupe d'images consécutives et attribuer un type d'image à chaque image vidéo dudit groupe, le type d'image de chaque image vidéo définissant la dépendance entre ladite image vidéo et les autres images vidéo dudit groupe, 25 - un module de codage pour coder lesdites images du groupe en fonction de leur type d'image de manière à générer des images vidéo codées, - un module de détermination pour déterminer une information, dite d'accélération, pour chaque image vidéo du groupe, 30 ladite information d'accélération indiquant les vitesses d'avance ou de retour rapide pour lesquelles l'image vidéo codée correspondante est à décoder lors du décodage du groupe d'images, et - un module de génération pour générer, à partir desdites images codées, un flux de paquets de données vidéo, l'information 35 d'accélération de chaque image vidéo du groupe étant introduite dans l'en-tête d'au moins un paquet de données vidéo de ladite image vidéo. 8 Enfin, l'invention concerne un décodeur vidéo apte à décoder un flux de paquets de données vidéo généré par l'encodeur vidéo défini précédemment, caractérisé en ce qu'il comprend: s - un module de réception pour recevoir une consigne de vitesse d'avance ou de retour rapide; - un module d'extraction pour extraire, à partir dudit flux de paquets de données vidéo, des images codées et une information d'accélération pour chacune desdites images codées; et 10 - un module de décodage pour décoder les images vidéo codées dont l'information d'accélération contient une vitesse d'avance ou de retour rapide égale à ladite consigne de vitesse d'avance ou de retour rapide ou, en l'absence de telles images, pour décoder les images vidéo codées dont l'information d'accélération contient la vitesse 1s d'avance ou de retour rapide la plus proche en valeur absolue de ladite consigne de vitesse d'avance ou de retour rapide.The invention also relates to a method for decoding a stream of video data packets generated according to the processing method described above, characterized in that it comprises the following steps: receiving a forward speed command or fast return; s - extracting, from said stream of video data packets, coded pictures and acceleration information for each of said coded pictures; and decoding the encoded video images whose acceleration information contains a fast forward or rewind speed equal to said fast forward or rewind speed setpoint or, in the absence of such images, to decode the coded video images whose acceleration information contains the nearest fast or fast return speed in absolute value of said forward or reverse speed setpoint. The invention also relates to a video encoder for processing at least one group of consecutive images of a sequence of video images and for generating a stream of video data packets, characterized in that it comprises: an analysis module for analyzing said group of consecutive images and assigning an image type to each video image of said group, the image type of each video image defining the dependence between said video image and the other video images of said group, An encoding module for encoding said images of the group according to their image type so as to generate coded video images; a determination module for determining an information, called acceleration information, for each video image of the group; Said acceleration information indicating the forward or reverse speeds for which the corresponding coded video image is to be decoded during decoding of the group of images, and - a module of generating, from said encoded images, a stream of video data packets, the acceleration information of each video frame of the group being introduced into the header of at least one video data packet of said video image. Finally, the invention relates to a video decoder capable of decoding a stream of video data packets generated by the video encoder defined above, characterized in that it comprises: s - a reception module for receiving a speed setpoint d 'advance or fast return; an extraction module for extracting, from said stream of video data packets, coded pictures and acceleration information for each of said coded pictures; and a decoding module for decoding the encoded video images whose acceleration information contains a speed of fast forward or rewind equal to said speed or fast forward speed setpoint or, in the absence of such images, for decoding the coded video images whose acceleration information contains the speed 1s of advance or fast return nearest in absolute value of said speed command of advance or fast return.

Brève description des figures 20 L'invention sera mieux comprise, et d'autres buts, détails, caractéristiques et avantages apparaîtront plus clairement au cours de la description explicative détaillée qui va suivre de modes de réalisation particuliers actuellement préférés de l'invention, en référence aux figures annexées, parmi lesquels : 25 - la figure 1 illustre une première structure hiérarchique de groupe d'images; - les figures 2A à 2D illustrent d'autres structures hiérarchiques de groupe d'images dont la composition varie en fonction de la complexité et de l'amplitude du mouvement dans le groupe 30 d'images; - la figure 3 représente un organigramme des étapes du procédé de l'invention ; - la figure 4 illustre une structure hiérarchique de groupe d'images dans laquelle la période entre images I ou P à l'intérieur du 35 groupe d'images varie ; et 9 - la figure 5 représente schématiquement un codeur apte à mettre en oeuvre le procédé de l'invention.BRIEF DESCRIPTION OF THE FIGURES The invention will be better understood, and other objects, details, features, and advantages will become more clearly apparent from the following detailed explanatory description of particular embodiments currently preferred of the invention, with reference to the appended figures, among which: FIG. 1 illustrates a first hierarchical group structure of images; FIGS. 2A to 2D illustrate other hierarchical image group structures whose composition varies as a function of the complexity and the amplitude of the movement in the group of images; FIG. 3 represents a flowchart of the steps of the method of the invention; Fig. 4 illustrates a hierarchical image group structure in which the period between images I or P within the group of images varies; and 9 - Figure 5 schematically shows an encoder adapted to implement the method of the invention.

Description détaillée de l'invention s L'invention propose de rajouter dans le flux d'images codées H264 une information, dite d'accélération, renseignant sur les vitesses d'accélération supportées par l'image à décoder. Du fait de la structure hiérarchique des images entre elles dans le GOP, ces vitesses d'accélération sont dichotomiques : x2, x4, x8, x16 dans le cas de la 10 figure 1. On rajoute à ces vitesses d'accélération, les vitesses rendues possible par le décodage des images I uniquement et qui correspondent à toutes les tailles de GOP, à savoir dans notre exemple toutes les vitesses multiples de 8: x24, x32, x40 .... Dans le tableau qui suit, on s'arrête à la vitesse d'accélération x32.DETAILED DESCRIPTION OF THE INVENTION The invention proposes to add in the stream of H264 encoded images information, called acceleration information, providing information on the acceleration speeds supported by the image to be decoded. Because of the hierarchical structure of the images between them in the GOP, these acceleration speeds are dichotomous: x2, x4, x8, x16 in the case of FIG. 1. These velocity speeds are added to these acceleration speeds. possible by the decoding of images I only and which correspond to all sizes of GOP, namely in our example all the multiple speeds of 8: x24, x32, x40 .... In the following table, we stop at the speed of acceleration x32.

15 Le tableau qui suit représente l'information d'accélération associée à chaque image de la structure de GOP de la figure 1. I B Br1 B Br2 B Br1 B P B Br1 B Br2 B Br1 B x2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 C x4 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 o x8 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 x16 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q x32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Une telle information d'accélération est introduite, pour 20 chaque image du GOP, dans le flux d'images codées (flux H264). Comme montré dans le tableau précédent, cette information se présente par exemple sous la forme d'un train binaire, chaque bit du train binaire étant associé à une vitesse d'accélération possible. Lorsque, dans ce train binaire, un bit est à 1, cela signifie que l'image doit être décodée pour 25 obtenir la vitesse d'accélération associée à ce bit lors du décodage. Les informations d'accélération contenues dans le tableau précédent indiquent que l'image I du GOP de la figure 1 doit être décodée pour les vitesses d'accélération x2, x4, x8 et x16, que l'image P doit être décodée pour les vitesses d'accélération x2, x4 et x8, que les images Br2 doivent 10 être décodées pour les vitesses d'accélération x2 et x4, et que les images Br1 doivent être décodées pour la vitesse d'accélération x2. L'information d'accélération est de préférence associée à une couche de transport non cryptée et est introduite dans l'en-tête des s paquets de données, par exemple dans la structure AU_information définie par la norme DVB ETSI TS 101154. La figure 3 représente un organigramme des étapes du procédé de l'invention mise en oeuvre dans un codeur. Selon une première étape E1, le codeur analyse un groupe 10 d'images consécutives et détermine, pour celui-ci, une structure hiérarchique adaptée au contenu des images. Le codeur détermine en particulier un type d'image pour chacune d'entre elles. Pour cela, le codeur réalise sur les images vidéo à coder des mesures de corrélation entre images (accumulation des différences absolues entre pixels de 1s mêmes positions géographiques sur des images espacées de 1, 2 et 3 images). A partir de ces mesures, il sélectionne un type d'image, parmi les types I, P, Br3, Br2, Br1, B, pour chaque image. Selon une deuxième étape E2, les images à coder sont codées selon leur type d'image I, P, Br3, Br2, Br1, B conformément à la 20 norme H264. Cette étape de codage comprend une étape préalable de réarrangement des images en fonction de leur type pour que les images servant de référence à au moins une autre image soient disposées avant cette image dans le flux. Cette étape de codage avec réarrangement des images est bien connue de l'homme du métier et ne sera donc pas décrite 25 en détail ici. Selon une troisième étape E3, qui peut être effectuée parallèlement à l'étape E2, on détermine une information d'accélération pour chaque image. Cette information d'accélération est déterminée à partir du type de l'image. Le principe de base de cette étape est le 30 suivant pour une structure de GOP comportant des images I, P, Br2, Br1 et B: les images Br1 sont à décoder pour obtenir une vitesse d'accélération x2, les images Br2 sont à décoder pour obtenir les vitesses d'accélération x2 et x4, les images P sont à décoder pour obtenir les vitesses d'accélération x2, x4 et x8 et l'image I est à décoder pour 35 obtenir les vitesses d'accélération x2, x4, x8 et x16. Ce cas correspond au tableau défini précédemment pour la structure de la figure 1. Dans le ii cas d'une structure de GOP comportant des images I, P, Br3, Br2, Br1 et B: les images Br1 sont à décoder pour obtenir une vitesse d'accélération x2, les images Br2 sont à décoder pour obtenir les vitesses d'accélération x2 et x4, les images Br3 sont à décoder pour obtenir les vitesses s d'accélération x2, x4 et x8, l'image P est à décoder est pour obtenir les vitesses d'accélération x2, x4, x8 et x16 et l'image I est à décoder pour obtenir les vitesses d'accélération x2, x4, x8, x16 et x32. Pour tenir compte des structures de GOP dans lesquelles la période p entre deux images I ou P consécutives varie au sein du GOP, 10 l'information d'accélération dépend en outre avantageusement de l'écart minimum entre deux images I ou P consécutives au sein du GOP. Dans ce cas, les valeurs de vitesses d'accélération définies précédemment pour les images I, P, Br3, Br2, Br1 et B sont ensuite corrigées en fonction de cet écart minimum. Plus précisément, le nombre de vitesses 1s d'accélération est réduit si cet écart minimum est faible. Si cet écart vaut 2, alors seule la vitesse x2 est maintenue pour les images I, P et Br2. Si cet écart vaut 4, seules les vitesses x2 et x4 sont maintenues pour les images I et P, et si cet écart vaut 8, seules les vitesses x2, x4 et x8 sont maintenues.The following table represents the acceleration information associated with each image of the GOP structure of FIG. 1. IB Br1 B Br2 B Br1 BPB Br1 B Br2 B Br1 B x2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 C x4 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 o x8 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 x16 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q x32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Such information from acceleration is introduced, for each GOP image, into the encoded image stream (stream H264). As shown in the previous table, this information is for example in the form of a bit stream, each bit of the bit stream being associated with a possible speed of acceleration. When, in this bitstream, a bit is at 1, this means that the picture must be decoded to obtain the acceleration rate associated with that bit during decoding. The acceleration information in the preceding table indicates that the GOP image I of Figure 1 should be decoded for the acceleration velocities x2, x4, x8 and x16, that the P-image should be decoded for velocities. With acceleration x2, x4 and x8, the images Br2 must be decoded for the acceleration rates x2 and x4, and the images Br1 must be decoded for the acceleration rate x2. The acceleration information is preferably associated with an unencrypted transport layer and is introduced into the header of the data packets, for example in the AU_information structure defined by DVB ETSI TS 101154. Figure 3 represents a flowchart of the steps of the method of the invention implemented in an encoder. According to a first step E1, the coder analyzes a group 10 of consecutive images and determines, for the latter, a hierarchical structure adapted to the content of the images. The encoder determines in particular one type of image for each of them. For this, the coder performs on the video images to be encoded correlation measurements between images (accumulation of absolute differences between pixels of 1s same geographical positions on images spaced by 1, 2 and 3 images). From these measurements, he selects one type of image, among the types I, P, Br3, Br2, Br1, B, for each image. According to a second step E2, the images to be encoded are coded according to their image type I, P, Br3, Br2, Br1, B according to the H264 standard. This coding step comprises a preliminary step of rearranging the images according to their type so that the images serving as reference to at least one other image are arranged before this image in the stream. This coding step with image rearrangement is well known to those skilled in the art and will not be described in detail here. According to a third step E3, which can be performed in parallel with step E2, an acceleration information is determined for each image. This acceleration information is determined from the type of the image. The basic principle of this step is the following for a GOP structure comprising images I, P, Br2, Br1 and B: the images Br1 are to be decoded to obtain an acceleration rate x2, the images Br2 are to be decoded. to obtain the acceleration rates x2 and x4, the images P are to be decoded to obtain the acceleration rates x2, x4 and x8 and the image I is to be decoded to obtain the acceleration rates x2, x4, x8 and x16. This case corresponds to the table previously defined for the structure of FIG. 1. In the case of a GOP structure comprising images I, P, Br3, Br2, Br1 and B: the images Br1 are to be decoded to obtain a speed acceleration x2, the Br2 images are to be decoded to obtain the acceleration rates x2 and x4, the images Br3 are to be decoded to obtain the acceleration velocities x2, x4 and x8, the image P is to decode is to obtain the acceleration rates x2, x4, x8 and x16 and the image I is to be decoded to obtain the acceleration rates x2, x4, x8, x16 and x32. To account for GOP structures in which the period p between two consecutive I or P frames varies within the GOP, the acceleration information further advantageously depends on the minimum difference between two consecutive I or P frames within the GOP. of the GOP. In this case, the values of speeds of acceleration defined previously for the images I, P, Br3, Br2, Br1 and B are then corrected as a function of this minimum difference. More precisely, the number of acceleration speeds 1s is reduced if this minimum difference is small. If this difference is 2, then only the speed x2 is maintained for the I, P and Br2 images. If this difference is equal to 4, only the velocities x2 and x4 are maintained for the images I and P, and if this difference is equal to 8, only the velocities x2, x4 and x8 are maintained.

20 Ce cas où la période p entre deux images I ou P consécutives varie au sein du GOP est illustré par la figure 4. Cette structure comporte des images I, P, Br2, Br1 et B. L'écart minimum entre deux images I ou P consécutives est égal à 4. Les valeurs de vitesse d'accélération sont alors corrigées comme indiqué précédemment. On 25 obtient alors les informations d'accélération suivantes pour cette structure de GOP: I B Br1 B Br2 B Br1 B P B Br1 B P B Br1 B P B Br1 B P B Br1 B x2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 C x4 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 o ï x8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ,Û x16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q x24 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 Dans cet exemple, les vitesses d'accélération pour les images P et Br2 se limitent à x2 et x4 et, pour l'image I, elles se limitent à x2, x4 et x24. Selon une quatrième étape E4, les images vidéo codées sont s encapsulées dans des paquets selon la norme MPEG2 System, ISO/IEC13818-1. Pour chaque image codée, on introduit dans l'en-tête d'au moins un paquet de données se rapportant à cette image codée l'information d'accélération déterminée pour cette image. Avantageusement, on introduit cette information d'accélération dans la 10 section utilisateur de l'en-tête du premier paquet de l'image. Comme indiqué précédemment, cette information d'accélération est par exemple introduite dans la structure AU_information définie à chaque image par la norme DVB ETSI TS 101154. Ainsi, selon l'invention, un décodeur recevant un flux de 1s paquets de données générés selon le procédé décrit précédemment est en mesure d'identifier immédiatement lors du décodage de l'image I les vitesses d'accélération possibles pour décoder ce flux. Il est aussi capable de définir, à partir de l'ensemble des informations d'accélération des images du GOP, les images à décoder pour satisfaire au mieux 20 l'accélération demandée par l'utilisateur. En mode opératoire, le décodeur peut ainsi à chaque image I définir la vitesse d'accélération la plus proche de celle demandée par l'utilisateur car, du fait de l'aspect dynamique de la structure du GOP, il se peut que toutes les vitesses d'accélération demandées par l'utilisateur 25 ne soient pas accessibles dans le flux vidéo. L'exemple qui suit, qui correspond à la structure de GOP de la figure 2D, est un cas où le codeur a choisi une structure de GOP adaptée à un contenu vidéo à mouvements forts et/ou complexes. I B P B P B P B P B P B P B P B x2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 C x4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 o ï x8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x16 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q x24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 30 13 Dans ce cas, si l'utilisateur demande une vitesse d'accélération x4 à l'affichage, le décodeur doit choisir soit de la limiter à x2, soit de passer à x16. Si le décodeur choisit la vitesse d'accélération la plus proche de la vitesse demandée par l'utilisateur, il choisit la vitesse s x2. Le décodeur peut également choisir d'alterner entre la vitesse x2 et la vitesse x16 pour obtenir une vitesse d'accélération moyenne égale à la vitesse demandée par l'utilisateur. A noter que cette limitation de qualité de service est la conséquence d'un choix de la part l'opérateur qui émet le flux de 10 privilégier la performance de codage. Si l'opérateur souhaite privilégier à tout instant le nombre de vitesses d'accélérations du mode spécial (ou trick mode en langue anglaise) du décodeur, il peut demander à ce que le codeur réalisant l'organisation en GOP emploie des structures de GOP permettant un plus grand nombre d'accélérations. La contrepartie de ce 1s grand nombre de vitesses d'accélérations est la réduction du nombre de structures de GOP possibles. La figure 5 représente le schéma d'un codeur vidéo (appelé également encodeur vidéo) apte à mettre en oeuvre le procédé de l'invention décrit précédemment. Dans ce schéma, les modules 20 représentés sont des unités fonctionnelles, qui peuvent ou non correspondre à des unités physiquement distinguables. Par exemple, ces modules ou certains d'entre eux peuvent être regroupés dans un unique composant, ou constituer des fonctionnalités d'un même logiciel. A contrario, certains modules peuvent être éventuellement composés 25 d'entités physiques séparées. La plupart de ces modules ont une mémoire interne ou externe (non représentée) pour stocker temporairement des données. L'encodeur vidéo comprend un premier module d'analyse 10 d'images vidéo reçues en bande de base. Ce module d'analyse réalise 30 des mesures de corrélation entre les images d'un premier groupe d'images et détermine, à partir de ces mesures de corrélation, une structure hiérarchique de GOP et donc un type d'image pour chacune des images du groupe. Un module 20 est ensuite prévu pour réarranger les images 35 en fonction de leur type de manière à ce que les images servant de 14 référence à une autre image soient disposées avant cette image dans le flux. Le flux des images réarrangées est ensuite retardé par un module 30 de retard. Le retard appliqué est égal au nombre d'images du s GOP. Ce retard est nécessaire pour calculer l'écart minimum entre deux images I ou P consécutives au sein du GOP. Le flux d'images retardé est ensuite traité par un module 40 destiné à coder pour les images selon leur type conformément à la norme H264.This case where the period p between two consecutive I or P images varies within the GOP is illustrated in FIG. 4. This structure comprises I, P, Br 2, Br 1 and B images. The minimum difference between two images I or P consecutive is equal to 4. The acceleration rate values are then corrected as indicated above. The following acceleration information is then obtained for this GOP structure: IB Br1 B Br2 B Br1 BPB Br1 BPB Br1 BPB Br1 BPB Br1 B x2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 C x4 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 o ï x8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0, Û x16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q x24 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 In this example, the acceleration speeds for the images P and Br2 are limited to x2 and x4 and for image I they are limited to x2, x4 and x24. According to a fourth step E4, the coded video images are encapsulated in packets according to the MPEG2 System, ISO / IEC 13818-1 standard. For each coded picture, the acceleration information determined for this image is introduced into the header of at least one data packet relating to this coded picture. Advantageously, this acceleration information is introduced into the user section of the header of the first packet of the image. As indicated above, this acceleration information is for example introduced into the AU_information structure defined in each image by the DVB ETSI TS 101154. Thus, according to the invention, a decoder receiving a stream of 1s data packets generated according to the method described above is able to identify immediately when decoding the image I possible acceleration speeds to decode this flow. It is also able to define, from the GOP image acceleration information set, the images to be decoded to best satisfy the user requested acceleration. In operating mode, the decoder can thus at each image I define the speed of acceleration closest to that requested by the user because, due to the dynamic appearance of the structure of the GOP, it is possible that all speeds acceleration requested by the user 25 are not accessible in the video stream. The following example, which corresponds to the GOP structure of FIG. 2D, is a case where the coder has chosen a GOP structure adapted to video content with strong and / or complex movements. IBPBPBPBPBPBPBPB x2 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 C x4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 o ï x8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x16 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q x24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 30 13 In this case, if the user requests an x4 acceleration rate on the display, the decoder must choose either to limit it to x2 or to switch to x16. If the decoder chooses the speed of acceleration closest to the speed requested by the user, he chooses the speed s x2. The decoder may also choose to alternate between the speed x2 and the speed x16 to obtain an average acceleration rate equal to the speed requested by the user. It should be noted that this quality of service limitation is the consequence of a choice on the part of the operator who transmits the stream of favoring the coding performance. If the operator wishes to privilege at all times the number of speeds of accelerations of the special mode (or trick mode in English) of the decoder, he can ask that the coder carrying out the organization in GOP employs structures of GOP allowing more accelerations. The counterpart to this large number of acceleration rates is the reduction in the number of possible GOP structures. FIG. 5 represents the diagram of a video encoder (also called video encoder) capable of implementing the method of the invention described above. In this scheme, the illustrated modules 20 are functional units, which may or may not correspond to physically distinguishable units. For example, these modules or some of them may be grouped into a single component, or be functionalities of the same software. On the other hand, some modules may be composed of separate physical entities. Most of these modules have internal or external memory (not shown) to temporarily store data. The video encoder comprises a first module 10 for analyzing video images received in baseband. This analysis module makes correlation measurements between the images of a first group of images and determines, from these correlation measurements, a hierarchical structure of GOP and therefore a type of image for each of the images of the image. group. A module 20 is then provided for rearranging the images according to their type so that the images serving as reference to another image are arranged before this image in the stream. The stream of rearranged images is then delayed by a delay module. The applied delay is equal to the number of images of the GOP s. This delay is necessary to calculate the minimum difference between two consecutive I or P images within the GOP. The delayed image stream is then processed by a module 40 for encoding images according to their type according to the H264 standard.

10 Un module 50 est prévu pour déterminer l'information d'accélération pour chacune des images du GOP. Cette information d'accélération est déterminée pour chaque image à partir de son type et éventuellement de l'écart minimum entre deux images I ou P dans le GOP.A module 50 is provided for determining the acceleration information for each of the GOP images. This acceleration information is determined for each image from its type and possibly the minimum distance between two images I or P in the GOP.

15 Enfin, un module 60 de paquetisation est prévu pour encapsuler les images codées dans des paquets de données vidéo conformément à la norme MPEG2 System, ISO/IEC13818-1. Ce module introduit également dans la section utilisateur de l'en-tête du premier paquet de rapportant à chaque image l'information d'accélération 20 déterminée précédemment pour cette image. A noter que le module de retard 30 peut être disposé à d'autres positions entre le module 10 d'analyse et le module 60 de paquetisation. Il peut être placé entre les modules 10 et 20 ou entre les modules 40 et 60.Finally, a packetization module 60 is provided for encapsulating the coded images into video data packets in accordance with the MPEG2 System, ISO / IEC 13818-1 standard. This module also introduces in the user section of the header of the first packet relating to each image the acceleration information determined previously for this image. Note that the delay module 30 may be disposed at other positions between the analysis module 10 and the packetization module 60. It can be placed between the modules 10 and 20 or between the modules 40 and 60.

25 Bien que l'invention ait été décrite en liaison avec différents exemples de structures de GOP, il est bien évident qu'elle n'y est nullement limitée et qu'elle est applicable à tout type de structure de GOP.Although the invention has been described in connection with various examples of GOP structures, it is obvious that it is in no way limited and is applicable to any type of GOP structure.

Claims

Translated fromFrench

REVENDICATIONS1. Procédé de traitement d'au moins un groupe d'images consécutives d'une séquence d'images vidéo dans un codeur vidéo s destiné à générer un flux de paquets de données vidéo en vue de leur stockage ou de leur transport, caractérisé en ce qu'il comprend les étapes suivantes: - analyser (El) ledit groupe d'images consécutives de manière à attribuer un type d'image à chaque image vidéo dudit groupe, 10 le type d'image de chaque image vidéo définissant la dépendance entre ladite image vidéo et les autres images vidéo dudit groupe, - coder (E2) lesdites images du groupe en fonction de leur type d'image de manière à générer des images vidéo codées, - déterminer (E3) une information, dite d'accélération, pour 1s chaque image vidéo du groupe, ladite information d'accélération indiquant les vitesses d'avance ou de retour rapide pour lesquelles l'image vidéo codée correspondante est à décoder lors du décodage du groupe d'images, et - générer (E4), à partir desdites images codées, un flux de 20 paquets de données vidéo, l'information d'accélération de chaque image vidéo du groupe étant introduite dans l'en-tête d'au moins un paquet de données vidéo de ladite image vidéo.REVENDICATIONS1. A method of processing at least one group of consecutive images of a sequence of video images in a video encoder for generating a stream of video data packets for storage or transport, characterized in that it comprises the following steps: analyzing (E1) said group of consecutive images so as to assign one type of image to each video image of said group, the type of image of each video image defining the dependence between said image video and the other video images of said group, - coding (E2) said images of the group according to their image type so as to generate coded video images, - determining (E3) information, called acceleration, for 1s each video image of the group, said acceleration information indicating the forward or reverse speeds for which the corresponding coded video image is to be decoded during the decoding of the group of images, and - generating (E4), at by firing said coded images, a stream of video data packets, the acceleration information of each video frame of the group being introduced into the header of at least one video data packet of said video frame.

2. Procédé selon la revendication 1, caractérisé en ce que 25 l'information d'accélération d'une image vidéo est déterminée à partir du type d'image de ladite image vidéo.2. Method according to claim 1, characterized in that the acceleration information of a video image is determined from the image type of said video image.

3. Procédé selon la revendication 1 ou 2, caractérisé en ce que les images vidéo sont codées conformément à la norme H264. 303. Method according to claim 1 or 2, characterized in that the video images are encoded according to the H264 standard. 30

4. Procédé selon la revendication 3, elle-même dépendante de la revendication 2, caractérisé en ce que l'information d'accélération d'une image vidéo est en outre déterminée en fonction de l'écart minimum entre deux images de type I ou P consécutives dans le groupe 35 d'images. 164. Method according to claim 3, itself dependent on claim 2, characterized in that the acceleration information of a video image is further determined as a function of the minimum distance between two images of type I or P consecutive in the group 35 images. 16

5. Procédé selon l'une des revendications précédentes, caractérisé en ce que les paquets générés sont conformes à la norme ISO/IEC 13818-1.5. Method according to one of the preceding claims, characterized in that the packets generated are in accordance with ISO / IEC 13818-1.

6. Procédé selon la revendication 5, caractérisé en ce que l'information d'accélération de chaque image est introduite dans la structure AU_information définie par la norme DVB ETSI TS 101154.6. Method according to claim 5, characterized in that the acceleration information of each image is introduced into the AU_information structure defined by the DVB ETSI TS 101154 standard.

7. Procédé de décodage d'un flux de paquets de données vidéo généré selon le procédé de traitement selon l'une des revendications 1 à 6, caractérisé en ce qu'il comprend les étapes suivantes: - recevoir une consigne de vitesse d'avance ou de retour rapide; - extraire, à partir dudit flux de paquets de données vidéo, des images codées et une information d'accélération pour chacune desdites images codées; et - décoder les images vidéo codées dont l'information d'accélération contient une vitesse d'avance ou de retour rapide égale à ladite consigne de vitesse d'avance ou de retour rapide ou, à défaut, décoder les images vidéo codées dont l'information d'accélération contient la vitesse d'avance ou de retour rapide la plus proche en valeur absolue de ladite consigne de vitesse d'avance ou de retour rapide.7. A method of decoding a stream of video data packets generated according to the processing method according to one of claims 1 to 6, characterized in that it comprises the following steps: - receive a set of advance speed or fast return; extracting, from said stream of video data packets, coded pictures and acceleration information for each of said coded pictures; and decoding the encoded video images whose acceleration information contains a fast forward or rewind speed equal to said forward or reverse speed setpoint or, failing that, decoding the encoded video images of which acceleration information contains the nearest fast or fast return speed in absolute value of said forward or reverse speed setpoint.

8. Encodeur vidéo destiné à traiter au moins un groupe d'images consécutives d'une séquence d'images vidéo et à générer un flux de paquets de données vidéo, caractérisé en ce qu'il comprend: - un module d'analyse (10) pour analyser ledit groupe d'images consécutives et attribuer un type d'image à chaque image vidéo dudit groupe, le type d'image de chaque image vidéo définissant la dépendance entre ladite image vidéo et les autres images vidéo dudit groupe, - un module de codage (20, 30, 40) pour coder lesdites images du groupe en fonction de leur type d'image de manière à générer 35 des images vidéo codées,17 - un module de détermination (50) pour déterminer une information, dite d'accélération, pour chaque image vidéo du groupe, ladite information d'accélération indiquant les vitesses d'avance ou de retour rapide pour lesquelles l'image vidéo codée correspondante est à s décoder lors du décodage du groupe d'images, et - un module de génération (60) pour générer, à partir desdites images codées, un flux de paquets de données vidéo, l'information d'accélération de chaque image vidéo du groupe étant introduite dans l'en-tête d'au moins un paquet de données vidéo de ladite 10 image vidéo.A video encoder for processing at least one group of consecutive images of a sequence of video images and for generating a stream of video data packets, characterized in that it comprises: - an analysis module (10 ) for analyzing said group of consecutive images and assigning an image type to each video image of said group, the image type of each video image defining the dependence between said video image and the other video images of said group, - a module encoding method (20, 30, 40) for encoding said group images according to their image type so as to generate coded video images, 17 - a determination module (50) for determining information, so-called acceleration, for each video frame of the group, said acceleration information indicating the forward or reverse speeds for which the corresponding coded video picture is to be decoded during the decoding of the group of images, and - a module of generation (60) for generating, from said coded images, a stream of video data packets, the acceleration information of each video frame of the group being introduced into the header of at least one packet of video data of said video image.

9. Décodeur vidéo apte à décoder un flux de paquets de données vidéo généré par l'encodeur vidéo selon la revendication 8, caractérisé en ce qu'il comprend: 15 - un module de réception pour recevoir une consigne de vitesse d'avance ou de retour rapide; - un module d'extraction pour extraire, à partir dudit flux de paquets de données vidéo, des images codées et une information d'accélération pour chacune desdites images codées; et 20 - un module de décodage pour décoder les images vidéo codées dont l'information d'accélération contient une vitesse d'avance ou de retour rapide égale à ladite consigne de vitesse d'avance ou de retour rapide ou, à défaut, pour décoder les images vidéo codées dont l'information d'accélération contient la vitesse d'avance ou de retour 25 rapide la plus proche en valeur absolue de ladite consigne de vitesse d'avance ou de retour rapide. 309. A video decoder adapted to decode a stream of video data packets generated by the video encoder according to claim 8, characterized in that it comprises: a receiving module for receiving an advance speed command or Quick return; an extraction module for extracting, from said stream of video data packets, coded pictures and acceleration information for each of said coded pictures; and a decoding module for decoding the encoded video images whose acceleration information contains a fast forward or rewind speed equal to said fast forward or rewind speed setpoint or, failing that, to decode coded video images whose acceleration information contains the nearest fast or fast return speed in absolute value of said advance speed or fast reverse speed setpoint. 30