




L'invention est relative au traitement de données sonores, et plus particulièrement à la spatialisation (dite « rendu 3D ») de signaux audio.The invention relates to the processing of sound data, and more particularly to the spatialization (called "3D rendering") of audio signals.
Une telle opération est par exemple exécutée lors du décodage d'un signal audio 3D codé, représenté sur un certain nombre de canaux, vers un nombre de canaux différents, deux par exemple, pour permettre la restitution des effets 3D audio sur un casque d'écoute.Such an operation is for example performed when decoding a coded 3D audio signal, represented on a number of channels, to a number of different channels, for example two, to allow the reproduction of the 3D audio effects on a headset. listening.
L'invention est également relative à la transmission et à la restitution de signaux audio multicanaux et à leur conversion vers un dispositif de restitution, transducteur, imposé par l'équipement d'un utilisateur. C'est par exemple le cas pour la restitution d'une scène sonore 5.1 par un casque d'écoute audio, ou par une paire de hauts parleurs.The invention also relates to the transmission and reproduction of multichannel audio signals and their conversion to a rendering device, transducer, imposed by the equipment of a user. This is for example the case for the reproduction of a 5.1 sound stage by an audio headset, or by a pair of loudspeakers.
L'invention est également relative à la restitution, dans le cadre d'un jeu ou enregistrement vidéo par exemple, d'un ou plusieurs échantillons sonores stockés dans des fichiers, en vue de leur spatialisation.The invention also relates to the rendering, in the context of a game or video recording, for example, of one or more sound samples stored in files, with a view to their spatialization.
Dans le cas d'une source monophonique statique, la binauralisation est basée sur le filtrage du signal monophonique par la fonction de transfert entre la position désirée de la source et chacune des deux oreilles. Le signal binaural (deux canaux) obtenu peut alors alimenter un casque audio et fournir la sensation à l'auditeur d'une source à la position simulée. Ainsi, le terme « binaural » vise la restitution d'un signal sonore avec des effets de spatialisation.In the case of a static monophonic source, the binauralization is based on the monophonic signal filtering by the transfer function between the desired position of the source and each of the two ears. The binaural signal (two channels) obtained can then feed a headphone and provide the listener with a feeling of the source at the simulated position. Thus, the term "binaural" refers to the reproduction of a sound signal with spatialization effects.
Chacune des fonctions de transfert simulant différentes positions peuvent être mesurées en chambre sourde, aboutissant ainsi à un ensemble de HRTF (pour « Head Related Transfer Functions » ou « Fonctions de Transferts Relatives à la Tête ») dans lesquelles aucun effet de salle n'est présent.Each of the transfer functions simulating different positions can be measured in a deaf chamber, thus resulting in a set of HRTFs (for "Head Related Transfer Functions") in which no room effect is present.
Ces fonctions de transfert peuvent également être mesurées dans une salle « classique », aboutissant ainsi à un ensemble de BRIR (pour « Binaural Room Impulse Response » ou « Réponse Impulsionnelle Binaurale de salle») dans lesquelles l'effet de salle, ou réverbération, est présent. L'ensemble des BRIR correspondent donc à un ensemble de fonctions de transfert entre une position donnée et les oreilles d'un auditeur (réel ou tête artificielle) placé dans une salle.These transfer functions can also be measured in a "classical" room, resulting in a set of BRIRs ("Binaural Room Impulse Response") in which the room effect, or reverb, is present. The set of BRIRs thus correspond to a set of transfer functions between a given position and the ears of a listener (real or artificial head) placed in a room.
La technique habituelle de mesure de BRIR consiste à envoyer successivement dans chacun des haut-parleurs réels, positionnés autour d'une tête (réelle ou artificielle) équipée de microphones dans les oreilles, un signal de test (par exemple un signal sweep, une séquence binaire pseudo-aléatoire ou un bruit blanc). Ce signal de test rend possible, lors d'un traitement hors temps réel, la reconstitution (généralement par déconvolution) de la réponse impulsionnelle entre la position du haut-parleur et chacune des deux oreilles.The usual BRIR measurement technique consists of successively sending in each of the actual loudspeakers, positioned around a head (real or artificial) equipped with microphones in the ears, a test signal (for example a sweep signal, a sequence pseudo-random binary or white noise). This test signal makes it possible, during a non-real-time processing, to reconstitute (generally by deconvolution) the impulse response between the position of the loudspeaker and each of the two ears.
La différence entre un ensemble de HRTF et de BRIR se situe principalement dans la longueur de la réponse impulsionnelle, de l'ordre de la milliseconde pour les HRTF, à l'ordre de la seconde pour les BRIR.The difference between a set of HRTF and BRIR lies mainly in the length of the impulse response, of the order of one millisecond for the HRTF, to the order of one second for the BRIRs.
Le filtrage étant basé sur la convolution entre le signal monophonique et la réponse impulsionnelle, la complexité pour effectuer une binauralisation avec des BRIR (contenant un effet de salle) est nettement plus élevée qu'avec des HRTF.Since the filtering is based on the convolution between the monophonic signal and the impulse response, the complexity of binauralizing with BRIRs (containing a room effect) is much higher than with HRTFs.
Il est possible par cette technique de simuler au casque ou sur un nombre limité de haut-parleurs une écoute d'un contenu multicanal (L canaux) généré par L haut-parleurs dans une salle. En effet, il suffit de considérer chacun des L haut-parleurs comme une source virtuelle positionnée idéalement par rapport à l'auditeur, de mesurer dans la salle à simuler les fonctions de transfert (pour les oreilles gauche et droite) de chacun de ces L haut-parleurs, puis d'appliquer à chacun des L signaux audio (censés alimenter les L haut-parleurs réels) les filtres BRIR correspondant aux haut-parleurs. Les signaux alimentant chacune des oreilles sont sommés pour fournir un signal binaural alimentant un casque audio.It is possible by this technique to simulate the headphones or a limited number of speakers listening to a multichannel content (L channels) generated by L speakers in a room. Indeed, it suffices to consider each of the L loudspeakers as a virtual source ideally positioned relative to the listener, to measure in the room to simulate the transfer functions (for the left and right ears) of each of these L speakers, then apply to each of the L audio signals (supposed to supply the L actual speakers) BRIR filters corresponding to the speakers. The signals feeding each of the ears are summed to provide a binaural signal feeding an audio headset.
On note I(1) (avec 1=[I,L]) le signal d'entrée censé alimenter les L haut-parleurs. On note BRIRg/d(1), les BRIR de chacun des haut-parleurs pour chacune des deux oreilles, et on note Og/d le signal binaural de sortie. La binauralisation du signal multicanal s'écrit donc :
Où * représente l'opérateur de convolution.Where * represents the convolution operator.
Par la suite, l'indice 1 tel quel ∈ [1,L] fait référence à un des L haut-parleurs. On a bien une BRIR pour un signal 1.Subsequently, the
Ainsi, en référence à la
Pour L haut-parleurs, la binauralisation nécessite donc 2.L convolutions. On peut calculer la complexité Cconv dans le cas d'une implémentation rapide par bloc. Une implémentation rapide par bloc est par exemple donnée par une transformée de Fourier rapide (FFT pour « Fast Fourier Transform »). Le document « Submission and Evaluation Procedures for 3D Audio » (MPEG 3D Audio) précise une formule possible pour le calcul de Cconv :
Dans cette équation, L représente le nombre de FFT pour transformer en fréquence les signaux d'entrée (1 FFT par signal d'entrée), le 2 représente le nombre de FFT inverse pour obtenir le signal binaural temporel (2 FFT inverse pour les deux canaux du binaural), le 6 indique un coefficient de complexité par FFT, le second 2 indique un bourrage de zéros nécessaire pour éviter les problèmes dus à la convolution circulaire, Fs indique la taille de chacune des BRIR, et nBlocs représente le fait d'utiliser un traitement par bloc, plus réaliste dans une approche où la latence ne doit pas être excessivement élevée, et . représente la multiplication.In this equation, L represents the number of FFTs to frequency transform the input signals (1 FFT per input signal), the 2 represents the number of inverse FFTs to obtain the time binaural signal (2 inverse FFTs for both binaural channels), the 6 indicates a coefficient of complexity per FFT, the second 2 indicates a zero stuffing necessary to avoid the problems due to the circular convolution, Fs indicates the size of each of the BRIRs, and nBlocs represents the fact of use block processing, more realistic in an approach where latency should not be excessively high, and. represents multiplication.
Ainsi pour utilisation typique avec nBlocs=10, Fs=48000, L=22, la complexité par échantillon de signal multicanal pour une convolution directe basée sur une FFT est de Cconv = 19049 multiplications-additions.Thus for typical use with nBlocs = 10, Fs = 48000, L = 22, the multichannel signal sample complexity for direct convolution based on FFT is Cconv = 19049 multiplications-additions.
Cette complexité est trop élevée pour une implémentation réaliste à l'heure actuelle sur des processeurs courants (mobiles par exemple), il est donc nécessaire de diminuer cette complexité sans dégrader fortement le rendu de la binauralisation.This complexity is too high for a realistic implementation at present on current processors (mobile for example), it is therefore necessary to reduce this complexity without greatly degrading the rendering binauralization.
Pour que la spatialisation soit de bonne qualité, la totalité du signal temporel des BRIR doit être appliqué.For spatialization to be of good quality, the entire time signal of the BRIRs must be applied.
La présente invention vient améliorer la situation.The present invention improves the situation.
Elle vise à diminuer fortement la complexité de la binauralisation d'un signal multicanal avec effet de salle tout en conservant au mieux la qualité audio.It aims to greatly reduce the complexity of binauralizing a multichannel signal with room effect while maintaining the best audio quality.
La présente invention propose à cet effet un procédé de spatialisation sonore tel que défini dans les revendications 1 à 10.The present invention proposes for this purpose a sound spatialization method as defined in the
L'invention vise aussi un programme informatique comportant des instructions pour la mise en oeuvre du procédé.The invention also relates to a computer program comprising instructions for implementing the method.
L'invention peut être mise en oeuvre par un dispositif de spatialisation sonore tel que défini dans la revendication 12.The invention can be implemented by a sound spatialization device as defined in claim 12.
L'invention peut également être mise en oeuvre dans un module de décodage de signaux sonores, en tant que signaux d'entrée, comportant le dispositif de spatialisation ci-dessus.The invention can also be implemented in a sound signal decoding module, as input signals, comprising the spatialization device above.
D'autres avantages et caractéristiques de l'invention apparaîtront à la lecture de la description détaillée ci-après d'exemples de réalisation de l'invention et à l'examen des dessins sur lesquels :
On se réfère à la
En référence encore à la
Ici, la coopération entre les éléments hardware et software produit un effet technique procurant notamment une économie de complexité de la spatialisation pour sensiblement un même rendu audio (même sensation pour un auditeur), comme on le verra plus loin.Here, the cooperation between the hardware and software elements produces a technical effect providing in particular an economy of complexity of the spatialization for substantially the same audio rendering (same sensation for a listener), as will be seen below.
On se réfère maintenant à la
Dans une première étape S21, une préparation des données est effectuée. Cette préparation est optionnelle, les signaux peuvent être traités selon les étapes S22 et suivantes sans ce pré-traitement.In a first step S21, a data preparation is performed. This preparation is optional, the signals can be processed according to steps S22 and following without this pre-treatment.
En particulier, cette préparation consiste à effectuer une troncature de chaque BRIR pour ignorer les échantillons inaudibles au début et à la fin de la réponse impulsionnelle.In particular, this preparation consists in truncating each BRIR to ignore the inaudible samples at the beginning and at the end of the impulse response.
Cette préparation, pour la troncature en début de réponse impulsionnelle TRONC S, à l'étape S211, consiste à déterminer un instant de début d'ondes sonores directes et peut-être mis en oeuvre par les étapes suivantes :
L'indice iT obtenu correspond donc au nombre d'échantillons à ignorer pour chacune des BRIR. Une troncature brutale en début de réponse impulsionnelle avec une fenêtre rectangulaire peut mener à des artefacts audibles si elle est appliquée dans une partie trop énergétique. Il peut donc être préférable d'appliquer une fenêtre de fondu d'entrée adaptée, cependant si des précautions ont été prises dans le seuil choisi, ce fenêtrage devient inutile, car inaudible (on coupe juste du signal inaudible).The index iT obtained therefore corresponds to the number of samples to be ignored for each of the BRIRs. Abrupt truncation at the beginning of an impulse response with a rectangular window can lead to audible artifacts if it is applied in too much energy. It may therefore be preferable to apply a suitable input fade window, however if precautions have been taken in the selected threshold, this windowing becomes useless, because inaudible (just cut the inaudible signal).
Le synchronisme entre BRIR rend possible l'application d'un délai constant pour toutes les BRIR dans un souci de simplicité d'implémentation, même si une optimisation de complexité est possible.The synchronism between BRIR makes it possible to apply a constant delay for all BRIRs for the sake of simplicity of implementation, even if an optimization of complexity is possible.
La troncature de chaque BRIR pour ignorer les échantillons inaudibles à la fin de la réponse impulsionnelle TRONC E, à l'étape S212, peut être réalisée à partir d'étape similaires à celles décrites ci-avant, adaptées pour convenir à la fin de la réponse impulsionnelle. Une troncature brutale en fin de réponse impulsionnelle avec une fenêtre rectangulaire peut mener à des artefacts audibles sur des signaux impulsionnels où la queue de réverbération peut se révéler audible. Ainsi, dans un mode de réalisation, on applique une fenêtre de fondu de sortie adaptée.The truncation of each BRIR to ignore the inaudible samples at the end of the impulse response TRONC E, in step S212, can be performed from steps similar to those described above, adapted to suit the end of the impulse response. Sudden truncation at the end of an impulse response with a rectangular window may lead to audible artifacts on pulse signals where the reverb tail may be audible. Thus, in one embodiment, a suitable output fade window is applied.
A l'étape 22, une isolation en synchronisme ISOL A/B est effectuée. Cette isolation en synchronisme consiste à séparer, pour chaque BRIR, la partie « son direct » et « premières réflexions » (ou Direct, noté A) et de la partie « son diffus » (ou Diffus, noté B). En effet, le traitement à effectuer sur la partie « son diffus » peut avantageusement être différent de celui à effectuer sur la partie « son direct » dans la mesure où il est préférable d'avoir une meilleure qualité de traitement sur la partie « son direct » que sur la partie « son diffus ». Ceci rend possible une optimisation du rapport qualité/complexité.In step 22, ISOL A / B synchronism isolation is performed. This isolation in synchronism consists of separating, for each BRIR, the part "direct sound" and "first reflections" (or Direct, noted A) and the part "diffuse sound" (or Diffus, noted B). Indeed, the treatment to be performed on the "diffuse sound" part may advantageously be different from that to be performed on the "direct sound" part, since it is preferable to have a better quality of treatment on the "direct sound" part. Only on the "diffuse sound" part. This makes it possible to optimize the quality / complexity ratio.
En particulier, pour réaliser l'isolation en synchronisme, on détermine un index « iDD » d'échantillon unique et commun à toutes les BRIR (d'où le terme « synchronisme ») à partir duquel on considère que le reste de la réponse impulsionnelle correspond à un champ diffus. On partitionne donc les réponses impulsionnelles BRIR(1) en deux : A(l) et B(l), où la concaténation des deux correspond à BRIR(1).In particular, to achieve isolation in synchronism, a single sample "iDD" index common to all BRIRs (hence the term "synchronism") from which the remainder of the impulse response is considered is determined. corresponds to a diffuse field. We therefore partition the BRIR (1) impulse responses into two: A (1) and B (1), where the concatenation of the two corresponds to BRIR (1).
La
Dans un mode de réalisation, ces deux parties sont isolées, sans fenêtrage, afin de subir des traitements différents. Dans une variante, un fenêtrage entre les parties A(1) et B(1) est appliqué.In one embodiment, these two parts are isolated, without windowing, in order to undergo different treatments. In a variant, a windowing between the parts A (1) and B (1) is applied.
L'indice iDD peut-être spécifique à la salle pour laquelle les BRIR ont été déterminés. Le calcul de cet indice peut donc dépendre de l'enveloppe spectrale, de la corrélation des BRIR ou encore de l'échogramme de ces BRIR. Par exemple, iDD peut être déterminé par une formule du type
Dans un mode de réalisation, iDD est une valeur fixe, typiquement 2000. Dans une variante, iDD varie, avantageusement de manière dynamique, en fonction de l'environnement à partir duquel les signaux d'entrée sont capturés.In one embodiment, iDD is a fixed value, typically 2000. In one variant, iDD varies, advantageously dynamically, depending on the environment from which the input signals are captured.
Le signal de sortie pour les oreilles gauche (g) et droite (d), représenté parOg/d, s'écrit donc :
L'application de ce délai aux signaux est effectuée en stockant les valeurs calculées pour
Dans un mode de réalisation, les index d'échantillons choisis pour A et B peuvent également tenir compte des longueurs de trames dans le cas d'intégration dans un codeur audio. En effet, des tailles typiques de trames de 1024 échantillons peut mener à un choix tel que A fasse 1024 et B fasse 2048, en s'assurant que B est bien une zone de champ diffus pour toutes les BRIR.In one embodiment, the sample indices selected for A and B may also consider frame lengths in the case of integration into an audio encoder. Indeed, typical frame sizes of 1024 samples can lead to a choice such that A makes 1024 and B makes 2048, making sure that B is a diffuse field area for all BRIRs.
En particulier, il peut être intéressant que la taille de B soit un multiple de la taille de A car si le filtrage est implémenté par blocs de FFT, alors le calcul d'une FFT pour A peut être réutilisé pour B.In particular, it may be interesting that the size of B is a multiple of the size of A because if the filtering is implemented in blocks of FFT, then the calculation of an FFT for A can be reused for B.
Un champ diffus se caractérise par le fait qu'il est statistiquement identique en tous les points de la salle. Ainsi, sa réponse en fréquence varie peu en fonction du haut-parleur à simuler. La présente invention exploite cette caractéristique dans le but de remplacer tous les filtres Diffus D(l) de toutes les BRIR par un seul et unique filtre « moyen » Bmean afin de diminuer fortement la complexité due aux convolutions multiples. Pour cela, on peut modifier la partie champ diffus B à l'étape S23B, toujours en référence à la
A l'étape S23B1, on calcule la valeur du filtre moyen Bmean. D'abord, il est extrêmement rare que le système complet soit calibré idéalement, on peut donc appliquer un gain de pondération qui sera reporté dans le signal d'entrée afin d'effectuer une unique convolution par oreille pour la partie champs diffus. On décompose donc les BRIR en des filtres normalisés en énergie, et on reporte le gain de normalisation
Ensuite, on approximeBnormg/d(l) par un seul et unique filtre moyenBmeang/d qui n'est plus fonction du haut-parleur 1, mais qu'il est possible de normaliser également en énergie :
Dans un mode de réalisation, ce filtre moyen peut être obtenu par moyennage des échantillons temporels. Dans une variante, il peut être obtenu par tout autre type de moyennage comme par exemple un moyennage des densités spectrales de puissance.In one embodiment, this average filter can be obtained by averaging time samples. In a variant, it can be obtained by any other type of averaging such as averaging power spectral densities.
Dans un mode de réalisation, l'énergie du filtre moyenEE
L'énergie peut être calculée sur l'ensemble des échantillons correspondants à la partie champ diffus.The energy can be calculated on all the samples corresponding to the diffuse field part.
A l'étape S23B2, on calcule la valeur du facteur de pondérationWg/d(l). Un seul facteur de pondération à appliquer au signal d'entrée est calculé, prenant en compte les normalisations des filtres Diffus et du filtre moyen:
Le filtre moyen étant constant, il peut sortir de la somme :
Ainsi, les L convolutions avec la partie champ diffus sont remplacées par une seule convolution avec un filtre moyen, moyennant une somme pondérée du signal d'entrée.Thus, the L convolutions with the diffuse field portion are replaced by a single convolution with a mean filter, with a weighted sum of the input signal.
A l'étape S23B3, on peut optionnellement calculer un gain G corrigeant le gain du filtre moyenBmeang/d. En effet, dans le cas de la convolution entre les signaux d'entrée et les filtres non approximés, quelles que soient les valeurs de corrélation entre les signaux d'entrée, le filtrage par des filtres décorrélés que sont lesBg/d(l) mène à des signaux à sommer qui sont alors eux aussi décorrélés. A l'inverse, dans le cas de la convolution entre les signaux d'entrée et le filtre moyen approximé, l'énergie du signal issu de la sommation des signaux filtrés va dépendre de la valeur de corrélation existant entre les signaux d'entrée.In step S23B3, it is optionally possible to calculate a gain G correcting the gain of the average filterBmeang /d . Indeed, in the case of the convolution between the input signals and the unmatched filters, whatever the correlation values between the input signals, the filtering by decorrelated filters that are theBg /d (l ) leads to signals to be summed up which are then also decorrelated. Conversely, in the case of the convolution between the input signals and the approximated average filter, the energy of the signal resulting from the summation of the filtered signals will depend on the correlation value existing between the input signals.
Par exemple,
* si tous les signaux d'entrée I(1) sont identiques et d'énergie unitaire, et que les filtres B(l) sont tous décorrélés (puisque champs diffus) et d'énergie unitaire, on a :
 if all the input signals I (1) are identical and of unit energy, and the filters B (1) are all decorrelated (since diffuse fields) and of unit energy, we have:
Car les énergies des signaux décorrélés s'ajoutent.Because the energies of the decorrelated signals are added.
Ce cas est équivalent au précédent dans le sens où les signaux issus du filtrage sont tous décorrélés, grâce aux signaux d'entrée dans le premier cas, et grâce aux filtres dans le second cas.
* si tous les signaux d'entrée I(1) sont identiques et d'énergie unitaire, et que les filtres B(l) sont tous d'énergie unitaire, mais remplacés par des filtres identiques
 * if all the input signals I (1) are identical and unit energy, and the filters B (l) are all of unit energy, but replaced by identical filters
Car les énergies des signaux identiques s'ajoutent en quadrature (car leurs amplitudes s'ajoutent).Because the energies of the identical signals are added in quadrature (because their amplitudes are added).
Ainsi,
Les cas évoqués ci-avant correspondent aux cas extrêmes de signaux identiques ou décorrélés. Ces cas sont toutefois réalistes : une source positionnée au milieu de deux haut-parleurs, virtuels ou réels, fournira un signal identique à ces deux haut-parleurs (par exemple avec une technique de type VBAP, pour « Vector base amplitude panning »). Dans le cas d'un positionnement dans un système 3D, les 3 haut-parleurs peuvent recevoir le même signal au même niveau.The cases mentioned above correspond to the extreme cases of identical or uncorrelated signals. These cases are however realistic: a source positioned in the middle of two speakers, virtual or real, provide a signal identical to these two speakers (for example with a technique of type VBAP, for "Vector base amplitude panning"). In the case of positioning in a 3D system, the 3 loudspeakers can receive the same signal at the same level.
Ainsi, on peut appliquer une compensation afin de respecter l'énergie des signaux binauralisés.Thus, compensation can be applied to respect the energy of binauralized signals.
Idéalement, ce gain de compensation G sera déterminé en fonction du signal d'entrée (soit G(I(1))) et sera appliqué à la somme des signaux d'entrée pondérés :
Le gainG(I(l)) peut être estimé par un calcul de corrélation entre chacun des signaux. Il peut également être estimé en comparant les énergies des signaux avant et après sommations. Dans ce cas, le gain G peut varier dynamiquement au cours du temps, en fonction par exemple des corrélations entre les signaux d'entrée, qui varient eux-mêmes au cours du temps.The gainG (I (1 )) can be estimated by a calculation of correlation between each of the signals. It can also be estimated by comparing the energies of the signals before and after summations. In this case, the gain G may vary dynamically over time, depending for example on correlations between the input signals, which vary themselves over time.
Dans un mode de réalisation simplifié, il est possible de fixer un gain constant, par exempleG = -3dB = 10-3/20, ce qui évitera d'avoir à effectuer une estimation de corrélation qui peut être coûteuse. Le gain constant G peut alors être appliqué hors ligne aux facteurs de pondération (donnant ainsi
Une fois les fonctions de transfert A et B isolées et les filtresBmeang/d (optionnellement les poidsWg/d(l) et G) calculés, on applique ces fonctions de transfert et ces filtres aux signaux d'entrée.Once the transfer functions A and B isolated and the filtersBmeang /d (optionally weightsWg /d (I ) and G) are calculated, these transfer functions and these filters are applied to the input signals.
Dans un premier mode de réalisation, décrit en référence à la
Dans une variante, en référence à la
Dans un second mode de réalisation, on applique le gain G préalablement à la sommation des signaux d'entrée, c'est-à-dire pendant les étapes de pondération (étapes M4B1 à M4BL).In a second embodiment, the gain G is applied prior to the summing of the input signals, that is to say during the weighting steps (steps M4B1 to M4BL).
Dans un troisième mode de réalisation, on applique une décorrélation aux signaux d'entrée. Ainsi, les signaux sont décorrélés après convolution par le filtre Bmean quelles que soient les corrélations d'origine entre signaux d'entrée. On peut utiliser une implémentation efficace de décorrélation (par exemple en utilisant un réseau de retards bouclés) afin d'éviter l'utilisation de filtres de décorrélation couteux.In a third embodiment, a decorrelation is applied to the input signals. Thus, the signals are decorrelated after convolution by the Bmean filter regardless of the original correlations between input signals. An efficient implementation of decorrelation (for example using a loopback network) can be used to avoid the use of expensive decorrelating filters.
Ainsi, en supposant de manière réaliste que des BRIR de longueur 48000 échantillons peuvent être :
Ainsi pour nBlocs=10, Fs=48000, L=22, NA=1024 et NB=2048, la complexité par échantillon de signal multicanal pour une convolution basée-FFT est de Cconv = 3312 multiplications-additions. Ce résultat est cependant logiquement à comparer à une solution simple implémentant seulement la troncature, soit pour nBlocs=10, Fs=3072, L=22 :
Il existe donc un facteur 19049/3312=5.75 de complexité entre l'état de l'art et la présente invention, et encore un facteur 13339/3312=4 de complexité entre l'état de l'art bénéficiant de la troncature et la présente invention.There is therefore a factor 19049/3312 = 5.75 of complexity between the state of the art and the present invention, and another factor 13339/3312 = 4 of complexity between the state of the art benefiting from the truncation and the present invention.
Si la taille de B est un multiple de la taille de A, alors si le filtrage est implémenté par blocs de FFT, le calcul d'une FFT pour A peut être réutilisé pour B. On a donc besoin de L FFT sur NA points, qui serviront à la fois au filtrage par A et par B, deux FFT inverse sur NA points pour obtenir le signal binaural temporel, et la multiplication des spectres en fréquence.If the size of B is a multiple of the size of A, then if the filtering is implemented in blocks of FFT, the calculation of an FFT for A can be reused for B. We therefore need L FFT on NA points, which will serve at the same time for the filtering by A and by B, two inverse FFT on NA points to obtain the binaural time signal, and the multiplication of the spectrums in frequency.
Dans ce cas, la complexité peut être approximée (les additions sont négligées, (L+1) correspond à la multiplication des spectres, L pour A et 1 pour B) par :
Avec cette approche, on gagne encore un facteur 2, et donc un facteur 12 et 8 par rapport à l'état de l'art non tronquée et tronquée.With this approach, we still gain a factor of 2, and therefore a factor of 12 and 8 compared to the state of the art untruncated and truncated.
L'invention peut trouver une application directe dans la norme MPEG-H 3D Audio.The invention can find a direct application in the MPEG-H 3D Audio standard.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant ; elle s'étend à d'autres variantes tout en restant dans l'étendue de la protection définie dans les revendications annexées.Of course, the present invention is not limited to the embodiment described above; it extends to other variants while remaining within the scope of the protection defined in the appended claims.
Ainsi par exemple, on a décrit ci-avant un mode de réalisation dans lequel le signal Direct A n'est pas approximé par un filtre moyen. Bien entendu, on peut utiliser filtre moyen de A pour faire les convolutions (étapes S4A1 à S4AL) avec les signaux issus des haut-parleurs.For example, an embodiment has been described above in which the Direct A signal is not approximated by an average filter. Of course, it is possible to use an average filter of A to make the convolutions (steps S4A1 to S4AL) with the signals coming from the loudspeakers.
On a décrit ci-avant un mode de réalisation basé sur le traitement d'un contenu multicanal généré pour L haut-parleurs. Bien sûr, le contenu multicanal peut-être généré par tout type de source audio comme par exemple la voix, un instrument de musique, un bruit quelconque, etc.An embodiment has been described above based on the processing of multichannel content generated for L speakers. Of course, the multichannel content can be generated by any type of audio source such as voice, a musical instrument, any noise, etc.
On a décrit ci-avant un mode de réalisation basé sur des valeurs de BRIR déterminées dans une salle. Bien sûr, on peut mettre en oeuvre la présente invention pour tout type d'environnement extérieur (par exemple salle de concert, plein air, etc.).An embodiment has been described above based on determined BRIR values in a room. Of course, the present invention can be implemented for any type of external environment (eg concert hall, open air, etc.).
On a décrit ci-avant un mode de réalisation basé sur l'application de deux fonctions de transfert. Bien sûr, on peut mettre en oeuvre la présente invention avec plus de deux fonctions de transfert. Par exemple, on peut isoler en synchronisme une partie relative aux sons émis directement, une partie relative aux premières réflexions et une partie relative aux sons diffus.An embodiment has been described above based on the application of two transfer functions. Of course, the present invention can be implemented with more than two transfer functions. For example, one can isolate in synchronism a part relating to the sounds emitted directly, a part relating to the first reflections and a part relating to diffuse sounds.
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| FR1357299AFR3009158A1 (en) | 2013-07-24 | 2013-07-24 | SPEECH SOUND WITH ROOM EFFECT | 
| PCT/FR2014/051728WO2015011359A1 (en) | 2013-07-24 | 2014-07-04 | Sound spatialization with room effect | 
| Publication Number | Publication Date | 
|---|---|
| EP3025514A1 EP3025514A1 (en) | 2016-06-01 | 
| EP3025514B1true EP3025514B1 (en) | 2019-09-11 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| EP14748239.2AActiveEP3025514B1 (en) | 2013-07-24 | 2014-07-04 | Sound spatialization with room effect | 
| Country | Link | 
|---|---|
| US (1) | US9848274B2 (en) | 
| EP (1) | EP3025514B1 (en) | 
| JP (1) | JP6486351B2 (en) | 
| KR (2) | KR102310859B1 (en) | 
| CN (1) | CN105684465B (en) | 
| ES (1) | ES2754245T3 (en) | 
| FR (1) | FR3009158A1 (en) | 
| WO (1) | WO2015011359A1 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| EP3001701B1 (en)* | 2014-09-24 | 2018-11-14 | Harman Becker Automotive Systems GmbH | Audio reproduction systems and methods | 
| US10187740B2 (en)* | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment | 
| JP1640846S (en)* | 2018-10-16 | 2019-09-09 | ||
| CN109584892A (en)* | 2018-11-29 | 2019-04-05 | 网易(杭州)网络有限公司 | Audio analogy method, device, medium and electronic equipment | 
| KR20250141507A (en)* | 2024-03-20 | 2025-09-29 | 삼성전자주식회사 | Electronic device, method, and computer-readable storage medium for reducing power consumption in wireless environment | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| FR2851879A1 (en)* | 2003-02-27 | 2004-09-03 | France Telecom | PROCESS FOR PROCESSING COMPRESSED SOUND DATA FOR SPATIALIZATION. | 
| GB0419346D0 (en)* | 2004-09-01 | 2004-09-29 | Smyth Stephen M F | Method and apparatus for improved headphone virtualisation | 
| JP2006279588A (en)* | 2005-03-29 | 2006-10-12 | Yamaha Corp | Terminal for multispot teleconference | 
| WO2007031896A1 (en)* | 2005-09-13 | 2007-03-22 | Koninklijke Philips Electronics N.V. | Audio coding | 
| WO2007031906A2 (en)* | 2005-09-13 | 2007-03-22 | Koninklijke Philips Electronics N.V. | A method of and a device for generating 3d sound | 
| JP2010118978A (en)* | 2008-11-14 | 2010-05-27 | Victor Co Of Japan Ltd | Controller of localization of sound, and method of controlling localization of sound | 
| US9431987B2 (en)* | 2013-06-04 | 2016-08-30 | Sony Interactive Entertainment America Llc | Sound synthesis with fixed partition size convolution of audio signals | 
| Title | 
|---|
| None* | 
| Publication number | Publication date | 
|---|---|
| CN105684465A (en) | 2016-06-15 | 
| US20160174013A1 (en) | 2016-06-16 | 
| US9848274B2 (en) | 2017-12-19 | 
| KR20160034942A (en) | 2016-03-30 | 
| KR102206572B1 (en) | 2021-01-22 | 
| KR102310859B1 (en) | 2021-10-12 | 
| KR20210008952A (en) | 2021-01-25 | 
| CN105684465B (en) | 2018-06-12 | 
| FR3009158A1 (en) | 2015-01-30 | 
| WO2015011359A1 (en) | 2015-01-29 | 
| ES2754245T3 (en) | 2020-04-16 | 
| JP2016527815A (en) | 2016-09-08 | 
| EP3025514A1 (en) | 2016-06-01 | 
| JP6486351B2 (en) | 2019-03-20 | 
| Publication | Publication Date | Title | 
|---|---|---|
| EP1992198B1 (en) | Optimization of binaural sound spatialization based on multichannel encoding | |
| CN101455095B (en) | Method and apparatus for efficient binaural sound spatialization in the transform domain | |
| EP1600042B1 (en) | Method for the treatment of compressed sound data for spatialization | |
| JP5406956B2 (en) | System for extracting and modifying the echo content of an audio input signal | |
| EP2042001B1 (en) | Binaural spatialization of compression-encoded sound data | |
| EP1999998A1 (en) | Method for binaural synthesis taking into account a theater effect | |
| CN102334348B (en) | Converter and method for converting an audio signal | |
| EP3025514B1 (en) | Sound spatialization with room effect | |
| CN105723459B (en) | For improving the device and method of the perception of sound signal | |
| EP2005420A1 (en) | Device and method for encoding by principal component analysis a multichannel audio signal | |
| US11979723B2 (en) | Content based spatial remixing | |
| EP2009891B1 (en) | Transmission of an audio signal in an immersive audio conference system | |
| US20160212564A1 (en) | Apparatus and Method for Compressing a Set of N Binaural Room Impulse Responses | |
| EP3400599B1 (en) | Improved ambisonic encoder for a sound source having a plurality of reflections | |
| EP1994526B1 (en) | Joint sound synthesis and spatialization | |
| EP3058564B1 (en) | Sound spatialisation with reverberation, optimised in terms of complexity | |
| EP4042418B1 (en) | Determining corrections to be applied to a multichannel audio signal, associated coding and decoding | |
| FR3136072A1 (en) | Signal processing method | |
| Kelly et al. | Exploiting randomness in acoustic impulse responses to achieve headphone compensation through deconvolution | 
| Date | Code | Title | Description | 
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase | Free format text:ORIGINAL CODE: 0009012 | |
| 17P | Request for examination filed | Effective date:20160107 | |
| AK | Designated contracting states | Kind code of ref document:A1 Designated state(s):AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR | |
| AX | Request for extension of the european patent | Extension state:BA ME | |
| DAX | Request for extension of the european patent (deleted) | ||
| STAA | Information on the status of an ep patent application or granted ep patent | Free format text:STATUS: EXAMINATION IS IN PROGRESS | |
| 17Q | First examination report despatched | Effective date:20180322 | |
| GRAP | Despatch of communication of intention to grant a patent | Free format text:ORIGINAL CODE: EPIDOSNIGR1 | |
| STAA | Information on the status of an ep patent application or granted ep patent | Free format text:STATUS: GRANT OF PATENT IS INTENDED | |
| INTG | Intention to grant announced | Effective date:20190416 | |
| GRAS | Grant fee paid | Free format text:ORIGINAL CODE: EPIDOSNIGR3 | |
| GRAA | (expected) grant | Free format text:ORIGINAL CODE: 0009210 | |
| STAA | Information on the status of an ep patent application or granted ep patent | Free format text:STATUS: THE PATENT HAS BEEN GRANTED | |
| AK | Designated contracting states | Kind code of ref document:B1 Designated state(s):AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR | |
| REG | Reference to a national code | Ref country code:GB Ref legal event code:FG4D Free format text:NOT ENGLISH | |
| REG | Reference to a national code | Ref country code:CH Ref legal event code:EP | |
| REG | Reference to a national code | Ref country code:AT Ref legal event code:REF Ref document number:1180058 Country of ref document:AT Kind code of ref document:T Effective date:20190915 | |
| REG | Reference to a national code | Ref country code:DE Ref legal event code:R096 Ref document number:602014053445 Country of ref document:DE Ref country code:IE Ref legal event code:FG4D Free format text:LANGUAGE OF EP DOCUMENT: FRENCH | |
| REG | Reference to a national code | Ref country code:NL Ref legal event code:MP Effective date:20190911 | |
| REG | Reference to a national code | Ref country code:LT Ref legal event code:MG4D | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:BG Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20191211 Ref country code:SE Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:NO Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20191211 Ref country code:FI Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:LT Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:HR Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:AL Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:LV Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:GR Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20191212 Ref country code:RS Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| REG | Reference to a national code | Ref country code:AT Ref legal event code:MK05 Ref document number:1180058 Country of ref document:AT Kind code of ref document:T Effective date:20190911 | |
| REG | Reference to a national code | Ref country code:ES Ref legal event code:FG2A Ref document number:2754245 Country of ref document:ES Kind code of ref document:T3 Effective date:20200416 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:PT Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20200113 Ref country code:PL Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:EE Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:AT Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:NL Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:RO Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:IS Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20200224 Ref country code:CZ Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:SK Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:SM Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| REG | Reference to a national code | Ref country code:DE Ref legal event code:R097 Ref document number:602014053445 Country of ref document:DE | |
| RAP2 | Party data changed (patent owner data changed or rights of a patent transferred) | Owner name:ORANGE | |
| PLBE | No opposition filed within time limit | Free format text:ORIGINAL CODE: 0009261 | |
| STAA | Information on the status of an ep patent application or granted ep patent | Free format text:STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT | |
| PG2D | Information on lapse in contracting state deleted | Ref country code:IS | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:DK Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:IS Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20200112 | |
| 26N | No opposition filed | Effective date:20200615 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:SI Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:MC Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| REG | Reference to a national code | Ref country code:CH Ref legal event code:PL | |
| REG | Reference to a national code | Ref country code:BE Ref legal event code:MM Effective date:20200731 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:LU Free format text:LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date:20200704 Ref country code:IE Free format text:LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date:20200704 Ref country code:LI Free format text:LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date:20200731 Ref country code:CH Free format text:LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date:20200731 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:BE Free format text:LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date:20200731 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:TR Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:MT Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 Ref country code:CY Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] | Ref country code:MK Free format text:LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date:20190911 | |
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] | Ref country code:IT Payment date:20240619 Year of fee payment:11 | |
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] | Ref country code:DE Payment date:20240619 Year of fee payment:11 | |
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] | Ref country code:GB Payment date:20250619 Year of fee payment:12 | |
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] | Ref country code:FR Payment date:20250619 Year of fee payment:12 | |
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] | Ref country code:ES Payment date:20250801 Year of fee payment:12 |