

La présente invention a trait de manière générale au domaine du traitement des signaux audio et plus précisément selon des techniques visant à modifier les paramètres caractéristiques d'un signal audio. L'invention concerne ainsi un procédé et un dispositif de modification des caractéristiques acoustiques d'un signal audio en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal. L'invention s'applique en particulier aux signaux de parole.The present invention relates generally to the field of audio signal processing and more specifically to techniques for modifying the characteristic parameters of an audio signal. The invention thus relates to a method and a device for modifying the acoustic characteristics of an audio signal as a function of modification instructions relating to at least the fundamental frequency and the spectral envelope of the signal. The invention applies in particular to speech signals.
Dans la suite de la description, la référence des documents cités qui est indiquée de manière abrégée entre crochets ([...]), est détaillée dans la liste de documents située en fin de description.In the remainder of the description, the reference of the cited documents which is indicated abbreviated in brackets ([...] ) is detailed in the list of documents at the end of the description.
Les techniques de modification de la parole numérisée s'avèrent très utiles dans de nombreuses applications de traitement de la parole. En synthèse de la parole, elles permettent de procéder à des modifications prosodiques (modification de la hauteur de voix et du rythme d'élocution) souvent nécessaires pour conférer une intonation acceptable au signal de parole synthétique. Dans le domaine de la conversion de voix, l'objectif est de modifier le signal de parole issu d'un locuteur source de manière à ce qu'il semble avoir été prononcé par un locuteur cible désiré. Dans ce but, des adaptations du timbre et de la hauteur de voix sont nécessaires. Citons également les applications de transformation de voix visant à modifier la parole perçue à partir uniquement d'un ensemble de descripteurs cibles (voix grave/aiguë, masculine/féminine/enfantine, voix robotisée, etc.).Digital speech modification techniques are very useful in many speech processing applications. In speech synthesis, they make it possible to make prosodic modifications (modification of the pitch of the voice and the rhythm of speech) often necessary to confer an acceptable intonation to the synthetic speech signal. In the field of voice conversion, the objective is to modify the speech signal from a source speaker so that it appears to have been spoken by a desired target speaker. For this purpose, adaptations of timbre and pitch are necessary. Also noteworthy are voice transformation applications aimed at modifying perceived speech from only a set of target descriptors (deep / low voice, male / female / child, robotic voice, etc.).
La plupart des techniques connues de modification de la parole visent essentiellement à modifier trois types de paramètres :
Cependant, avec la technique TD-PSOLA, si les facteurs de modification de durée utilisés peuvent atteindre la valeur 2 sans distorsion notable du signal, les possibilités de modification de la fréquence fondamentale restent relativement restreintes si l'on veut préserver le naturel du signal de parole résultant. En effet, dans TD-PSOLA, les modifications de la hauteur de voix ne sont accompagnées d'aucune modification de timbre. Or, comme mentionné précédemment, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante.
D'autres techniques connues de modification de voix, permettent, contrairement aux techniques précédentes, d'opérer conjointement sur la hauteur de voix perçue et sur le timbre.
En règle générale, le facteur de ré-échantillonnage, noté γ, n'est pas entier, mais peut être approché par un nombre rationnel P/Q. Lorsque γ=P/Q, il suffit de combiner les deux traitements : un sur-échantillonnage de facteur Q suivi d'un sous-échantillonnage de facteur P.In general, the resampling factor, noted γ, is not integer, but can be approximated by a rational number P / Q. When γ = P / Q, it is sufficient to combine the two treatments: Q-factor oversampling followed by P-factor downsampling.
De manière générale, lorsque le facteur de ré-échantillonnage γ appliqué est supérieur (respectivement inférieur) à 1, il se produit une dilatation (respectivement une contraction) du spectre d'amplitude du signal de parole, c'est-à-dire que la position des harmoniques et des formants du signal, représentée sur l'axe fréquentiel, se trouve multipliée (respectivement divisée) par γ. Une telle transformation spectrale affecte donc le timbre de la voix, et s'accompagnant également d'une multiplication (respectivement division) de la fréquence fondamentale par le même coefficient (γ), agit donc conjointement sur la hauteur de voix. Le ré-échantillonnage est par conséquent une technique efficace et relativement peu complexe pour modifier un signal de parole, puisqu'il permet de modifier conjointement le timbre et la hauteur de voix, et ce, sans apparition d'artefact audible, puisque le ré-échantillonnage préserve la cohérence temporelle du signal et de ce fait ne distord pas l'information véhiculée.In general, when the applied re-sampling factor γ is greater (respectively lower) than 1, there is an expansion (respectively a contraction) of the amplitude spectrum of the speech signal, that is to say that the position of the harmonics and formants of the signal, represented on the frequency axis, is multiplied (respectively divided) by γ. Such a spectral transformation therefore affects the timbre of the voice, and also accompanied by a multiplication (respectively division) of the fundamental frequency by the same coefficient (γ), thus acts jointly on the voice height. Resampling is therefore an effective and relatively uncomplicated technique for modifying a speech signal, since it makes it possible to jointly modify the timbre and the pitch of the voice, without the appearance of an audible artifact, since the re-sampling sampling preserves the temporal coherence of the signal and thus does not distort the information conveyed.
Cependant, le ré-échantillonnage ne permet pas à lui seul de réaliser des transformations pertinentes de la fréquence fondamentale et du timbre. En effet, le ré-échantillonnage du signal de parole provoque un déplacement homothétique des formants dans le même sens que celui de la fréquence fondamentale. Or, des observations sur des signaux de parole naturelle montrent que la plage de variation de la fréquence fondamentale est beaucoup plus importante que la plage de variation des fréquences formantiques. Ainsi, l'application d'un facteur de ré-échantillonnage égal au facteur de modification de la fréquence fondamentale souhaité se traduit par une dilatation/compression de l'enveloppe spectrale trop importante, et donc à une dégradation notable du naturel de la voix, provoquant par exemple des effets de "voix-tube" ou "voix-Donald".
Il ressort de l'état de la technique brièvement exposé ci-dessus, qu'il existe un réel besoin de disposer d'une technique de modification d'un signal de parole, permettant de modifier conjointement au moins la hauteur de voix perçue et le timbre associés au signal de parole, et ce, afin de fournir un signal de parole de haute qualité en terme de naturel de la voix résultante perçue.It follows from the state of the art briefly described above that there is a real need to have a technique for modifying a speech signal, making it possible to jointly modify at least the pitch of the perceived voice and the timbre associated with the speech signal, in order to provide a high quality speech signal in terms of naturalness of the perceived resultant voice.
La présente invention concerne, selon un premier aspect, un procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Selon l'invention, ce procédé est remarquable en ce que :
Le principe à la base de l'invention consiste ainsi à modifier les caractéristiques d'un signal audio selon des consignes de modification prédéfinies concernant l'enveloppe spectrale et la fréquence fondamentale du signal, en combinant deux opérations de modification successives et distinctes dont les effets sont prédéterminés. L'une de ces opérations intervient principalement sur l'enveloppe spectrale du signal considéré (et donc sur le timbre perçu dans le cas d'un signal de parole), avec aussi un effet sur la fréquence fondamentale, mais qui ne permet pas d'appliquer la consigne prédéfinie relative à la fréquence fondamentale. L'autre opération de modification intervient essentiellement sur la fréquence fondamentale du signal considéré (et donc sur la hauteur de voix perçue dans le cas d'un signal de parole). Mais, avantageusement selon l'invention, cette seconde opération de modification est paramétrée de telle sorte à modifier la fréquence fondamentale du signal audio obtenu à l'issue de la première modification, afin que la fréquence fondamentale du signal modifié final soit conforme à la consigne initiale relative à la fréquence fondamentale.The principle underlying the invention thus consists in modifying the characteristics of an audio signal according to predefined modification instructions concerning the spectral envelope and the fundamental frequency of the signal, by combining two successive and distinct modification operations whose effects are predetermined. One of these operations intervenes mainly on the spectral envelope of the signal considered (and thus on the perceived timbre in the case of a signal of speech), with also an effect on the fundamental frequency, but which does not allow of apply the instruction predefined relative to the fundamental frequency. The other modification operation intervenes essentially on the fundamental frequency of the signal considered (and thus on the pitch of voice perceived in the case of a speech signal). But, advantageously according to the invention, this second modification operation is parameterized so as to modify the fundamental frequency of the audio signal obtained at the end of the first modification, so that the fundamental frequency of the final modified signal is in accordance with the instruction initial reference to the fundamental frequency.
Ainsi, grâce à la combinaison de ces deux étapes successives de modification de signal audio, on obtient un signal modifié final dont les caractéristiques relatives à l'enveloppe spectrale et à la fréquence fondamentale sont en totale conformité avec les consignes initiales. L'invention appliquée à un signal de parole permet par exemple de garantir le naturel d'une voix modifiée, puisque les consignes de modification du signal qui sont prédéfinies relativement au timbre et à la hauteur de voix, peuvent être réellement appliquées, sans qu'un changement de timbre (respectivement de hauteur de voix) ne dégrade la hauteur de voix (respectivement le timbre), et ne produise une voix modifiée manquant de naturel et/ou ne correspondant pas à la cible désirée.Thus, thanks to the combination of these two successive audio signal modification steps, a final modified signal is obtained whose characteristics relating to the spectral envelope and the fundamental frequency are in full compliance with the initial instructions. The invention applied to a speech signal makes it possible, for example, to guarantee the naturalness of a modified voice, since the signal modification instructions which are predefined with respect to the tone and the pitch of the voice can actually be applied without a change of timbre (respectively of pitch of voice) does not degrade the pitch of voice (respectively the timbre), and does not produce a modified voice lacking naturalness and / or does not correspond to the desired target.
Selon un mode de réalisation préféré de l'invention, les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial. Dans ce mode de réalisation, la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α'. La seconde opération de modification est alors choisie de manière à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.According to a preferred embodiment of the invention, the instructions for modifying the initial audio signal comprise a stretching / contraction factor γ of the spectral envelope of the initial signal according to the frequency axis, modification factors β and α, respectively. the fundamental frequency and the duration of the initial signal. In this embodiment, the first modification operation produces on the initial audio signal, in addition to the desired modification of the spectral envelope, a modification of the fundamental frequency and a modification of the duration, according to the second factors β 'and α, respectively. . The second modification operation is then chosen so as to modify the fundamental frequency and the duration of the intermediate audio signal, respectively according to the third factors β "and α", such that: α '· α "= α and β' · β" = β.
Ainsi, en choisissant, selon les formules ci-dessus, les paramètres α", β" de la seconde opération de modification, en fonction des facteurs de modification connus α' et β' résultant de l'application de la première opération de modification sur le signal audio initial, on obtient un signal audio modifié final dont les caractéristiques relatives à la durée, la fréquence fondamentale et l'enveloppe spectrale, sont conformes aux consignes de modifications initiales α, β, γ, et donc au signal cible désiré.Thus, by choosing, according to the formulas above, the parameters α ", β" of the second modification operation, as a function of the known modification factors α 'and β' resulting from the application of the first modification operation to the initial audio signal, we obtain a final modified audio signal whose characteristics relating to the duration, the fundamental frequency and the spectral envelope, are in accordance with the instructions of initial modifications α, β, γ, and therefore to the desired target signal.
Selon des caractéristiques particulières de réalisation de l'invention :
Selon une variante de mise en oeuvre du procédé selon l'invention, la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.According to an alternative embodiment of the method according to the invention, the second modification operation is carried out before the first modification operation, the second factors β 'and α' being determined beforehand as a function of the factor γ.
Selon un second aspect, l'invention concerne un dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Conformément à l'invention, ce dispositif comporte :
La présente invention concerne aussi un programme d'ordinateur de traitement audio, ce programme comportant des instructions adaptées à la mise en oeuvre d'un procédé selon l'invention, lorsque le programme est chargé et exécuté dans un système informatique.The present invention also relates to an audio processing computer program, this program including instructions adapted to the implementation of a method according to the invention, when the program is loaded and executed in a computer system.
Les avantages de ce dispositif de traitement audio ou de ce programme d'ordinateur sont identiques à ceux mentionnés plus haut en relation avec le procédé de l'invention.The advantages of this audio processing device or of this computer program are identical to those mentioned above in connection with the method of the invention.
L'invention sera mieux comprise à la lecture de la description détaillée qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins sur lesquels :
La
En référence à la
Selon le mode de réalisation exposé, les consignes de modification du signal de parole initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, et des facteurs α et β de modification respectivement de la durée et de la fréquence fondamentale du signal initial. Les facteurs α et β sont choisis de sorte que, s'ils sont respectivement supérieurs à 1, ils correspondent à une augmentation respectivement de la durée et de la fréquence fondamentale du signal, et s'ils sont respectivement compris entre 0 et 1, ils correspondent à une diminution respectivement de la durée et de la fréquence fondamentale du signal.According to the embodiment described, the instructions for modifying the initial speech signal comprise a stretching / contraction factor γ of the spectral envelope of the initial signal according to the frequency axis, and modifying factors α and β respectively of the duration and fundamental frequency of the initial signal. The factors α and β are chosen such that, if they are respectively greater than 1, they correspond to an increase respectively in the duration and the fundamental frequency of the signal, and if they are respectively between 0 and 1, they correspond to a decrease respectively in the duration and the fundamental frequency of the signal.
Ainsi lorsque le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β et γ permettent de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.Thus, when the audio signal to be modified is a speech signal, the setpoint modification factors α, β and γ make it possible respectively to modify the following parameters relating to the sound reproduction characteristics of the speech signal: the speech speed, the pitch of perceived voice, and the perceived tone of voice.
Le choix des paramètres α, β et γ dépend de la transformation souhaitée. A titre d'illustration, lorsque d'importantes modifications sont opérées, par exemple pour transformer une voix d'adulte en une voix d'enfant, le facteur γ d'étirement/contraction de l'enveloppe spectrale du signal, et le facteur β de modification de la fréquence fondamentale, peuvent atteindre respectivement les valeurs '1,2' et '3'.The choice of the parameters α, β and γ depends on the desired transformation. By way of illustration, when important modifications are made, for example to transform an adult voice into a child's voice, the stretching / contraction factor γ of the spectral envelope of the signal, and the factor β of the fundamental frequency can reach the values '1,2' and '3' respectively.
Une étude statistique des variations de la fréquence fondamentale (pitch) et des fréquences formantiques est fournie dans le document[Hub99] (cf. en particulier, dans ce document, le tableau de l'Annexe A p. 1540). Cette étude peut être utilisée pour déterminer des valeurs "raisonnables" pour les paramètres γ et β. Ainsi, pour transformer une voix d'homme en une voix de femme, des facteurs d'étirement/contraction de l'enveloppe spectrale (γ) et de modification de fréquence fondamentale (β) de valeur respective '1,2' et '1,8', conviennent (il n'est pas nécessaire de modifier la durée dans ce cas particulier).A statistical study of the variations of the fundamental frequency (pitch ) and the formant frequencies is provided in the document[Hub99] (see in particular, in this document, the table of the Annex A page 1540). This study can be used to determine "reasonable" values for parameters γ and β. Thus, to transform a male voice into a female voice, stretching / contraction factors of the spectral envelope (γ) and fundamental frequency change (β) of respective value '1,2' and '1 , 8 ', agree (it is not necessary to change the duration in this particular case).
Le facteur α de modification de la durée du signal, dépend quant à lui, essentiellement du rythme d'élocution souhaité. Dans de nombreuses applications de transformation de voix, la modification du rythme d'élocution est considérée comme secondaire et donc ignorée, ce qui correspond à un facteur α égal à 1. En revanche, pour obtenir des effets très spécifiques, par exemple pour une transformation vers des voix de personnages de géants/nains, des facteurs de ralentissement ou d'accélération du rythme d'élocution peuvent être utilisés. Dans de tels cas, des valeurs typiques du facteur α peuvent être comprises entre les valeurs '0,5' et '2'.The factor α for modifying the duration of the signal depends, in turn, essentially on the desired speech rate. In many voice transformation applications, the change in the speech rate is considered as secondary and thus ignored, which corresponds to a factor α equal to 1. On the other hand, to obtain very specific effects, for example for a transformation to the voices of giants / dwarves characters, slowing or acceleration factors can be used. In such cases, typical values of the factor α may be between the values '0.5' and '2'.
De retour à la
Ainsi, selon l'invention, une première opération de modification est appliquée au signal initial S(n) afin de délivrer un signal audio intermédiaire S1 (n), cette première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale. On notera ici que les signaux audio ou vocaux considérés sont ici sous une forme échantillonnée numérique (n désignant un échantillon quelconque).Thus, according to the invention, a first modification operation is applied to the initial signal S (n) in order to deliver an intermediate audio signal S1 (n), this first modification operation being intended to deform the spectral envelope of the initial signal S (n) according to the instruction γ for modifying the spectral envelope. It will be noted here that the audio or voice signals considered here are in a digital sampled form (n denoting any sample).
Selon le mode de réalisation choisi, la première opération de modification (encore appelée "première transformation") choisie, désignée par 'MOD_OP1', est mise en oeuvre par une technique de type ré-échantillonnage (resampling en anglais) de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Une telle méthode de ré-échantillonnage est connue et décrite par exemple dans le document[Mou95] précédemment cité. On pourra en particulier se reporter au paragraphe 3.2.1 de ce document, intitulé : "Time-domain and frequency-domain resampling". Cependant, contrairement à la technique deresampling exposée dans le document[Mou95] qui utilise leresampling pour modifier la hauteur de voix (pitch), la présente invention utilise la technique deresampling pour modifier essentiellement l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale.According to the embodiment chosen, the first modification operation (also called "primary") selected, designated 'MOD_OP1' is implemented by a re-sampling type of technique(resampling English) of γ factor, with γ greater than 1 corresponding to a stretching of the spectral envelope of the signal, and γ between 0 and 1 corresponding to a contraction of the spectral envelope of the signal. Such a resampling method is known and described for example in the document[Mou95] previously cited. In particular, see section 3.2.1 of this document, entitled "Time domain and frequency domain resampling ". However, unlike theresampling technique described in[Mou95] which usesresampling to modify thepitch , the present invention uses theresampling technique to essentially modify the spectral envelope of the initial signal S (n ) according to the set point γ for modifying the spectral envelope.
Cependant, il est connu qu'une telle technique de ré-échantillonnage, produit sur le signal de parole initial, outre la modification désirée de l'enveloppe spectrale conformément à l'invention, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs, ici désignés par β' et α'. Ces seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes :
Ainsi, conformément à l'invention la seconde opération de modification 'MOD_OP2', à appliquer au signal obtenu (S1(n)), dit "signal intermédiaire", suite à l'application de la première transformation MOD_OP1, doit être choisie de façon à prendre en compte les effets de MOD_OP1 sur la fréquence fondamentale, de sorte que la fréquence fondamentale obtenue pour le signal final (S2(n)) soit conforme à la consigne (β) relative à la fréquence fondamentale. Bien entendu, s'il existe également une consigne concernant la durée (α), comme dans le cas du présent mode de réalisation, la seconde transformation MOD_OP2 doit aussi tenir compte des effets de la première transformation MOD_OP1 sur la durée du signal initial.Thus, according to the invention, the second modification operation 'MOD_OP2', to be applied to the obtained signal (S1 (n)), called the "intermediate signal", following the application of the first transformation MOD_OP1, must be chosen so to take into account the effects of MOD_OP1 on the fundamental frequency, so that the fundamental frequency obtained for the final signal (S2 (n)) is in accordance with the reference (β) relative to the fundamental frequency. Of course, if there is also a setpoint concerning the duration (α), as in the case of the present embodiment, the second transformation MOD_OP2 must also take into account the effects of the first transformation MOD_OP1 on the duration of the initial signal.
Ainsi, dans le mode de réalisation exposé, la seconde opération de modification est destinée à modifier la fréquence fondamentale et la durée du signal intermédiaire (S1(n)), selon respectivement des troisièmes facteurs β" et α", tels que :
De cette façon, la transformation globale effectuée entre le signal initial (S(n)) et le signal final (S2(n)), d'un point de vue de la fréquence fondamentale et de la durée, correspond à une transformation de facteurs respectifs β et α, selon les équations (2) ci-dessus.In this way, the overall transformation effected between the initial signal (S (n)) and the final signal (S2 (n)), from a point of view of fundamental frequency and duration, corresponds to a transformation of factors respective β and α, according to equations (2) above.
Dans le mode de réalisation, choisi dans lequel la première opération de modification MOD-OP1 est une technique de ré-échantillonnage de facteur γ produisant des effets sur la fréquence fondamentale et la durée selon les équations (1) plus haut, les troisièmes facteurs β" et α" relatifs à la seconde transformation MOD_OP2 sont obtenus selon les équations suivantes :
En pratique, dans un mode de réalisation préféré, la seconde opération de modification MOD_OP2 est mise en oeuvre par une technique du type PSOLA (Pitch-Synchronous Overlap and Add), et en particulier, une technique PSOLA appliquée dans le domaine temporel, c'est-à-dire TD-PSOLA (time-domain PSOLA). La technique TD-PSOLA est décrite plus bas dans la description en liaison avec la
La seconde opération de modification MOD_OP2 peut être également réalisée à partir de techniques telles que LP-PSOLA (Linear Pediction PSOLA) ou FD-PSOLA (Frequency Domain PSOLA) ou en encore à partir d'une technique de type HNM (Harmonic plus Noise Model), ou de type vocoder de phase. On peut même envisager d'utiliser deux techniques indépendantes pour la modification de la fréquence fondamentale et de la durée.The second modification operation MOD_OP2 can also be carried out using techniques such as LP-PSOLA (Linear Pediction PSOLA) or FD-PSOLA (Frequency Domain PSOLA) or again using a technique of the HNM type (Harmonic plus Noise Model ), or phase vocoder type. One can even consider using two independent techniques for modifying the fundamental frequency and the duration.
En revanche, quelle que soit la technique utilisée pour la modification de la fréquence fondamentale, cette technique doit préserver globalement l'enveloppe spectrale du signal traité (en l'occurrence le signal intermédiaire S1(n)), puisque l'enveloppe spectrale du signal initial (S(n)) est modifiée essentiellement par la première opération de modification MOD_OP1.On the other hand, whatever the technique used for the modification of the fundamental frequency, this technique must globally preserve the spectral envelope of the processed signal (in this case the intermediate signal S1 (n)), since the spectral envelope of the signal initial (S (n)) is modified essentially by the first modification operation MOD_OP1.
De retour à la
Ainsi, à l'étape E12, le signal initial S1(n) est modifié selon la transformation MOD_OP1, permettant d'obtenir un signal intermédiaire S1(n) dont l'enveloppe spectrale est modifiée (étirée ou contractée), par rapport au signal initial, selon la consigne γ de modification de l'enveloppe spectrale, et dont la fréquence fondamentale et la durée, sont respectivement modifiées selon les seconds facteurs β' et α'.Thus, in step E12, the initial signal S1 (n) is modified according to the transformation MOD_OP1, making it possible to obtain an intermediate signal S1 (n) whose spectral envelope is modified (stretched or contracted), with respect to the signal initial, according to the setpoint γ of modification of the spectral envelope, and whose fundamental frequency and duration, are respectively modified according to the second factors β 'and α'.
Enfin, à l'étape E13, le signal intermédiaire S1(n) est traité selon la transformation MOD_OP2, permettant de modifier la fréquence fondamentale et la durée du signal intermédiaire, afin d'obtenir le signal final S2(n) dont la durée, la fréquence fondamentale et l'enveloppe spectrale sont conformes aux consignes de modifications respectives α, β, γ.Finally, in step E13, the intermediate signal S1 (n) is processed according to the transformation MOD_OP2, making it possible to modify the fundamental frequency and the duration of the intermediate signal, in order to obtain the final signal S2 (n) whose duration, the fundamental frequency and the spectral envelope are in accordance with the respective modification instructions α, β, γ.
Dans le mode de réalisation choisi et présenté, l'étape de modification de l'enveloppe spectrale (MOS_OP1), c'est-à-dire du timbre du signal de parole, précède l'étape de modification des paramètres prosodiques (hauteur de voix et élocution) liés respectivement à la fréquence fondamentale et à la durée du signal. Cependant, l'ordre de ces opérations peut être inversé, à condition que les facteurs de modification de la première étape prennent en compte les effets de la seconde étape sur la fréquence fondamentale, et le cas échéant sur la durée, du signal traité, de manière à respecter, au global, les consignes de modification du signal initial. En particulier, dans la mise en oeuvre décrite plus haut, les seconds facteurs β' et α' de l'étape MOD_OP2, exécutée cette fois en premier, seraient alors déterminés au préalable en fonction du facteur γ de l'étape MOS_OP1 exécutée en second.In the embodiment chosen and presented, the step of modifying the spectral envelope (MOS_OP1), that is to say the timbre of the speech signal, precedes the step of modifying the prosodic parameters (voice height and elocution) related respectively to the fundamental frequency and the duration of the signal. However, the order of these operations can be reversed, provided that the modifying factors of the first step take into account the effects of the second step on the fundamental frequency, and if necessary on the duration, of the signal processed, of in order to respect, overall, the instructions for modifying the initial signal. In particular, in the implementation described above, the second factors β 'and α' of the step MOD_OP2, executed this time first, would then be determined beforehand as a function of the factor γ of the second step MOS_OP1 executed. .
La
Au cours d'une première étape illustrée par la
En effet, les instants de fermeture de glotte, aussi appelés instants d'analyse, sont situés au voisinage des maxima d'énergie du signal de parole et le traitement TD-PSOLA permet une bonne préservation des caractéristiques du signal de parole au voisinage des extrémités des segments obtenus par analyse pitch-synchrone. Ainsi, lorsque ces instants sont repérés avec une précision satisfaisante, les performances de TD-PSOLA sont optimisées. Une telle segmentation pitch-synchrone est obtenue, par exemple, par des techniques à base de délais de groupe ou encore à partir de la méthode proposée par
Cette étape de marquage pitch-synchrone est de préférence réalisée hors-ligne, c'est-à-dire non en temps réel, ce qui permet de réduire la charge de calcul pour une mise en oeuvre en temps réel.This pitch-synchronous marking step is preferably performed offline, that is to say not in real time, which reduces the calculation load for implementation in real time.
En fonction des facteurs de modification souhaités pour la fréquence fondamentale et la durée, les instants séparant les segments sont modifiés selon les règles suivantes :
Une description détaillée de ces règles se trouve dans le document[Mou95], en particulier aux paragraphes 4.2.1 à 4.2.3 dudit document.A detailed description of these rules can be found in[Mou95] , particularly in paragraphs 4.2.1 to 4.2.3 of that document.
A l'issue de cette étape, le signal obtenu comprend un nombre entier de segments ou trames, chacun d'une durée correspondant à une période qui est l'inverse de la fréquence fondamentale modifiée, comme cela est représenté sur la
Le traitement de modification comprend ensuite un fenêtrage du signal autour des instants d'analyse, c'est-à-dire des instants séparant les segments. Cette étape de fenêtrage est illustrée par la
Au cours de ce fenêtrage, on sélectionne, pour chaque instant d'analyse, une portion du signal fenêtrée autour de cet instant. Cette portion de signal est appelée "signal court-terme" et s'étend, dans l'exemple, sur une durée correspondant à deux fois la période fondamentale modifiée comme représentée à la
Le traitement de modification comprend enfin une sommation des signaux court-terme qui sont recentrés sur les instants de synthèse et ajoutés comme représenté à la
Dans les modes de réalisation de l'invention exposés ci-dessus à titre d'exemples, les coefficients de modification ont été choisis constants. Cependant, le procédé général selon l'invention décrit supra peut être mis en oeuvre pour opérer des modifications de signal audio selon des coefficients α, β et γ non constants. Dans un tel cas, on peut par exemple réaliser un découpage en trames (préférentiellement pitch-synchrones) et déterminer pour chacune d'entre elles des coefficients de modification constants. Les étapes E12 et E13 sont alors effectuées indépendamment sur chacune des trames. Puis les trames sont combinées par une technique classique d'addition-recouvrement de façon à reconstruire le signal transformé souhaité.In the embodiments of the invention set forth above as examples, the modification coefficients have been chosen constant. However, the general method according to the invention described above can be implemented to make changes to the audio signal according to non-constant coefficients α, β and γ. In such a case, one can for example perform a division into frames (preferably pitch-synchronous) and determine for each of them constant modification coefficients. Steps E12 and E13 are then performed independently on each of the frames. Then the frames are combined by a conventional addition-overlap technique to reconstruct the desired transformed signal.
Un procédé de modification d'un signal audio selon l'invention, tel que décrit supra, est en pratique mis en oeuvre par un dispositif de traitement de signaux audio, et plus particulièrement de signaux de parole. Un tel dispositif comporte donc des moyens matériels notamment électroniques et/ou logiciels adaptés à mettre en oeuvre un procédé selon l'invention.A method of modifying an audio signal according to the invention, as described above, is in practice implemented by a device for processing audio signals, and more particularly speech signals. Such a device therefore comprises material means including electronic and / or software adapted to implement a method according to the invention.
Selon une implémentation préférée, les étapes du procédé de modification d'un signal audio, selon l'invention, sont déterminées par les instructions d'un programme d'ordinateur utilisé dans un tel dispositif de traitement, constitué typiquement par un système informatique, par exemple un ordinateur personnel.According to a preferred implementation, the steps of the method for modifying an audio signal, according to the invention, are determined by the instructions of a computer program used in such a processing device, typically constituted by a computer system, by example a personal computer.
Le procédé selon l'invention est alors mis en oeuvre lorsque le programme précité est chargé dans des moyens informatiques incorporés dans le dispositif de traitement audio, et dont le fonctionnement est alors commandé par l'exécution du programme.The method according to the invention is then implemented when the aforementioned program is loaded into computer means incorporated in the audio processing device, and whose operation is then controlled by the execution of the program.
On entend ici par "programme d'ordinateur" un ou plusieurs programmes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en oeuvre de l'invention lorsqu'il est exécuté par un système informatique approprié.The term "computer program" herein refers to one or more computer programs forming a set (software) whose purpose is the implementation of the invention when it is executed by an appropriate computer system.
En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'informations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.Accordingly, the invention also relates to such a computer program, particularly in the form of software stored on an information carrier. Such an information carrier may be constituted by any entity or device capable of storing a program according to the invention.
Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.For example, the medium in question may comprise a hardware storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk. As a variant, the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
D'autre part, le support d'informations peut être aussi un support immatériel transmissible, tel qu'un signal électrique ou optique pouvant être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.On the other hand, the information medium can also be a transmissible immaterial medium, such as an electrical or optical signal that can be conveyed via an electrical or optical cable, by radio or by other means. A program according to the invention can in particular be downloaded to an Internet type network.
D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.From a design point of view, a computer program according to the invention can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code (for example eg, a partially compiled form), or in any other form desirable for implementing a method according to the invention.
Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits et représentés dans le cadre de cette description, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.Of course, the present invention is not limited to the embodiments described and shown in the context of this description, but encompasses, on the contrary, any variant within the scope of the skilled person.
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0753759 | 2007-03-12 |
| Publication Number | Publication Date |
|---|---|
| EP1970894A1true EP1970894A1 (en) | 2008-09-17 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP08151708AWithdrawnEP1970894A1 (en) | 2007-03-12 | 2008-02-20 | Method and device for modifying an audio signal |
| Country | Link |
|---|---|
| US (1) | US8121834B2 (en) |
| EP (1) | EP1970894A1 (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115985282A (en)* | 2021-10-14 | 2023-04-18 | 北京字跳网络技术有限公司 | Speech rate adjustment method, device, electronic device and readable storage medium |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101551982B1 (en)* | 2009-06-19 | 2015-09-10 | 삼성전자주식회사 | Apparatus and method for transmitting and receiving signals in a single carrier-frequency division multiple access communication system |
| US20120078625A1 (en)* | 2010-09-23 | 2012-03-29 | Waveform Communications, Llc | Waveform analysis of speech |
| US20140207456A1 (en)* | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
| US8744854B1 (en)* | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
| US8847056B2 (en) | 2012-10-19 | 2014-09-30 | Sing Trix Llc | Vocal processing with accompaniment music input |
| US9798974B2 (en) | 2013-09-19 | 2017-10-24 | Microsoft Technology Licensing, Llc | Recommending audio sample combinations |
| US9372925B2 (en)* | 2013-09-19 | 2016-06-21 | Microsoft Technology Licensing, Llc | Combining audio samples by automatically adjusting sample characteristics |
| US10176818B2 (en)* | 2013-11-15 | 2019-01-08 | Adobe Inc. | Sound processing using a product-of-filters model |
| US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
| US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
| US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
| US10622002B2 (en) | 2017-05-24 | 2020-04-14 | Modulate, Inc. | System and method for creating timbres |
| WO2019232235A1 (en) | 2018-05-31 | 2019-12-05 | Shure Acquisition Holdings, Inc. | Systems and methods for intelligent voice activation for auto-mixing |
| CN112335261B (en) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | Patterned microphone array |
| US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
| US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
| WO2020191380A1 (en) | 2019-03-21 | 2020-09-24 | Shure Acquisition Holdings,Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
| US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
| CN113841419B (en) | 2019-03-21 | 2024-11-12 | 舒尔获得控股公司 | Ceiling array microphone enclosure and associated design features |
| CN114051738B (en) | 2019-05-23 | 2024-10-01 | 舒尔获得控股公司 | Steerable speaker array, system and method thereof |
| WO2020243471A1 (en) | 2019-05-31 | 2020-12-03 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
| EP4018680A1 (en) | 2019-08-23 | 2022-06-29 | Shure Acquisition Holdings, Inc. | Two-dimensional microphone array with improved directivity |
| WO2021087377A1 (en) | 2019-11-01 | 2021-05-06 | Shure Acquisition Holdings, Inc. | Proximity microphone |
| CN111063364B (en)* | 2019-12-09 | 2024-05-10 | 广州酷狗计算机科技有限公司 | Method, apparatus, computer device and storage medium for generating audio |
| US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
| US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
| WO2022076923A1 (en) | 2020-10-08 | 2022-04-14 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
| EP4285605A1 (en) | 2021-01-28 | 2023-12-06 | Shure Acquisition Holdings, Inc. | Hybrid audio beamforming system |
| CN113362837B (en)* | 2021-07-28 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | Audio signal processing method, equipment and storage medium |
| WO2023059655A1 (en) | 2021-10-04 | 2023-04-13 | Shure Acquisition Holdings, Inc. | Networked automixer systems and methods |
| US12250526B2 (en) | 2022-01-07 | 2025-03-11 | Shure Acquisition Holdings, Inc. | Audio beamforming with nulling control system and methods |
| CN114822580B (en)* | 2022-04-28 | 2024-06-18 | 北京奇音妙想科技有限公司 | Method and device for correcting pitch and tone of audio frequency based on resampling acceleration calculation |
| WO2023235517A1 (en) | 2022-06-01 | 2023-12-07 | Modulate, Inc. | Scoring system for content moderation |
| CN116092509B (en)* | 2023-02-03 | 2025-07-22 | 上海哔哩哔哩科技有限公司 | Audio signal processing method, device, computer equipment and storage medium |
| CN118588085B (en)* | 2024-08-05 | 2024-12-03 | 南京硅基智能科技有限公司 | Voice interaction method, voice interaction system and storage medium |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0363233A1 (en) | 1988-09-02 | 1990-04-11 | France Telecom | Method and apparatus for speech synthesis by wave form overlapping and adding |
| WO2006106466A1 (en)* | 2005-04-07 | 2006-10-12 | Koninklijke Philips Electronics N.V. | Method and signal processor for modification of audio signals |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5504833A (en)* | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
| US6910007B2 (en)* | 2000-05-31 | 2005-06-21 | At&T Corp | Stochastic modeling of spectral adjustment for high quality pitch modification |
| US20050065784A1 (en)* | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
| FR2868587A1 (en)* | 2004-03-31 | 2005-10-07 | France Telecom | METHOD AND SYSTEM FOR RAPID CONVERSION OF A VOICE SIGNAL |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0363233A1 (en) | 1988-09-02 | 1990-04-11 | France Telecom | Method and apparatus for speech synthesis by wave form overlapping and adding |
| WO2006106466A1 (en)* | 2005-04-07 | 2006-10-12 | Koninklijke Philips Electronics N.V. | Method and signal processor for modification of audio signals |
| Title |
|---|
| A. KAIN; Y. STYLIANOU: "Stochastic modeling of spectral adjustment for high quality pitch modification", PROCEEDINGS OF ICASSP'OO, vol. 2, June 2000 (2000-06-01), pages 949 - 952, XP010504881 |
| A.K. SYRDAL; S.A. STEELE: "Vowel F1 as a function of speaker fundamental frequency", 110TH MEETING OF JASA, vol. 78, 1985 |
| D. VINCENT; O. ROSEC; T. CHONAVEL: "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, May 2006 (2006-05-01), pages 381 - 384 |
| E. MOULINES; J. LAROCHE: "Non-parametric techniques for pitch- scale and time-scale modification of speech", SPEECH COMMUNICATION, vol. 16, 1995, pages 175 - 205, XP004024959, DOI: doi:10.1016/0167-6393(94)00054-E |
| J. E. HUBER ET AL.: "Formants of children, women, and men: the effect of vocal intensity variation", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 106, no. 3, September 1999 (1999-09-01), pages 1532 - 1542, XP012001200, DOI: doi:10.1121/1.427150 |
| MOULINES E ET AL: "Non-parametric techniques for pitch-scale and time-scale modification of speech", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 16, no. 2, February 1995 (1995-02-01), pages 175 - 205, XP004024959, ISSN: 0167-6393* |
| Y. STYLIANOU: "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", ECOLE NATIONALE SUPÉRIEURE DES TÉLÉCOMMUNICATIONS, 1996 |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115985282A (en)* | 2021-10-14 | 2023-04-18 | 北京字跳网络技术有限公司 | Speech rate adjustment method, device, electronic device and readable storage medium |
| Publication number | Publication date |
|---|---|
| US8121834B2 (en) | 2012-02-21 |
| US20080255830A1 (en) | 2008-10-16 |
| Publication | Publication Date | Title |
|---|---|---|
| EP1970894A1 (en) | Method and device for modifying an audio signal | |
| US8255222B2 (en) | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus | |
| JP3266819B2 (en) | Periodic signal conversion method, sound conversion method, and signal analysis method | |
| JP6496030B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
| US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
| EP1944755B1 (en) | Modification of a voice signal | |
| EP2881947A1 (en) | Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis | |
| Türk et al. | Subband based voice conversion. | |
| JP4490507B2 (en) | Speech analysis apparatus and speech analysis method | |
| WO2005106852A1 (en) | Improved voice signal conversion method and system | |
| LU88189A1 (en) | Speech segment coding and pitch control methods for speech synthesis | |
| WO2004070705A1 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
| JP3960834B2 (en) | Speech enhancement device and speech enhancement method | |
| Al-Radhi et al. | Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis. | |
| WO2005106853A1 (en) | Method and system for the quick conversion of a voice signal | |
| WO2004088633A1 (en) | Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method | |
| Dorran | Audio time-scale modification | |
| d’Alessandro et al. | Voice quality modification for emotional speech synthesis | |
| JP2904279B2 (en) | Voice synthesis method and apparatus | |
| US11302300B2 (en) | Method and apparatus for forced duration in neural speech synthesis | |
| Anil et al. | Expressive speech synthesis using prosodic modification for Marathi language | |
| Anil et al. | Speech modification for prosody conversion in expressive Marathi text-to-speech synthesis | |
| WO2006082287A1 (en) | Method of estimating a voice conversion function | |
| JP3302075B2 (en) | Synthetic parameter conversion method and apparatus | |
| Espic Calderón | In search of the optimal acoustic features for statistical parametric speech synthesis |
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase | Free format text:ORIGINAL CODE: 0009012 | |
| AK | Designated contracting states | Kind code of ref document:A1 Designated state(s):AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR | |
| AX | Request for extension of the european patent | Extension state:AL BA MK RS | |
| 17P | Request for examination filed | Effective date:20090213 | |
| AKX | Designation fees paid | Designated state(s):AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR | |
| 17Q | First examination report despatched | Effective date:20090316 | |
| STAA | Information on the status of an ep patent application or granted ep patent | Free format text:STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN | |
| 18D | Application deemed to be withdrawn | Effective date:20120207 |