Movatterモバイル変換


[0]ホーム

URL:


DE102011084035A1 - Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals - Google Patents

Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals
Download PDF

Info

Publication number
DE102011084035A1
DE102011084035A1DE102011084035ADE102011084035ADE102011084035A1DE 102011084035 A1DE102011084035 A1DE 102011084035A1DE 102011084035 ADE102011084035 ADE 102011084035ADE 102011084035 ADE102011084035 ADE 102011084035ADE 102011084035 A1DE102011084035 A1DE 102011084035A1
Authority
DE
Germany
Prior art keywords
value
parameter
support vector
model output
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102011084035A
Other languages
German (de)
Inventor
Goran Markovic
Thomas KUNERT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nero AG
Original Assignee
Nero AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nero AGfiledCriticalNero AG
Priority to DE102011084035ApriorityCriticalpatent/DE102011084035A1/en
Publication of DE102011084035A1publicationCriticalpatent/DE102011084035A1/en
Ceasedlegal-statusCriticalCurrent

Links

Images

Classifications

Landscapes

Abstract

The device (100) has a model output variable calculator (120) that is adapted to calculate values of multiple model output variables (122), which depict the differences with respect to multiple criteria between a reference signal (112) and a test signal (110). A support vector machine (130) is adapted to provide a difference-evaluation value (116) based on the model output variables and multiple support vector machine parameters (124). The difference evaluation value represents audible differences between the test signal and the reference signal in the form of a single numeric value. Independent claims are included for the following: (1) a method for evaluating a perceived audio quality; and (2) a computer program for executing the perceived audio quality evaluating method.

Description

Translated fromGerman

Technisches GebietTechnical area

Ausführungsbeispiele gemäß der Erfindung beziehen sich auf eine Vorrichtung, ein Verfahren und ein Computerprogramm zur Bewertung einer wahrgenommenen Audioqualität.Embodiments according to the invention relate to a device, a method and a computer program for evaluating a perceived audio quality.

Ausführungsbeispiele gemäß der Erfindung beziehen sich auf die Verwendung einer Stützvektor-Regression bei der weiterentwickelten Bewertung einer wahrgenommenen Audioqualität (auch als ”Advanced Perceptual Evaluation of Audio quality” oder kurz ”APEAQ” bezeichnet).Embodiments according to the invention relate to the use of support vector regression in the advanced evaluation of perceived audio quality (also referred to as "Advanced Perceptual Evaluation of Audio Quality" or "APEAQ" for short).

Ausführungsbeispiele gemäß der Erfindung beziehen sich somit auf Verbesserungen bei der weiterentwickelten Bewertung einer wahrgenommenen Audioqualität.Embodiments according to the invention thus relate to improvements in the advanced evaluation of perceived audio quality.

Hintergrund der ErfindungBackground of the invention

In vielen technischen Anwendungen ist es wünschenswert, eine Audioqualität zu bewerten. Eine entsprechende Bewertung kann beispielsweise dazu dienen, um zu überprüfen, ob ein Gerät oder ein System zur Aufnahme und/oder Wiedergabe und/oder Übertragung eines Audiosignals zufriedenstellend funktioniert. Allerdings hat sich gezeigt, dass einfache Verfahren zum Vergleich von Audiosignalen nicht immer zuverlässige Ergebnisse liefern, da moderne Audiocodierer bzw. Audiodecodierer zur Verringerung einer Bitrate bewusst Veränderung des Audiosignals in Kauf nehmen, sofern diese Änderungen den Höreindruck nicht bzw. nicht all zu sehr verändern bzw. verschlechtern.In many technical applications, it is desirable to evaluate audio quality. For example, a rating may be used to verify that a device or system for recording and / or playing back and / or transmitting an audio signal is functioning satisfactorily. However, it has been shown that simple methods for comparing audio signals do not always provide reliable results, since modern audio coders or audio decoders consciously accept changes in the audio signal in order to reduce bit rate, if these changes do not or do not change the audio impression too much worsen.

Um auch die Qualität von codiert gespeicherten bzw. übertragenen Audiosignalen bewerten zu können, wird oftmals eine sogenannte Wahrnehmungs-basierte Bewertung der Audioqualität beziehungsweise eine Bewertung einer wahrgenommenen Audioqualität vorgenommen. Ein Algorithmus namens ”PEAQ” (”Perceptual Evaluation of Audio Quality”, Bewertung der wahrgenommenen Audioqualität) ist ein standardisierter Algorithmus für eine objektive Messung (bzw. Bewertung) der wahrgenommenen Audioqualität. Der Algorithmus ist in derEmpfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion (ITU) beschrieben.In order to be able to evaluate the quality of encoded stored or transmitted audio signals, often a so-called perception-based evaluation of the audio quality or an evaluation of a perceived audio quality is undertaken. An algorithm called "PEAQ"("Perceptual Evaluation of Audio Quality") is a standardized algorithm for the objective measurement (or evaluation) of the perceived audio quality. The algorithm is in the Recommendation ITU-R BS.1387 of the International Telecommunication Union (ITU) described.

Implementierungen dieses PEAQ-Algorithmus sind beispielsweise von dem in Deutschland ansässigen Unternehmen ”Opticom” erhältlich und können beispielsweise zur Messung der Qualität eines Audiocodierers bzw. eines Audiodecodierers verwendet werden.Implementations of this PEAQ algorithm are available, for example, from the German-based company "Opticom" and can be used, for example, to measure the quality of an audio encoder or an audio decoder.

In der Master-Arbeit”Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic (Masterarbeit an der Universität von Novi Sad, Fakultät für technische Wissenschaften, Serbien, Juli 2006) ist eine weiterentwickelte Bewertung der wahrgenommenen Audioqualität (auch als ”Advanced PEAQ” bzw. ”APEAQ” bezeichnet), bei der es sich um eine verbesserte Version der Bewertung der wahrgenommenen Audioqualität (PEAQ) handelt, und die auf der PEAQ basiert, beschrieben.In the master thesis Goran Markovic's "Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" (Master Thesis at the University of Novi Sad, Faculty of Technical Sciences, Serbia, July 2006) is an advanced assessment of perceived audio quality (also referred to as "Advanced PEAQ" or "APEAQ"), which is an improved version of the perceived audio quality (PEAQ) rating and is based on PEAQ.

Im Folgenden wird der Hintergrund der vorliegenden Erfindung noch etwas ausführlicher erläutert.In the following, the background of the present invention will be explained in more detail.

Zunächst werden die gängigen Abkürzungen eingeführt, die in der folgenden Beschreibung verwendet werden:

”PEAQ”
(englisch: ”Perceptual Evaluation of Audio Quality”): Bewertung der wahrgenommenen Audioqualität;
”APEAQ”
(englisch: ”Advanced Perceptual Evaluation of Audio Quality”): weiterentwickelte Bewertung der wahrgenommenen Audioqualität;
”MOV”
(englisch ”Model Output Variable”): Modell-Ausgangsvariable;
”ODG”
(englisch: ”Objective Difference Grade”): Objektiver Differenzgrad, Objektive Differenzbewertung;
”SDG”
(englisch: ”Subjective Difference Grade”): Subjektiver Differenzgrad bzw. Subjektive Differenzbewertung;
”NMR”
(englisch:” Noise to Mask Ratio”): Verhältnis von Fehlersignal zur Verdeckungsschwelle;
”SVM”
(englisch: ”Support Vector Machine”): Stützvektormaschine;
”SVR”
(englisch: ”Support Vector Regression”): Stützvektor-Regression;
”SV”
(englisch: ”Support Vector”): Stützvektor;
First, the common abbreviations used in the following description are introduced:
"PEAQ"
(English: "Perceptual Evaluation of Audio Quality"): assessment of the perceived audio quality;
"APEAQ"
(Advanced Perceptual Evaluation of Audio Quality): evolving assessment of perceived audio quality;
"MOV"
("Model Output Variable"): model output variable;
"ODG"
(English: "Objective Difference Grade"): Objective differential degree, objective difference evaluation;
"SDG"
(Subjective Difference Grade): Subjective Difference Score or Subjective Difference Score;
"NMR"
(English: "Noise to Mask Ratio"): ratio of error signal to masking threshold;
"SVM"
(English: "Support Vector Machine"): Support vector machine;
"SVR"
(English: "Support Vector Regression"): Support vector regression;
"SV"
(English: "Support Vector"): Support vector;

Im Folgenden werden einige Abkürzungen eingeführt, die Modellausgangsvariablen (MOVs) bezeichnen:

SNMR
(englisch: ”Segmental Noise to Mask Ratio”): Segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle;
ModDiff
(englisch: ”Modulation Difference”): Modulationsabweichung;
NoiseLoud
(englisch: ”Noise Loudness”): Störlautheit;
EHS
(englisch: ”Error Harmonic Structure”): Harmonische Fehlerstruktur;
MissingComponents
(englisch: ”Loudness of Missing Components”): Lautheit fehlender Komponenten;
LinDist
(englisch: ”Linear Distortions”): Lineare Störungen bzw. lineare Verzerrungen;
NoiseLoudAsym
(englisch: ”Noise Loudness Asymmetric”): Wert oder Effektivwert der asymmetrischen Störlautheit (Linearkombination von Störlautheit (NoiseLoud) und Lautheit fehlender Komponenten (MissingComponents);
BandwidthRef
(englisch: ”Bandwidth of the reference signal”): Bandbreite des Referenzsignals;
BandwidthTest
(englisch: ”bandwidth of the test signal”): Bandbreite des Testsignals;
TotalNMR
(englisch: ”Total Noise To Mask Ratio”): Gesamtes Verhältnis von Störungen zu Maskierungsschwelle;
RelDistFrames
(englisch: ”Relative Disturbed Frames”): Relative gestörte Rahmen (Bruchteil von gestörten Rahmen);
MFPD
(englisch: ”Maximum Filtered Probability of Detection”): maximale gefilterte Detektionswahrscheinlichkeit;
ADB
(englisch: ”Average Distorted Block”): Mittelwert-verzerrter-Block bzw. Mittlerer-verzerrter-Block-Wert;
ITDDist
(englisch: ”Interaural Time Difference Distance”): Zwischen-Ohr Zeit-Unterschieds-Abstand, Abstandswert des Zwischen-Ohr-Zeit-Unterschieds;
ILDDist
(englisch: ”Interaural Level Difference Distance”): Zwischen-Ohr Pegel-Unterschieds-Abstand, Abstandswert des Zwischen-Ohr-Pegel-Unterschieds;
IACCDist
(englisch: ”Interaural Cross-Correlation Coefficient Distance): Zwischen-Ohr Kreuz-Korrelations-Koeffizienten-Abstand;
Win
(englisch: ”windowed”): gefenstert, gefensterter Mittelwert bzw. Mittelwert über ein Fenster;
Avg
(englisch: ”Average”): Mittelwert (linearer Mittelwert);
Rms
(englisch: ”Root Mean Square”): Wurzel aus dem mittleren Quadrat, quadrierter Mittelwert.
The following are some abbreviations that denote model output variables (MOVs):
SNMR
Segmental Noise to Mask Ratio: Segmented ratio of error signal to masking threshold;
ModDiff
(English: "modulation difference"): modulation deviation;
NoiseLoud
(English: "Noise Loudness"): Disturbance loudness;
EHS
(English: "Error Harmonic Structure"): harmonic error structure;
Missing Components
(English: "Loudness of Missing Components"): Loudness of missing components;
LinDist
(English: "Linear Distortions"): Linear perturbations or linear distortions;
NoiseLoudAsym
(English: "Noise Loudness Asymmetric"): value or rms value of the asymmetric noise (linear combination of noise loudness (NoiseLoud) and loudness of missing components (MissingComponents);
BandwidthRef
(English: "Bandwidth of the reference signal"): bandwidth of the reference signal;
Bandwidth Test
(English: "bandwidth of the test signal"): bandwidth of the test signal;
TotalNMR
(English: "Total Noise To Mask Ratio"): total ratio of disturbances to masking threshold;
RelDistFrames
(English: "Relative Disturbed Frames"): Relative disturbed frame (fraction of disturbed frame);
MFPD
(Maximum Filtered Probability of Detection): maximum filtered probability of detection;
ADB
(English: "Average Distorted Block"): mean-distorted-block or middle-distorted-block-value;
ITDDist
(English: "Interaural Time Difference Distance"): Inter-ear time difference distance, distance value of the inter-ear time difference;
ILDDist
(English: "Interaural Level Difference Distance"): Inter-ear level difference distance, distance value of the inter-ear level difference;
IACCDist
(English: "Interaural Cross-Correlation Coefficient Distance): inter-ear cross-correlation coefficient distance;
Win
(English: "windowed"): fenestrated, windowed mean or mean over a window;
Avg
(English: "Average"): average (linear mean);
rms
(English: "Root Mean Square"): Root from the middle square, squared average.

Im Folgenden wird kurz auf die Namensgebung von MOVs eingegangen, um das Verständnis zu erleichtern.The following is a brief reference to the naming of MOVs to facilitate understanding.

Ein MOV-Name ist üblicherweise aus drei Teilen zusammengesetzt:An MOV name is usually composed of three parts:

Zum Beispiel gilt:RmsNoiseLoudA = Rms + NoiseLoud + A.For example: RmsNoiseLoudA = Rms + NoiseLoud + A.

Dabei erklärt der erste Teil die verwendete Zeit-Mittelung (zum Beispiel ”Rms”, also quadratische Mittelung), und darauf folgt ein Name (zum Beispiel ”NoiseLoud”), der die Bedeutung der MOV beschreibt, und am Ende steht ein ”A” wenn die MOV von dem FFT-Ohrmodell stammt, oder ein ”B” wenn die MOV von dem Filterbank-Ohrmodell stammt.The first part explains the used time-averaging (for example "Rms", that is quadratic averaging), followed by a name (for example "NoiseLoud"), which describes the meaning of the MOV, and at the end there is an "A" if the MOV comes from the FFT ear model, or a "B" when the MOV comes from the Filterbank ear model.

Bei einigen MOVs ist der erste Zeit-Mittelungs-Teil nicht vorhanden.For some MOVs, the first time-averaging part does not exist.

Stereo bzw. Multikanal MOVs haben einen anderen Ursprung und folgen diesen Regeln bzw. Vorlagen nicht.Stereo or multi-channel MOVs have a different origin and do not follow these rules or templates.

Im Folgenden wird weiter auf den Hintergrund der Erfindung eingegangen.In the following, the background of the invention will be further discussed.

Details im Hinblick auf die Software ”Opera” von Opticom sind beispielsweise im Internet unter der folgenden Adresse verfügbar:”http://www.opticom.de/technology/audio-quality-testing.html.For example, details regarding Opticom's Opera software are available on the Internet at the following address: "http://www.opticom.de/technology/audio-quality-testing.html ,

Weitere Hintergrundinformationen zum Thema PEAQ sind beispielsweise unter der folgenden Internet-Adresse verfügbar:http://en.wikipedia.org/wiki/PEAQ. For more background information about PEAQ, for example, visit the following Internet address: http://en.wikipedia.org/wiki/PEAQ ,

Im Übrigen wird auch auf die Veröffentlichung”The Design of VoIP Systems with high perceptual conversional Quality” von B. W. Wah und B. Sat (Academy Publisher, Journal of Multimedia, Vol. 4, No. 2, April 2009) verwiesen. Diese Veröffentlichung beschreibt Realzeit-Zwei-Teilnehmer und -Mehr-Teilnehmer Sprache-Über-Internet-Protokollsysteme, die eine hohe Sprachqualität erreichen. In dem Artikel sind Abwägungen beschrieben, die bei dem Entwurf von Sprachcodierern gemacht werden sowie Strategien zur Netzwerk-Steuerung, Wiedergabe-Zeitplanung und Verlust-Heilung. Der Artikel beschreibt einen statistischen Ansatz basierend auf einem gerade-wahrnehmbaren Unterschied, um die große Anzahl an subjektiven Tests zu verringern. Ferner beschreibt der Artikel ein Klassifizierungsverfahren zum automatischen Lernen und zur Generalisierung der Ergebnisse auf neue Bedingungen. Unter Verwendung von Netzwerkbedingungen und Gesprächsbedingungen, die zur Laufzeit gemessen werden, hilft der gelernte Klassifizierer, die Steueralgorithmen anzupassen. In der Veröffentlichung werden eine Klassifizierung und eine SVM verwendet, aber keine SVR. Die SVM wird verwendet, um die optimale Rahmengröße und Paket-Periode in einem Sprache-über-Internet-Protokoll-Netzwerk basierend auf Netzwerk-Bedingungen und Konversations-Bedingungen zu erhalten. Eingangsgrößen der SVM sind beispielsweise Verlust, Verzögerung, Jitter-Parameter, Schaltfrequenz und Einzel-Sprech-Dauer. Ausgangsgrößen der SVM sind Rahmengröße und Paket-Periode.Incidentally, also on the publication "The Design of VoIP Systems with High Perceptual Conversional Quality" by BW Wah and B. Sat (Academy Publishers, Journal of Multimedia, Vol. 4, No. 2, April 2009) directed. This publication describes real-time two-subscriber and multi-subscriber voice-over-internet protocol systems achieving high voice quality. The article describes considerations that are made in the design of speech coders, as well as network control, playback timing, and loss-healing strategies. The article describes a statistical approach based on a straight-to-see difference to reduce the large number of subjective tests. Further, the article describes a classification method for automatically learning and generalizing the results to new conditions. Using network conditions and call conditions measured at runtime, the learned classifier helps to tailor the control algorithms. The publication uses a classification and an SVM but no SVR. The SVM is used to obtain the optimal frame size and packet period in a voice-over-internet protocol network based on network conditions and conversation conditions. Input variables of the SVM are, for example, loss, delay, jitter parameters, switching frequency and single speech duration. Output variables of the SVM are frame size and packet period.

Der Artikel”Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs” von T. Coen u. a. beschreibt ein Modell der menschlichen Wahrnehmung von Motorgeräuschen. Der Artikel beschreibt die Beziehung zwischen einem Punktrichter-Hintergrund und Punktrichter-Bewertungen sowie einen Zusammenhang zwischen Autocharakteristika und Punktrichter-Bewertungen. In anderen Worten, der Artikel beschreibt eine Beurteilung von Präferenzen eines Motorgeräuschs. Zudem wird ein Modell zur Klassifizierung von Autos im Hinblick auf Komfort und Sportlichkeit basierend auf Geräusch-Qualitäts-Parametern ihres Motorgeräusches beschrieben. Ferner wird ein Modell zum Vergleich von zwei Autos im Hinblick auf Komfort und Sportlichkeit beschrieben. In dem genannten Artikel wird beschrieben, dass eine Klassifizierung und eine SVM verwendet werden, nicht aber eine SVR. Die Eingangsgrößen der SVM sind Parameter, die aus der Lauheit (SPL mit unterschiedlicher Gewichtung) und der Rauhheit basieren. Bei der Modellierung des Motorgeräusches sind die Eingangsgrößen Variablen die auf einer einzigen Quelle basieren und nicht auf der Differenz zwischen mehreren Größen.The item "Modeling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" by T. Coen et al describes a model of human perception of engine noise. The article describes the relationship between a Judge's background and Judge's ratings as well as an association between car characteristics and Judge's ratings. In other words, the article describes an assessment of preferences of engine noise. In addition, a model is described for the classification of cars in terms of comfort and sportiness based on noise-quality parameters of their engine noise. Furthermore, a model for comparing two cars in terms of comfort and sportiness is described. The cited article describes that a classification and an SVM are used but not an SVR. The input variables of the SVM are parameters based on the launess (SPL with different weighting) and the roughness. When modeling the engine noise, the inputs are variables based on a single source rather than the difference between multiple quantities.

In Anbetracht dieses Stands der Technik besteht das Bedürfnis, ein Konzept zur Bewertung einer wahrgenommenen Audioqualität zu schaffen, das einen verbesserten Kompromiss zwischen der Zuverlässigkeit der Ergebnisse und dem benötigen Rechenaufwand liefert.In view of this prior art, there is a need to provide a concept for evaluating perceived audio quality that provides an improved trade-off between the reliability of the results and the computational cost involved.

Zusammenfassung der ErfindungSummary of the invention

Ein Ausführungsbeispiel gemäß der vorliegenden Erfindung schafft eine Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität. Die Vorrichtung umfasst einen Modell-Ausgangsvariablen-Berechner (im Folgenden kurz als ”MOV-Berechner” bezeichnet), der ausgelegt ist, um Werte einer Mehrzahl von Modell-Ausgangsvariablen (im Folgenden kurz als ”MOVs” bezeichnet) zu berechnen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal und einem Testsignal beschreiben. Die Vorrichtung umfasst ferner eine Stütz-Vektor-Maschine (im Folgenden als ”SVM” bezeichnet, die ausgelegt ist, um einen Unterschieds-Bewertungs-Wert basierend auf den MOVs und einer Mehrzahl von Stützvektormaschinen-Parametern (im Folgenden als ”SVM-Parameter” bezeichnet) bereitzustellen.An embodiment according to the present invention provides an apparatus for evaluating a perceived audio quality. The apparatus includes a model output variable calculator (hereinafter referred to as "MOV calculator" for short) designed to calculate values of a plurality of model output variables (hereinafter referred to as "MOVs" for short), the differences in Describe a plurality of criteria between a reference signal and a test signal. The apparatus further includes a support vector machine (hereinafter referred to as "SVM") configured to calculate a difference evaluation value based on the MOVs and a plurality of support vector machine parameters (hereinafter referred to as "SVM parameters"). designated).

Dieses Ausführungsbeispiel gemäß der Erfindung basiert auf der Erkenntnis, dass der Einsatz einer SVM es ermöglicht, zuverlässige Unterschieds-Bewertungs-Werte, die beispielsweise hörbare Störungen eines Testsignals im Vergleich zu dem Referenzsignal beschreiben, mit vergleichsweise geringem Rechenaufwand zu erhalten. So hat sich gezeigt, dass die verschiedenen MOVs, die Unterschiede zwischen dem Referenzsignal und dem Testsignal beschreiben, mit guter Zuverlässigkeit auf einen Unterschieds-Bewertungs-Wert abbildbar sind, wobei es zugleich möglich ist, die Zahl der SVM-Parameter vergleichsweise klein zu halten. Somit kann die Rechenzeit vergleichsweise niedrig gehalten werden.This embodiment according to the invention is based on the finding that the use of an SVM makes it possible to obtain reliable difference evaluation values, which describe, for example, audible disturbances of a test signal in comparison to the reference signal, with comparatively low computation effort. It has thus been found that the various MOVs which describe differences between the reference signal and the test signal can be mapped with good reliability to a difference evaluation value, while at the same time being able to keep the number of SVM parameters comparatively small. Thus, the computing time can be kept relatively low.

Außerdem ermöglicht die Verwendung einer SVM ein Training der SVM-Parameter mit vergleichsweise geringem Aufwand.In addition, the use of SVM allows training of SVM parameters with relatively little effort.

Bei einem bevorzugten Beispiel ist die SVM ausgelegt, um den Unterschieds-Bewertungs-Wert so bereitzustellen, dass der Unterschieds-Bewertungs-Wert hörbare Differenzen zwischen dem Testsignal und dem Referenzsignal in Form eines einzigen numerischen Wertes darstellt. Die SVM ist also in der Lage, eine Mehrzahl von MOVs auf einem einzigen numerischen Wert abzubilden, wobei dieser einzige numerische Wert eine vergleichsweise zuverlässige Aussage über das Vorhandensein oder Nicht-Vorhandensein von hörbaren Störungen in dem Testsignal trägt.In a preferred example, the SVM is designed to provide the difference score value such that the difference score value includes audible differences between the test signal and represents the reference signal in the form of a single numerical value. The SVM is thus able to map a plurality of MOVs to a single numerical value, this single numerical value providing a comparatively reliable indication of the presence or absence of audible disturbances in the test signal.

Bei einem bevorzugten Ausführungsbeispiel ist die SVM ausgelegt, um eine gewichtete Summe einer Mehrzahl von Kern-Funktions-Werten zu bilden, um den Unterschieds-Bewertungs-Wert zu erhalten. Die SVM ist bevorzugt ausgelegt, um eine Kern-Funktion in Abhängigkeit von einem Vektor von MOVs, einem Unterstützungsvektor und zumindest einem Kern-Funktion-Parameter (zum Beispiel, aber nicht notwendigerweise, σ) auszuwerten, um einen Kern-Funktions-Wert zu erhalten, und um den Kern-Funktions-Wert in Abhängigkeit von einem zugehörigen Gewichtungswert zu gewichten, um die gewichtete Summe zu erhalten. Die SVM kann somit in rechnerisch sehr effizienter Weise den Unterschieds-Bewertungs-Wert erhalten.In a preferred embodiment, the SVM is configured to form a weighted sum of a plurality of core function values to obtain the difference score value. The SVM is preferably designed to evaluate a kernel function in response to a vector of MOVs, a support vector, and at least one kernel function parameter (for example, but not necessarily, σ) to obtain a kernel function value , and to weight the kernel function value in dependence on an associated weighting value to obtain the weighted sum. The SVM can thus obtain the difference valuation value in a computationally very efficient manner.

Bei einem bevorzugten Ausführungsbeispiel ist die SVM ausgelegt, um als Kernfunktionen radiale Basisfunktionen auszuwerten, die als Kernfunktionswert einen Wert liefern, dessen Betrag mit zunehmendem Unterschied zwischen dem Vektor von MOVs und einem zugehörigen Stützvektor abnimmt und sich an Null annähert, wobei eine Geschwindigkeit einer Abnahme des Betrags des Kern-Funktions-Wertes mit dem Unterschied zwischen dem Vektor von MOVs und dem zugehörigen Stützvektor durch einen der Kern-Funktion zugeordneten Kern-Funktion-Parameter bestimmt wird. Es hat sich gezeigt, dass die Verwendung radialer Basisfunktionen einerseits zuverlässige Ergebnisse bei der Bestimmung des Unterschieds-Bewertungs-Wertes liefert, und dass zudem die Bestimmung der Parameter der radialen Basisfunktionen (wie beispielsweise der Stützvektor und der Kern-Funktions-Parameter) aufgrund der Eigenschaften der Abbildung von MOVs auf den zugehörigen Unterschieds-Bewertungs-Wert typischerweise in numerisch effizienter Weise erfolgen kann. In anderen Worten, es wurde herausgefunden, dass eine SVM mit radialen Basisfunktionen besonders gut an das Problem angepasst ist, MOVs (wie oben definiert) auf einen entsprechenden Unterschieds-Bewertungs-Wert abzubilden. In anderen Worten, gemäß einem Ausführungsbeispiel ist es nicht entscheidend, dass der Ausgangswert der radialen Basisfunktion mit einer Vergrößerung der Differenz zwischen dem x und yi abnimmt (wenngleich dies bei anderen Ausführungsbeispielen durchaus der Fall sein kann). Dies kann nämlich einfach umgekehrt werden, indem –1 (oder ein anderer negativer Wert) als Koeffizient coefi verwendet wird. Bei manchen Ausführungsbeispielen ist es allerdings wichtig, dass der Ausgangswert (bzw. Ergebniswert) der radialen Basisfunktion mit einer Vergrößerung der Differenz zwischen x und yi allmählich Null erreicht.In a preferred embodiment, the SVM is designed to evaluate, as core functions, radial basis functions that provide a value as a kernel value whose magnitude decreases and approaches zero as the difference between the vector of MOVs and an associated support vector increases, with a speed of decrease of the Amount of the kernel function value with the difference between the vector of MOVs and the associated support vector is determined by a core function parameter assigned to the kernel function. It has been found that the use of radial basis functions on the one hand provides reliable results in the determination of the difference evaluation value and, moreover, the determination of the parameters of the radial basis functions (such as the support vector and the core function parameters) due to the properties The mapping of MOVs to the associated difference score value can typically be done in a numerically efficient manner. In other words, it has been found that an SVM with radial basis functions is particularly well adapted to the problem of mapping MOVs (as defined above) to a corresponding difference evaluation value. In other words, according to one embodiment, it is not critical that the output of the radial basis function decreases with an increase in the difference between the x and yi (although this may well be the case in other embodiments). Namely, this can be reversed simply by using -1 (or another negative value) as the coefficient coefi . However, in some embodiments, it is important that the output value of the radial basis function gradually increase to zero as the difference between x and yi increases.

Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um als MOVs zumindest zwei der folgenden Werte bereitzustellen: Modulationsabweichungswert bzw. Modulationsmusterdifferenzwert, gefensterter Modulationsabweichungswert (WinModDiff1B), gemittelter Modulationsabweichungswert (AvgModDiff1B, AvgModDiff2B), Effektivwert des Modulationsabweichungswertes (RmsModDiffA), Störlautheits-Wert, Effektivwert des Störlautheitswertes (RmsNoiseLoudA, RmsNoiseLoudB), Effektivwert oder Lautheit fehlender Komponenten (RmsMissingComponentsA), Wert oder Effektivwert der asymmetrischen Störlautheit (NoiseLoudAsym), Mittelwert der linearen Verzerrungen (AvgLinDistA), Bandbreitenwert des Referenzsignals (BandwidthRefB), Bandbreitenwert des Testsignals (BandwidthTestB), Gesamtes Verhältnis von Störungen zu Maskierungsschwelle (TotalNMR), Relativer Anteil von gestörten Rahmen (RelDistFramesB), Segmentweises Verhältnis von Störungen zu Maskierungsschwelle (SegmentalNMRB), maximale gefilterte Detektionswahrscheinlichkeit (MFPDB), Mittlerer-verzerrter-Block-Wert (ADBB), Fehlersignal-zu-Verdeckungsschwelle-Verhältniswert (SNMRB), Störsignal-zu-Maskierungsschwellen-Verhältniswert, Harmonische-Fehlerstruktur-Wert (EHS, EHSB), Abstandswert des Zwischen-Ohr-Zeit-Unterschieds (ITDDist), Abstandswert des Zwischen-Ohr-Pegel-Unterschieds (ILDDist), Abstandswert des Zwischen-Ohr-Kreuzkorrelations-Koeffizienten (IACCDist) und Störsignal-Harmonitäts-Strukturwert.In a preferred embodiment of the MOV-calculator is designed to provide as MOVs, at least two of the following: modulation deviation value or modulation pattern difference value windowed modulation deviation value (WinModDiff1B), average modulation deviation value (AvgModDiff1B, AvgModDiff2B), effective value of the modulation deviation value (RmsModDiffA) , Disturbance, RmsNoiseLoudA , RmsNoiseLoudB , RmsMissingCo - ponents RMS, RmsMissingComponentsA , or Asymmetric Noise (NoiseLoudAsym), Linear Distortion Average (AvgLinDistA ), Bandwidth Reference Value (BandwidthRefB ), bandwidth value of the test signal (BandwidthTestB ), total ratio of disturbances to masking threshold (TotalNMR), relative proportion of disturbed frames (RelDistFramesB ), segmental ratio of disturbances to masking threshold (Se gmentalNMRB ), maximum filtered detection probability (MFPDB ), middle-biased block value (ADBB ), error signal-to-masking threshold ratio value (SNMRB ), noise-to-masking threshold ratio value, harmonic error structure value ( EHS, EHSB ), inter-ear time difference (ITDDist) distance value, inter-ear level difference (ILDDist) distance value, inter-ear cross-correlation coefficient (IACCDist) distance value, and noise harmonics structure value ,

Es hat sich gezeigt, dass die genannten MOVs einerseits besonders aussagekräftig im Hinblick auf das Vorhandensein von hörbaren Störungen in dem Testsignal sind und dass die genannten MOVs im Übrigen auch gut auf einen Unterstützungs-Bewertungs-Wert abbildbar sind. Allerdings sei auch darauf hingewiesen, dass neue Modellausgangsvariablen (MOVs) entwickelt werden können, und dass somit auch solche neuen MOVs, oder auch andere MOVs, verwendet werden können.On the one hand, it has been found that the said MOVs are particularly meaningful with regard to the presence of audible disturbances in the test signal and, moreover, that the said MOVs can also be mapped well to a support evaluation value. However, it should also be noted that new model output variables (MOVs) can be developed, and thus also such new MOVs, or even other MOVs, can be used.

Ferner sei darauf hingewiesen, dass die MOVs: WinModDiff1B, AvgModDiff1B, AvgModDiff2B, RmsModDiffA, RmsNoiseLoudB, RmsNoiseLoudA, RmsMissingComponentsA, RmsNoiseLoudAsymA, AvgLinDistA, BandwidthRefB, BandwidthTestB, TotalNMRB, RelDistFramesB, SegmentalNMRB, MFPDB, ADBB, EHSB, ITDDist, ILDDist, IACCDist, beispielsweise in der Liste aufSeite 57 in der Veröffentlichung ”ITU-R BS.1387-1” der Internationalen Telekommunikationsunion beschrieben sind, wobei die MOVs RmsNoiseLoudA and RmsMissingComponentsA aus der selben Veröffentlichung”ITU-R BS.1387-1” und die räumlichen MOVs ITDDist, ILDDist, IACCDist vonSeite 7 der Veröffentlichung ”Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems” von I. Choi (veröffentlicht in: JAES, Volume 56 Issue 1/2 Seiten 3–17; Januar 2008) hinzugefügt wurden Für Details im Hinblick auf die genannten MOVs sei hier ausdrücklich auf die entsprechenden Veröffentlichungen verwiesen.It should also be noted that the MOVs: WinModDiff1B, AvgModDiff1B, AvgModDiff2B, RmsModDiffA, RmsNoiseLoudB, RmsNoiseLoudA, RmsMissingComponentsA, RmsNoiseLoudAsymA, AvgLinDistA, BandwidthRefB, Bandwidth TestB, TotalNMRB, RelDistFramesB, SegmentalNMRB , MFPDB , ADBB , EHSB , ITDDist, ILDDist, IACCDist, for example, in the list Page 57 in the publication "ITU-R BS.1387-1" of the International Telecommunication Union The MOVs RmsNoiseLoudA and RmsMissingComponentsA are from the same publication "ITU-R BS.1387-1" and the spatial MOVs ITDDist, ILDDist, IACCD is from Page 7 of the publication "Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems" by I. Choi (Published in: JAES, Volume 56Issue 1/2, pages 3-17, January 2008) For details regarding the above MOVs, please refer to the relevant publications.

Bei einem bevorzugten Ausführungsbeispiel umfasst die Vorrichtung zur -Bewertung der wahrgenommenen Audioqualität einen Parameter-Einsteller, der ausgelegt ist, um Parameter der SVM basierend auf Trainings-Audiosignalen und zugehörigen Ziel-Unterschieds-Bewertungs-Werten (bzw. Soll-Unterschieds-Bewertungs-Werten) zu bestimmen. Es wurde herausgefunden, dass die Verwendung einer SVM in rechnerisch besonders effizienter Weise eine Bestimmung von zugehörigen SVM-Parametern erlaubt. So wurde herausgefunden, dass durch die Verwendung der SVM die Möglichkeit besteht, die Vorrichtung zur Bewertung der wahrgenommenen Audioqualität an verschiedene Typen von Audiosignalen und an die Ergebnisse von neuen subjektiven Tests anzupassen, ohne dass dadurch ein all zu großer Rechenaufwand entsteht. Insofern ist die entsprechende Vorrichtung zur Bewertung der wahrgenommenen Audioqualität besonders universell einsetzbar. Da das Training der SVM vergleichsweise schnell durchgeführt werden kann, ist es außerdem mit vertretbarem Aufwand möglich, Veränderungen an der Vorrichtung zur Bewertung der wahrgenommenen Audioqualität auf Ihre Auswirkungen hin zu überprüfen. Der Parametereinsteller kann bei dem Trainingsprozess beispielsweise die MOVs verwenden bzw. berücksichtigen. Bei einigen Ausführungsbeispielen werden die MOVs nämlich bei dem Trainingsprozess benötigt.In a preferred embodiment, the perceived audio quality evaluation apparatus comprises a parameter adjuster configured to adjust parameters of the SVM based on training audio signals and associated target difference scores ). It has been found that the use of an SVM in a computationally efficient manner allows determination of associated SVM parameters. Thus, it has been found that by using the SVM it is possible to adapt the device for evaluating the perceived audio quality to different types of audio signals and to the results of new subjective tests, without resulting in too much computational effort. In this respect, the corresponding device for evaluating the perceived audio quality is particularly universally applicable. In addition, because the training of the SVM can be done comparatively quickly, it is possible with reasonable effort to check for changes in the device for evaluating the perceived audio quality on its effects. The parameter adjuster may, for example, use or consider the MOVs in the training process. Namely, in some embodiments, the MOVs are needed in the training process.

Bei einem bevorzugten Ausführungsbeispiel ist der Parameter-Einsteller ausgelegt, um Stütz-Vektoren, Gewichtungs-Koeffizienten und einen Offset-Wert basierend auf den Trainings-Audiosignalen und den zugehörigen Ziel-Unterschieds-Bewertungs-Werten zu bestimmen. Es wurde herausgefunden, dass die genannten Parameter ausreichend sind, um zuverlässige Ergebnisse im Hinblick auf den Unterschieds-Bewertungs-Wert zu liefern.In a preferred embodiment, the parameter adjuster is configured to determine support vectors, weighting coefficients, and an offset value based on the training audio signals and the associated target difference score values. It has been found that these parameters are sufficient to provide reliable results in terms of the difference score value.

Bei einem bevorzugten Ausführungsbeispiel ist der Parameter-Einsteller ausgelegt, um in einem ersten Parameter-Einstellungsschritt einen Fehler-Gewichtungs-Parameter zu bestimmen, und um in einem zweiten Parameter-Einstellungsschritt die Stütz-Vektoren, die Gewichtungs-Koeffizienten und den Offset-Wert unter Verwendung des Fehler-Gewichtungs-Parameters zu bestimmen. Der Parameter-Einsteller ist bevorzugt ausgelegt, um für eine Mehrzahl von Fehler-Gewichtungs-Parametern Kreuz-Validierungswerte zu erhalten und den Fehler-Gewichtungs-Parameter für die Bestimmung der Stütz-Vektoren, der Gewichtungs-Koeffizienten und des Offset-Werts in dem zweiten Parameter-Einstellungsschritt in Abhängigkeit von den Kreuz-Validierungswerten zu bestimmen. Ein Kreuz-Validierungswert gibt in diesem Fall an, wie gut von der SVM mit trainierten Parametern, die in einem Training unter Verwendung eines vorgegebenen Fehler-Gewichtungs-Parameters basierend auf einer ersten Teilmenge von Trainings-Audiosignalen und zugehörigen Ziel-Unterschieds-Bewertungs-Werten erhalten werden, auf der Basis einer zweiten Teilmenge von Trainings-Audiosignalen gelieferte Unterschieds-Bewertungs-Werte mit zu der zweiten Teilmenge von Trainings-Audiosignalen zugeordneten Ziel-Unterschieds-Bewertungs-Werten übereinstimmen. Somit ist es möglich, den Trainings-Vorgang in einer besonders zuverlässigen Weise durchzuführen, da der Fehler-Gewichtungs-Parameter, der in dem zweiten Parameter-Einstellungsschritt verwendet wird, so gewählt wird, dass die Ergebnisse des Trainings besonders zuverlässig sind. In anderen Worten, es wird ein ”kleines” Training unter Verwendung der ersten Teilmenge von Trainings-Audiosignalen und unter Verwendung eines Fehler-Gewichtungs-Parameters durchgeführt, und es wird dann das Ergebnis dieses ”kleinen” Trainings auf seine Zuverlässigkeit hin überprüft, indem überprüft wird, wie gut eine SVM, die gemäß dem Ergebnis des ”kleinen” Trainings konfiguriert ist, Trainings-Audiosignale der zweiten Teilmenge auf Unterschieds-Bewertungs-Werte abbildet. Stellt sich für ein ”kleines Training”, das unter Verwendung eines bestimmten Fehler-Gewichtungs-Parameters durchgeführt wurde, heraus, dass das Ergebnis dieses ”kleinen” Trainings besonders zuverlässig sind, so wird der entsprechende Fehler-Gewichtungs-Parameter für ein ”größeres” Training (unter Verwendung von mehr Trainings-Audiosignalen als in der ersten Teilmenge von Trainings-Audiosignalen enthalten sind) verwendet. Insofern wird das Training derart durchgeführt, dass dieses zu besonders guten Ergebnissen führt.In a preferred embodiment, the parameter adjuster is configured to determine an error weighting parameter in a first parameter setting step and, in a second parameter setting step, suppresses the support vectors, the weighting coefficients, and the offset value Use the error weighting parameter to determine. The parameter adjuster is preferably configured to obtain cross validation values for a plurality of error weighting parameters and the error weighting parameter for the determination of the support vectors, the weighting coefficients, and the offset value in the second Parameter setting step depending on the cross-validation values. A cross validation value in this case indicates how well the SVM with trained parameters obtained in a training using a given error weighting parameter based on a first subset of training audio signals and associated target difference score values obtained on the basis of a second subset of training audio signals difference evaluation values with the second subset of training audio signals associated target difference score values match. Thus, it is possible to perform the training operation in a particularly reliable manner because the error weighting parameter used in the second parameter setting step is selected so that the results of the training are particularly reliable. In other words, a "small" training is performed using the first subset of training audio signals and using an error weighting parameter, and then the result of this "small" training is checked for reliability by checking how well an SVM configured according to the result of the "small" training maps training audio signals of the second subset to difference score values. For a "small workout" performed using a particular error weighting parameter, if the result of this "small" training is particularly reliable, the corresponding error weighting parameter for a "larger" Training (using more training audio signals than are included in the first subset of training audio signals). In this respect, the training is carried out in such a way that it leads to particularly good results.

Bei einem bevorzugten Ausführungsbeispiel ist der Parameter-Einsteller ausgelegt, um ein Maß für Unterschiede zwischen von der SVM gelieferten Unterschieds-Bewertungs-Werten und Ziel-Unterschieds-Bewertungs-Werten in Abhängigkeit von einem Verhältnis zwischen einer Differenz eines von der SVM gelieferten Unterschieds-Bewertungs-Werts und eines Ziel-Unterschieds-Bewertungs-Werts und einer Breite eines Vertrauensintervalls, das dem Ziel-Unterschieds-Bewertungs-Wert zugeordnet ist, zu bestimmen. In diesem Fall ist der Parameter-Einsteller ausgelegt, um eine untere Grenze für die Breite des Vertrauensintervalls zu verwenden. Es wurde herausgefunden, dass durch eine entsprechende Berücksichtigung eines Vertrauensintervalls bei der Bestimmung der Unterschieds-Bewertungs-Werte besonders gute Parameter für die SVM erhalten werden können. Im Übrigen wurde herausgefunden, dass die Verwendung einer unteren Grenze für die Breite des Vertrauensintervalls verhindert, dass einzelne Trainings-Audiosignale, die zu besonders vertrauenswürdigen Ziel-Unterschieds-Bewertungs-Werten führen, einen unangemessen hohen Einfluss auf die Einstellung der Parameter für die SVM haben.In a preferred embodiment, the parameter adjuster is configured to provide a measure of differences between difference evaluation values provided by the SVM and target difference evaluation values depending on a ratio between a difference of a difference score provided by the SVM Value and a width of a confidence interval associated with the target difference score value. In this case, the parameter adjuster is designed to use a lower limit for the width of the confidence interval. It has been found that by properly considering a confidence interval when determining the difference score values, particularly good parameters for SVM can be obtained. Incidentally, it has been found that the use of a lower bound on the width of the confidence interval prevents individual training audio signals that result in particularly trusted target difference score values from having an unreasonably high impact on setting the parameters for the SVM ,

Bei einem bevorzugten Ausführungsbeispiel ist die Vorrichtung ausgelegt, um die MOVs wertemäßig zu begrenzen und zu skalieren, um eine wertemäßig begrenzte und skalierte Version der MOVs als Eingangsinformation für die SVM zu erhalten. Es wurde herausgefunden, dass durch diese Maßnahme die Zuverlässigkeit der von der SVM gelieferten Ergebnisse verbessert werden kann.In a preferred embodiment, the device is designed to value-limit and scale the MOVs to obtain a value limited and scaled version of the MOVs as input to the SVM. It has been found that this measure can improve the reliability of the results provided by the SVM.

Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um zumindest eine MOV zu berechnen, deren Wert eine Differenz zwischen einer internen Darstellung des Referenzsignals und einer internen Darstellung des Testsignals beschreibt. In diesem Fall ist die SVM ausgelegt, um die MOV, deren Wert die Differenz zwischen der internen Darstellung des Referenzsignals und der internen Darstellung des Testsignals beschreibt, als Eingangsinformation zu verwenden. Es wurde herausgefunden, dass eine solche MOV dazu beiträgt, besonders zuverlässige Ergebnisse zu erhalten.In a preferred embodiment, the MOV calculator is configured to calculate at least one MOV whose value describes a difference between an internal representation of the reference signal and an internal representation of the test signal. In this case, the SVM is designed to use the MOV whose value describes the difference between the internal representation of the reference signal and the internal representation of the test signal as input information. It has been found that such MOV contributes to obtaining particularly reliable results.

Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um zumindest eine MOV zu berechnen, deren Wert einen Maskierungsschwellwert, der sich basierend auf einem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt. In diesem Fall ist die SVM ausgelegt, um die MOV, deren Wert den Maskierungsschwellwert, der sich basierend auf basierend auf dem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt, als Eingangsinformation zu verwenden. Es wurde herausgefunden, dass sich eine derartige MOV besonders gut für die Klassifizierung der Audiosignalqualität eignet, und dass eine derartige MOV gut als Eingangsgröße für die SVM verwendet werden kann.In a preferred embodiment, the MOV calculator is configured to calculate at least one MOV whose value describes a masking threshold that results based on a difference signal between the test signal and the reference signal. In this case, the SVM is configured to use the MOV whose value describes the masking threshold, which is based on the difference signal between the test signal and the reference signal, as input information. It has been found that such a MOV is particularly well suited to the classification of audio signal quality, and that such MOV can be used well as an input to the SVM.

Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um zumindest eine MOV zu berechnen, deren Wert einen Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt oder deren Wert eine harmonische Struktur eines Unterschieds zwischen dem Testsignal und dem Referenzsignal beschreibt. In diesem Fall ist die SVM ausgelegt, um die MOV, deren Wert den Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt, oder die MOV, deren Wert eine harmonische Struktur eines Unterschieds zwischen dem Testsignal und dem Referenzsignal bzw. eine harmonische Fehlerstruktur beschreibt, als Eingangsinformation zu verwenden. Es wurde herausgefunden, dass auch eine derartige MOV in Verbindung mit der SVM zu guten Ergebnissen führt.In a preferred embodiment, the MOV calculator is configured to calculate at least one MOV whose value describes a difference between the harmonic structure of the test signal and the reference signal, or whose value describes a harmonic structure of a difference between the test signal and the reference signal. In this case, the SVM is designed to describe the MOV whose value describes the difference between the harmonic structure of the test signal and the reference signal, or the MOV whose value describes a harmonic structure of a difference between the test signal and the reference signal or a harmonic error structure to use as input information. It has been found that even such MOV in conjunction with the SVM gives good results.

Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst ein Verfahren zur Bewertung einer wahrgenommenen Audiosignalqualität.Another embodiment according to the invention comprises a method for evaluating a perceived audio signal quality.

Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst ein entsprechendes Computerprogramm.Another embodiment according to the invention comprises a corresponding computer program.

Das Verfahren und das Computerprogramm basieren auf derselben Erkenntnis wie die oben erläuterte Vorrichtung. Das Verfahren und das Computerprogramm können im Übrigen um die selben Merkmale und Funktionalitäten ergänzt werden wie die entsprechende Vorrichtung.The method and the computer program are based on the same knowledge as the device explained above. Incidentally, the method and the computer program can be supplemented by the same features and functionalities as the corresponding device.

FigurenkurzbeschreibungBrief Description

Ausführungsbeispiele gemäß der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Figuren näher erläutert.Embodiments according to the present invention will be explained below with reference to the accompanying figures.

Es zeigen:Show it:

1 ein Blockschaltbild einer Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität, gemäß einem Ausführungsbeispiel der Erfindung; 1 a block diagram of a device for the evaluation of a perceived audio quality, according to an embodiment of the invention;

2 ein Blockschaltbild einer Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität, gemäß einem weiteren Ausführungsbeispiel der Erfindung; 2 a block diagram of a device for the evaluation of a perceived audio quality, according to another embodiment of the invention;

3 eine schematische Darstellung eines Wahrnehmungs-Modells basierend auf einer schnellen Fourier-Transformation (FFT); 3 a schematic representation of a perceptual model based on a fast Fourier transform (FFT);

4 ein Blockschaltbild eines Wahrnehmungs-Modells basierend auf einer Filterbank; 4 a block diagram of a perceptual model based on a filter bank;

5 eine schematische Darstellung einer Struktur einer SVM bei APEAQ; 5 a schematic representation of a structure of a SVM at APEAQ;

6 eine schematische Darstellung eines Trainingsprozesses und der Voraussetzungen; 6 a schematic representation of a training process and the requirements;

7 eine schematische Darstellung einer Struktur eines neuronalen Netzwerks in APEAQ; und 7 a schematic representation of a structure of a neural network in APEAQ; and

8 eine Pseudo-Programmcode-Darstellung eines Algorithmus zur exponentiellen Gitter-Suche, zum Einsatz in Verbindung mit einem Ausführungsbeispiel der Erfindung. 8th a pseudo-program code representation of an exponential lattice search algorithm for use in connection with an embodiment of the invention.

Detaillierte Beschreibung der AusführungsbeispieleDetailed description of the embodiments

1. Ausführungsbeispiel gemäß Fig. 11st embodiment according to FIG. 1

1 zeigt ein Blockschaltbild einer Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität. Die Vorrichtung100 ist ausgelegt, um ein Testsignal110 sowie ein Referenzsignal112 zu empfangen und basierend darauf einen Unterschieds-Bewertungs-Wert116 bereitzustellen. 1 shows a block diagram of a device for the evaluation of a perceived audio quality. Thedevice 100 is designed to be atest signal 110 as well as areference signal 112 receive and based thereon adifference score value 116 provide.

Die Vorrichtung100 umfasst einen MOV-Berechner120, der ausgelegt ist, um das Testsignal110 und das Referenzsignal112 zu empfangen und um Werte122 einer Mehrzahl von MOVs zu berechnen. Die MOVs bzw. deren Werte beschreiben Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen dem Referenzsignal112 und dem Testsignal110.Thedevice 100 includes aMOV calculator 120 which is designed to receive thetest signal 110 and thereference signal 112 to receive and tovalues 122 to calculate a plurality of MOVs. The MOVs or their values describe differences in terms of a plurality of criteria between thereference signal 112 and thetest signal 110 ,

Die Vorrichtung100 umfasst ferner eine SVM, die ausgelegt ist, um die Werte122 der Mehrzahl von MOVs zu empfangen und um einen Unterschieds-Bewertungs-Wert116 basierend auf den MOVs und einer Mehrzahl von SVM-Parametern124 bereitzustellen. Bei der SVM handelt es sich bevorzugt um einen Klassifikator.Thedevice 100 also includes an SVM that is adapted to thevalues 122 to receive the majority of MOVs and adifference score value 116 based on the MOVs and a plurality ofSVM parameters 124 provide. The SVM is preferably a classifier.

Die Vorrichtung100 zur Bewertung einer wahrgenommenen Audioqualität ist durch die Verwendung der SVM, die die Werte122 der Mehrzahl von MOVs empfängt, in der Lage, mit vergleichsweise geringem Rechenaufwand einen zuverlässigen Unterschieds-Bewertungs-Wert116 zu liefern, der – in wahrnehmungs-bewerteter Weise – beschreibt, wie stark sich das Testsignal110 von dem Referenzsignal112 unterscheidet. Somit ist feststellbar, wie stark das Testsignal beispielsweise bei einer Audiocodierung, bei einer Speicherung und/oder bei einer Übertragung gegenüber dem Referenzsignal112 verändert bzw. verschlechtert wird.Thedevice 100 To evaluate a perceived audio quality is by using the SVM, thevalues 122 the plurality of MOVs receives a reliable difference score value with comparatively littlecomputational effort 116 which, in a perceptually assessed manner, describes how strong the test signal is 110 from thereference signal 112 different. Thus, it can be determined how strong the test signal is, for example, during audio coding, during storage and / or during transmission with respect to thereference signal 112 is changed or deteriorated.

Weitere Details im Hinblick auf die Funktion des MOV-Berechners120 und der SVM130 werden im Übrigen im Folgenden noch erläutert.Further details regarding the function of theMOV calculator 120 and theSVM 130 are otherwise explained below.

Weiterhin ist festzuhalten, dass die Vorrichtung100 optional einen Parameter-Einsteller140 aufweist, der ausgelegt ist, um Trainings-Audiosignale142 und Ziel-Unterschieds-Bewertungs-Werte (bzw. Soll-Unterschieds-Bewertungs-Werte)144 zu empfangen und basierend darauf die SVM-Parameter124 einzustellen. Weitere Details im Hinblick auf die Bestimmung der SVM-Parameter124, die auch als Training der SVM bezeichnet wird, werden im Folgenden noch beschrieben.It should also be noted that thedevice 100 optionally aparameter adjuster 140 which is adapted to training audio signals 142 and Target Difference Rating Values (or Target Difference Score Values) 144 to receive and based on theSVM parameters 124 adjust. Further details regarding the determination ofSVM parameters 124 , which is also referred to as training the SVM, are described below.

Im Übrigen sei darauf hingewiesen, dass die Vorrichtung100 um all diejenigen Merkmale und Funktionalitäten ergänzt werden kann, die hierin beschrieben sind.Incidentally, it should be noted that thedevice 100 to supplement all those features and functionalities described herein.

2. Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität gemäß Fig. 22. A device for evaluating a perceived audio quality according to FIG. 2

2 zeigt ein Blockschaltbild einer Vorrichtung200 zur Bewertung einer wahrgenommenen Audioqualität, gemäß einem Ausführungsbeispiel der Erfindung. 2 shows a block diagram of adevice 200 for evaluating a perceived audio quality, according to an embodiment of the invention.

2.1 Überblick2.1 Overview

Die Vorrichtung200 ist ausgelegt, um ein Original-Signal210 (auch als Referenzsignal bezeichnet) und ein getestetes Signal212 (auch als Testsignal bezeichnet) zu empfangen und basierend darauf einen ODG216 zu liefern. Bei dem ODG kann es sich beispielsweise um einen einzigen numerischen Wert handeln, der einem Paar bestehend aus einem Original-Signal und einem getesteten Signal zugeordnet wird. Der ODG wird manchmal abgekürzt auch mit ODG bezeichnet. Die Vorrichtung200 ist ferner ausgelegt, um eine Information218 über einen Wiedergabepegel zu empfangen.Thedevice 200 is designed to be an original signal 210 (also referred to as reference signal) and a signal under test 212 (also referred to as a test signal) to receive and based on anODG 216 to deliver. For example, the ODG may be a single numerical value associated with a pair of an original signal and a signal being tested. The ODG will sometimes abbreviated to ODG. Thedevice 200 is further adapted to receiveinformation 218 to receive over a playback level.

Die Vorrichtung200 umfasst ein Wahrnehmungs-Modell220 basierend auf einer schnellen Fourier-Transformation (FFT) bzw. eine Einrichtung220 zur Auswertung eines entsprechenden Wahrnehmungs-Modells. Das Wahrnehmungs-Modell220 empfängt beispielsweise das Original-Signal210, das getestete Signal212 und die Information218 über den Wiedergabepegel und liefert basierend darauf FFT-Wahrnehmungsmodell-Ausgangsgrößen222. Bei den FFT-Wahrnehmungsmodell-Ausgangsgrößen222 kann es sich beispielsweise um eine Rauschmuster-Information, eine Anregungsmuster-Information und eine Spektrum-Information handeln. Die FFT-Wahrnehmungsmodell-Ausgangsgrößen222 werden im Übrigen an eine erste Modell-Ausgangsvariablen-Berechnung (auch kurz als ”MOV-Berechnung” bezeichnet)230 geliefert, die ausgelegt ist, um basierend auf den FFT-Wahrnehmungsmodell-Ausgangsgrößen222 erste MOVs232 bereitzustellen.Thedevice 200 includes aperceptual model 220 based on a fast Fourier transform (FFT) ordevice 220 to evaluate a corresponding perceptual model. Theperceptual model 220 for example, receives theoriginal signal 210 , the signal tested 212 and theinformation 218 about the rendering level and provides FFT perceptual model outputs based thereon 222 , For the FFT perceptual model outputs 222 it may be, for example, a noise pattern information, an excitation pattern information and a spectrum information. The FFT Perceptual Model Outputs 222 are also referred to a first model output variable calculation (also referred to as "MOV calculation" for short) 230 which is designed to be based on the FFT perceptual model outputs 222first MOVs 232 provide.

Die Vorrichtung200 umfasst ferner ein Wahrnehmungs-Modell240 basierend auf einer Filterbank bzw. eine Einrichtung240 zur Auswertung eines entsprechenden Wahrnehmungs-Modells basierend auf einer Filterbank. Das Wahrnehmungs-Modell240 basierend auf der Filterbank empfängt das Original-Signal210 und das getestete Signal212 sowie die Information218 über den Wiedergabepegel und liefert basierend darauf Filterbank-Wahrnehmungsmodell-Ausgangsgrößen242 an eine zweite MOV-Berechnung150. Die zweite MOV-Berechnung250 liefert beispielsweise zweite MOVs252. Es sei im Übrigen darauf hingewiesen, dass es sich bei den Filterbank-Wahrnehmungsmodell-Ausgangsgrößen beispielsweise um eine Anregungs-Muster-Information und eine nicht-verschmierte Anregungs-Muster-Information handeln kann, wie dies im Folgenden noch kurz erläutert wird.Thedevice 200 also includes aperceptual model 240 based on a filter bank ordevice 240 to evaluate a corresponding perceptual model based on a filter bank. Theperceptual model 240 based on the filter bank receives theoriginal signal 210 and the signal tested 212 as well as theinformation 218 about the rendering level and provides filter bank perceptual model outputs based thereon 242 to a second MOV calculation 150 , Thesecond MOV calculation 250 delivers, for example,second MOVs 252 , It should be noted, moreover, that the filter bank perception model output variables may be, for example, an excitation pattern information and a non-smeared excitation pattern information, as will be briefly explained below.

Eine SVM260 empfängt die ersten MOVs232 und die zweiten MOVs252 und liefert, basierend darauf, und unter Verwendung von SVM-Parametern, den ODG216.AnSVM 260 receives thefirst MOVs 232 and thesecond MOVs 252 and provides, based on it, and using SVM parameters, theODG 216 ,

Im Hinblick auf weitere Details betreffend das Wahrnehmungs-Modell220 basierend auf der schnellen Fourier-Transformation, betreffend das Wahrnehmungs-Modell240 basierend auf der Filterbank, betreffend die erste MOV-Berechnung230 und betreffend die zweite MOV-Berechnung250 wird hier ausdrücklich aufAbschnitt 3 der Master-Arbeit „Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic (Universität von Novi Sad, Fakultät für technische Wissenschaften, Novi Sad, Juli 2006) verwiesen. Die Lehre im Abschnitt 3 der genannten Masterarbeit wird hier ausdrücklich mit einbezogen.With regard to further details regarding theperceptual model 220 based on the fast Fourier transform, concerning theperceptual model 240 based on the filter bank, concerning thefirst MOV calculation 230 and regarding thesecond MOV calculation 250 is explicitly stated here Section 3 of the Master's Thesis "Analysis of Methods for Objective Evaluation of Quality of Audio Signaling and Application in Implementation of an Encoder on a Class of Digital Signal Processors" by Goran Markovic (University of Novi Sad, Faculty of Technical Sciences, Novi Sad, July 2006) directed. The teaching in section 3 of the mentioned master thesis is explicitly included here.

Im Übrigen wird für weitere Hintergrundinformationen und auch für Details im Hinblick auf das Wahrnehmungs-Modell220 basierend auf einer schnellen Fourier-Transformation, auf das Wahrnehmungs-Modell240 basierend auf der Filterbank, auf die erste MOV-Berechnung230 und auf die zweite MOV-Berechnung250 auch auf dieEmpfehlung ITU-R BS.1387-1: „Method for Objective Measurements of Perceived Audio Quality” der Internationalen Telekommunikations-Union (ITU), Genf, 2001, verwiesen.Incidentally, for more background information and also details regarding theperceptual model 220 based on a fast Fourier transform, on theperceptual model 240 based on the filter bank, on thefirst MOV calculation 230 and thesecond MOV calculation 250 also on the Recommendation ITU-R BS.1387-1: "Method for Objective Measurements of Received Audio Quality" of the International Telecommunication Union (ITU), Geneva, 2001 , referenced.

Ganz allgemein ist hier festzuhalten, dass insbesondere, aber nicht ausschließlich die5,8,9 und10 derEmpfehlung „ITU-R BS.1387-1” der Internationalen Telekommunikations-Union für das Verständnis der vorliegenden Erfindung sehr hilfreich sind. In5 der genannten Empfehlung der Internationalen Telekommunikations-Union wird ein Konzept präsentiert, das auf dem Vergleich von internen Darstellungen (von zu vergleichenden Audiosignalen) basiert, wobei dieses Konzept auch in der APEAQ gemäß Ausführungsbeispielen der Erfindung verwendet wird. Modell-Ausgangsvariablen (auch als „MOVs” bezeichnet) stellen „Audio-Qualitäts-Schätzwerte” dar, die am Ende unter Verwendung einer SVR (oder aber, alternativ, mit weniger guten Ergebnissen, unter Verwendung eines neuronalen Netzwerks) zu einem einzigen „Audio-Qualitäts-Schätzwert” kombiniert werden, der auch als „objektive Unterschieds-Bewertung” („Objective-Difference-Grade” bzw. „ODG” bezeichnet wird.In general, it should be noted here that, in particular, but not exclusively, the 5 . 8th . 9 and 10 of the Recommendation "ITU-R BS.1387-1" of the International Telecommunication Union are very helpful for understanding the present invention. In 5 The above mentioned recommendation of the International Telecommunication Union presents a concept based on the comparison of internal representations (of audio signals to be compared), this concept also being used in the APEAQ according to embodiments of the invention. Model output variables (also referred to as "MOVs") represent "audio quality estimates" that are ultimately converted into a single audio using SVR (or alternatively, with less good results, using a neural network) Quality Estimate ", also referred to as" Objective Difference Grade "(" ODG ").

8 der genannten Empfehlung der Internationalen Telekommunikations-Union stellt ein generisches Blockdiagramm dar, das dem Blockdiagramm gemäß der2 ähnelt. 8th The above-mentioned International Telecommunication Union Recommendation is a generic block diagram which corresponds to the block diagram according to the 2 similar.

9 der genannten Empfehlung der Internationalen Telekommunikations-Union ähnelt sehr stark der3. 9 The recommendation of the International Telecommunication Union is very similar to that of 3 ,

10 der genannten Empfehlung der Internationalen Telekommunikations-Union ähnelt sehr stark der4. 10 The recommendation of the International Telecommunication Union is very similar to that of 4 ,

Zusammenfassend ist somit festzuhalten, dass die2 ein allgemeines Blockschaltbild einer weiterentwickelten Version der Bewertung der wahrgenommenen Audioqualität darstellt. Weitere Details werden im Folgenden erläutert. In summary, it should be noted that the 2 Figure 4 is a general block diagram of an enhanced version of the perceived audio quality rating. Further details are explained below.

2.2 Wahrnehmungs-Modell basierend auf der schnellen Fourier-Transformation (FFT) gemäß Fig. 32.2 perceptual model based on the fast Fourier transform (FFT) according to FIG. 3

Im Folgenden wird Bezug nehmend auf die3 ein Wahrnehmungs-Modell300 beschrieben, das auf der schnellen Fourier-Transformation (FFT) basiert, und das beispielsweise die Funktion des Wahrnehmungs-Modells220 übernehmen kann. Für Details im Hinblick auf dieses Wahrnehmungs-Modell300 sei im Übrigen insbesondere aufAbschnitt 3.1. der oben genannten Master-Arbeit von Goran Markovic und auch auf die oben genannteEmpfehlung „ITU-R BS.1387-1” der Internationalen Telekommunikations-Union (ITU) verwiesen.In the following, reference will be made to FIGS 3 aperceptual model 300 which is based on the fast Fourier transform (FFT), for example, the function of theperceptual model 220 can take over. For details regarding thisperceptual model 300 Incidentally, in particular Section 3.1. the aforementioned master thesis by Goran Markovic and also on the above Recommendation "ITU-R BS.1387-1" of the International Telecommunication Union (ITU) directed.

Das auf der schnellen Fourier-Transformation basierende Wahrnehmungs-Modell300 empfängt ein Eingangssignal310 und liefert eine Information312 über ein Rauschmuster und/oder eine Information314 über ein Anregungs-Muster und/oder eine Information316 über ein Spektrum. Anregungs-Muster314 werden beispielsweise nur für das Original-Signal (z. B. das Original-Signal210) berechnet. Spektra316 werden beispielsweise sowohl für die Original-Signale als auch die getesteten Signale (beispielsweise die Original-Signale210 und die getesteten Signale212) berechnet. Rauschmuster312 stellen beispielsweise deren Differenz, also beispielsweise die Differenz zwischen einem Original-Signal und einem getesteten Signal, dar.The perceptual model based on thefast Fourier transform 300 receives aninput signal 310 and providesinformation 312 via a noise pattern and / orinformation 314 via an excitation pattern and / orinformation 316 over a spectrum.Excitation pattern 314 For example, only for the original signal (eg the original signal 210 ).spectra 316 For example, for both the original signals and the signals being tested (for example, theoriginal signals 210 and the signals tested 212 ).noise pattern 312 For example, represent their difference, for example, the difference between an original signal and a signal tested.

Das FFT-basierte Wahrnehmungs-Modell umfasst beispielsweise eine schnelle Fourier-Transformation320, bei der FFT-Koeffizienten322 basierend auf dem jeweiligen Eingangssignal310 (bei dem es sich um das Original-Signal210 oder um das getestete Signal212 handeln kann) bereitgestellt werden. Das FFT-basierte Wahrnehmungs-Modell300 umfasst ferner die Gleichrichtung324, bei der die FFT-Koeffizienten322 „gleichgerichtet” werden, beispielsweise im Sinne einer Absolutwertbildung. Die gleichgerichteten FFT-Koeffizienten326 werden dann einer Skalierung328 unterzogen, wobei die Skalierung in Abhängigkeit von den Wiedergabepegeln (z. B. dem Wiedergabepegel218) erfolgt. Auf die skalierten (gleichgerichteten) FFT-Koeffizienten330, die durch die Skalierung328 erhalten werden, wird dann eine Frequenzantwort332 von äußerem Ohr und Mittelohr angewendet, um somit durch die Ohr-Geometrie gewichtete (gleichgerichtete und skalierte) FFT-Koeffizienten334 zu erhalten. Die gemäß der Ohr-Geometrie gewichteten FFT-Koeffizienten334 werden dann einer Gruppierung336 in Frequenz-Subbänder unterzogen, um somit gruppierte FFT-Koeffizienten338 zu erhalten. Zu den gruppierten FFT-Koeffizienten338 wird dann internes Rauschen hinzugefügt (Schritt340), um somit mit einem Rauschen versehene FFT-Koeffizienten342 zu erhalten. Auf die mit dem Rauschen versehenen FFT-Koeffizienten342 wird dann eine Frequenzbereichs-Spreizung344 angewendet, bei der Energien der Subbänder verschmiert werden, um eine Frequenz-Maskierung zu modellieren. Somit werden Frequenzbereichs-gespreizte FFT-Koeffizienten346 erhalten, auf die eine Zeitbereichs-Spreizung348 angewendet wird. Bei der Zeitbereichs-Spreizung werden Anregungs-Muster zeitlich verschmiert, wodurch schließlich die Information314 über das Anregungs-Muster erhalten wird. In anderen Worten, die Information314 über das Anregungs-Muster stellt ein Endergebnis des Wahrnehmungs-Modells, das auf der schnellen Fourier-Transformation basiert, dar. Im Übrigen beschreibt die Information316 über das Spektrum die mit einem internen Rauschen versehenen FFT-Koeffizienten342 bzw. ist identisch zu den mit einem internen Rauschen versehenen FFT-Koeffizienten342.The FFT-based perceptual model includes, for example, afast Fourier transform 320 , at theFFT coefficients 322 based on the respective input signal 310 (which is theoriginal signal 210 or the signal tested 212 can act). The FFT-basedperceptual model 300 further includes therectification 324 where theFFT coefficients 322 Be "rectified", for example in the sense of absolute value. The rectifiedFFT coefficients 326 then become a scaling 328 The scaling depends on the playback levels (eg, the playback level 218 ) he follows. On the scaled (rectified)FFT coefficients 330 by scaling 328 will then receive afrequency response 332 from outer ear and middle ear, thus weighted by the ear geometry (rectified and scaled)FFT coefficients 334 to obtain. The FFT coefficients weighted according to theear geometry 334 then become agrouping 336 in frequency subbands, thus groupedFFT coefficients 338 to obtain. To the groupedFFT coefficients 338 then internal noise is added (step 340 ), thus providingnoise FFT coefficients 342 to obtain. To thenoisy FFT coefficients 342 then becomes a frequency range spread 344 in which energies of the subbands are blurred to model frequency masking. Thus, frequency-domainspread FFT coefficients 346 get on that a time-domain spread 348 is applied. In time-domain spreading, excitation patterns are smeared in time, eventually causing theinformation 314 is obtained via the excitation pattern. In other words, theinformation 314 An end result of the perceptual model based on the fast Fourier transformation is represented by the excitation pattern. Incidentally, the information describes 316 through the spectrum the FFT coefficients provided with aninternal noise 342 or is identical to the provided with an internalnoise FFT coefficient 342 ,

Im Übrigen werden die gemäß einer Ohr-Geometrie bzw. Ohr-Filterfunktion bewerteten FFT-Koeffizienten334 bevorzugt herangezogen, um eine Berechnung350 eines Signal-Unterschieds zwischen zwei Signalen (beispielsweise zwischen dem Original-Signal210 und dem getesteten Signal212) durchzuführen. Um einen Signal-Unterschied zu berechnen, wird dabei ein gemäß der Filtercharakteristik des Ohrs gewichteter erster Satz von (gleichgerichteten und skalierten) FFT-Koeffizienten334 eines ersten Vergleichssignals sowie ein gemäß der Filtercharakteristik des Ohrs gewichteter zweiter Satz von (gleichgerichteten und skalierten) FFT-Koeffizienten eines zweiten Vergleichssignals berechnet. Anschließend erfolgt beispielsweise eine Bestimmung einer Differenzleistung oder Differenz-Amplitude, beispielsweise pro Frequenz-Korb (der FFT). Für Details diesbezüglich wird beispielsweise aufAbsatz 3.1.3 der Master-Arbeit von Goran Markovic verwiesen. Anschließend an die Berechnung eines Signal-Unterschieds, bei der Unterschieds-FFT-Koeffizienten152 erhalten werden, erfolgt beispielsweise eine Gruppierung354 in Frequenzbänder, um somit die Information312 über das Rauschmuster zu erhalten.Incidentally, the FFT coefficients evaluated according to an ear geometry or ear filter function become 334 preferably used to make a calculation 350 a signal difference between two signals (for example, between theoriginal signal 210 and the signal tested 212 ). In order to calculate a signal difference, it becomes a first set of (rectified and scaled) FFT coefficients weighted according to the filter characteristic of theear 334 of a first comparison signal and a second set of (rectified and scaled) FFT coefficients of a second comparison signal weighted according to the filter characteristic of the ear. Subsequently, for example, a determination of a differential power or differential amplitude, for example, per frequency basket (the FFT). For details in this regard, for example Paragraph 3.1.3 of the master thesis of Goran Markovic directed. Following the calculation of a signal difference, the difference FFT coefficients 152 are obtained, for example, a grouping occurs 354 in frequency bands, hence theinformation 312 to get over the noise pattern.

Zusammenfassend ist somit festzuhalten, dass basierend auf einem Eingangssignal (beispielsweise einem Original-Signal210 oder einem getesteten Signal212) eine Information314 über ein Anregungs-Muster und eine Information316 über ein Spektrum unter Verwendung des FFT-basierten Wahrnehmungs-Modells300 erzeugt werden. Durch einen Vergleich bzw. eine Differenzbildung zwischen gewichteten FFT-Koeffizienten334 von zwei zu vergleichenden Signalen (beispielsweise einem Original-Signal210 und einem getesteten Signal212) kann im Übrigen eine Information312 über ein Rauschmuster (bzw. ein Störungsmuster) erhalten werden.In summary, it should be noted that based on an input signal (for example, anoriginal signal 210 or a signal tested 212 ) aninformation 314 about an excitation pattern and aninformation 316 over a spectrum using the FFT-basedperceptual model 300 be generated. By comparing or differentiating betweenweighted FFT coefficients 334 of two signals to be compared (for example, anoriginal signal 210 and a signal tested 212 ) can also provideinformation 312 via a noise pattern (or noise pattern).

Die Informationen312,314,316 können dann als Eingangsinformationen für die MOV-Berechnung230 dienen, wie später noch erläutert wird.Theinformation 312 . 314 . 316 can then be used as input information for theMOV calculation 230 serve, as will be explained later.

2.3. Filterbank-basiertes Wahrnehmungs-Modell gemäß Fig. 42.3. Filterbank-based perceptual model according to FIG. 4

Im Folgenden wird ein Filterbank-basiertes Wahrnehmungs-Modell400 gemäß4 beschrieben, das beispielsweise die Funktion des Filterbank-basierten Wahrnehmungs-Modells240 erfüllen kann.The following is a filterbank-basedperceptual model 400 according to 4 For example, this is the function of the Filterbank-basedperceptual model 240 can fulfill.

Das Filterbank-basierte Wahrnehmungs-Modell400 empfängt ein Eingangssignal410 und eine Information412 über einen Wiedergabepegel und liefert eine Information416 über ein Anregungs-Muster sowie, zusätzlich, eine nicht-verschmierte Information418 über ein Anregungs-Muster.The filter bank-basedperceptual model 400 receives aninput signal 410 andinformation 412 about a playback level and provides information 416 via an excitation pattern and, in addition,non-smeared information 418 via an excitation pattern.

Das Filterbank-basierte Wahrnehmungs-Modell400 umfasst eine Skalierung420, bei der das Eingangssignal410 in Abhängigkeit von der Information412 über den Wiedergabepegel skaliert wird, um ein skaliertes Eingangssignal422 zu erhalten. Das skalierte Eingangssignal422 wird einer Gleichwert-Filterung424 zugeführt, um ein Gleichwert-gefiltertes (und skaliertes) Eingangssignal426 zu erhalten. Das Gleichwert-gefilterte Eingangssignal426 wird dann einer Filterbank428 zugeführt, die typischerweise eine Mehrzahl von Filterbanken-Signalen430 bereitstellt. Die Filterbank428 kann dabei das Gleichwert-gefilterte (und skalierte) Eingangssignal426 in eine Mehrzahl von Signalen430 zerlegen, wobei die unterschiedlichen Signale430 durch Filterung mit unterschiedlichen Filtern, die unterschiedliche, aber u. U. überlappende Durchlass-Frequenzbereiche aufweisen, erhalten werden. Auf die Filterbank-Signale430 wird dann eine Frequenzantwort des äußeren Ohres und des Mittelohres angewendet (Schritt432), um somit gemäß einer Filtercharakteristik des Ohres bewertete Filterbank-Signale434 zu erhalten. Die gemäß der Filtercharakteristik des Ohres gewichteten Filterbank-Signale werden dann einer Frequenzbereichs-Spreizung436 unterzogen, um somit Frequenzbereichs-gespreizte Filterbank-Signale438 zu erhalten. Die Frequenzbereichs-gespreizten Filterbank-Signale438 werden einer Gleichrichtung440 unterzogen, um gleichgerichtete Filterbank-Signale442 zu erhalten, die ihrerseits einer Rückwärts-Spreizung444 in der Zeit unterzogen werden. Somit werden zeitlich Rückwärts-gespreizte Filterbank-Signale446 erhalten, zu denen ein internes Rauschen hinzugefügt wird (Schritt448). Dadurch erhaltene mit einem internen Rauschen versehene Filterbank-Signale450 werden einer Vorwärts-Spreizung452 in der Zeit unterzogen, um somit die Information416 über das Anregungs-Muster zu erhalten. Die mit einem internen Rauschen versehenen Filterbank-Signale450 (vor der Vorwärts-Spreizung452 in der Zeit) dienen im Übrigen auch als die Information418 über das nicht-verschmierte Anregungs-Muster.The filter bank-basedperceptual model 400 includes a scaling 420 where theinput signal 410 depending on theinformation 412 is scaled by the playback level to a scaledinput signal 422 to obtain. The scaledinput signal 422 becomes equal-value filtering 424 supplied to an equal-filtered (and scaled)input signal 426 to obtain. The equal-filteredinput signal 426 then becomes afilter bank 428 which typically includes a plurality of filterbank signals 430 provides. Thefilter bank 428 can use the equal-filtered (and scaled)input signal 426 in a plurality ofsignals 430 disassemble, taking thedifferent signals 430 by filtering with different filters that are different but u. U. overlapping pass frequency ranges, can be obtained. On the filter bank signals 430 then a frequency response of the outer ear and the middle ear is applied (step 432 ), thus filtering bank signals evaluated according to a filter characteristic of theear 434 to obtain. The filter bank signals weighted according to the filter characteristic of the ear then become frequency domain spread 436 frequency band spread filter bank signals 438 to obtain. The frequency domain spread filter bank signals 438 become arectification 440 subjected to rectified filter bank signals 442 to receive, in turn, abackward spread 444 be subjected in time. Thus, time-backward spread filter bank signals become 446 to which internal noise is added (step 448 ). Thereby obtained with an internal noise filter bank signals 450 become aforward spread 452 subjected in time to the information 416 to get over the excitation pattern. The filter bank signals provided with internal noise 450 (before forward spreading 452 in the meantime) serve as the information as well 418 over the non-smeared excitation pattern.

Im Hinblick auf das Filterbank-basierte Wahrnehmungs-Modell ist im Übrigen zu sagen, dass die Basis für dieses Modell eine Filterbank ist, die aus z. B. 40 Paaren von Filtern besteht, die auf einer sogenannten Bark-Skala gleichen Abstand aufweisen.With regard to the filter bank-based perceptual model, it should be noted that the basis for this model is a filter bank consisting of e.g. B. 40 pairs of filters, which have the same distance on a so-called Bark scale.

Für weitere Details wird im Übrigen aufAbschnitt 3.2 der Master-Arbeit von Goran Markovic sowie auf denVorschlag ”ITU-R BS.1387-1” der Internationalen Telekommunikations-Union verwiesen.For more details, by the way Section 3.2 of the Master Thesis by Goran Markovic as well as on the Proposal "ITU-R BS.1387-1" of the International Telecommunication Union directed.

Zusammenfassend ist ferner zu sagen, dass weitere Flussdiagramme in derEmpfehlung „ITU-R BS.1387-1” zu finden sind, und zwar sowohl für das FFT-basierte Wahrnehmungs-Modell gemäß3 als auch für das Filterbank-basierte Wahrnehmungs-Modell gemäß4. Flussdiagramme aus der genannten Empfehlung der Internationalen Telekommunikations-Union und aus derMaster-Arbeit von Goran Markovic beschreiben im Wesentlichen das gleiche System, da sich die Master-Arbeit von Goran Markovic zumindest in dem ersten Teil auf die Implementierung des Systems aus der genannten Empfehlung der Internationalen Telekommunikations-Union bezieht.In summary, it should be noted that further flowcharts in the Recommendation "ITU-R BS.1387-1" for both the FFT-based perceptual model according to 3 as well as for the filter bank based perceptual model according to 4 , Flowcharts from the said recommendation of the International Telecommunication Union and from the Master thesis by Goran Markovic describe essentially the same system, as the master thesis of Goran Markovic at least in the first part refers to the implementation of the system of the above-mentioned recommendation of the International Telecommunication Union.

2.4. Berechnung der Modell-Ausgangsvariablen2.4. Calculation of the model output variable

Im Folgenden wird die Berechnung der MOVs beschrieben, die beispielsweise basierend auf den von dem FFT-basierten Wahrnehmungs-Modell gelieferten Ausgangsgrößen (z. B. Anregungsmuster-Informationen314, Spektrum-Informationen316 und Rauschmuster-Informationen312) oder basierend auf den von dem Filterbank-basierten Wahrnehmungs-Modell gelieferten Ausgangsgrößen (z. B. Anregungsmuster-Information416 und nicht-verschmierte Anregungsmuster-Information418) erfolgen kann. Es sei hier darauf hingewiesen, dass nicht notwendigerweise beide oben genannten Wahrnehmungs-Modelle eingesetzt werden müssen, sondern dass vielmehr bei einigen Ausführungsbeispielen auch der Einsatz eines einzigen Wahrnehmungs-Modells (beispielsweise des Wahrnehmungs-Modells220 oder des Wahrnehmungs-Modells240, oder eines anderen Wahrnehmungsmodells) ausreichend ist.The following describes the calculation of the MOVs based, for example, on the outputs provided by the FFT-based perceptual model (eg,excitation pattern information 314 ,Spectrum information 316 and noise pattern information 312 ) or based on the outputs provided by the filter bank-based perceptual model (eg, excitation pattern information 416 and non-smeared excitation pattern information 418 ). It should be noted that not necessarily both above-mentioned perceptual models must be used, rather, in some embodiments, the use of a single perceptual model (eg, theperceptual model 220 or theperceptual model 240 , or another perceptual model) is sufficient.

Die Anregungs-Muster, die beispielsweise durch die Anregungsmuster-Information314 und/oder durch die Anregungsmuster-Information416 beschrieben werden, können beispielsweise für die Bestimmung bzw. Berechnung von MOVs verwendet werden. In anderen Worten, Anregungs-Muster (z. B. das Anregungs-Muster314, das durch das FFT-basierte Wahrnehmungs-Modell erzeugt wird, oder das Anregungs-Muster416, das durch das Filterband-basierte Wahrnehmungs-Modell erzeugt wird), nicht-verschmierte Anregungs-Muster (z. B. das nicht-verschmierte Anregungs-Muster418), Rauschmuster (z. B. das Rauschmuster312, das unter Verwendung des FFT-basierten Wahrnehmungs-Modells300 auf der Basis eines Original-Signals und eines getesteten Signals erzeugt werden kann) und ein Spektrum, die durch die oben beschriebenen Wahrnehmungs-Modelle geliefert werden, bilden Eingangsgrößen für die Blöcke der MOV-Berechnung. Die MOV-Berechnung für die APEAQ gemäß Ausführungsbeispielen der Erfindung ist beispielsweise in derMaster-Arbeit von Goran Markovic beschrieben, und zwar insbesondere in den Abschnitten 3.3., 3.4. und 4.8. Eine weitere Beschreibung, die der Beschreibung in den Abschnitten 3.3 und 3.4 der genannten Master-Arbeit ähnelt, findet sich im Übrigen in derEmpfehlung „ITU-R BS.1387-1”,Kapitel 3 und 4. Kapitel 4.8 der genannten Master-Arbeit von Goran Markovic beschreibt im Übrigen eine Weiterentwicklung und Verbesserung im Vergleich zu der ITU-Empfehlung (ITU-R BS.1387-1), die im Rahmen der Masterarbeit erfolgt ist. Die in Kapitel 4.8 der genannten Master-Arbeit beschriebene Weiterentwicklung und Verbesserung ist Teil der APEAQ, und ist nicht Teil der ITU-Empfehlung „ITU-R BS.1387-1” und kann bei Ausführungsbeispielen gemäß der Erfindung eingesetzt werden.The excitation pattern, for example, by theexcitation pattern information 314 and / or by the excitation pattern information 416 can be used, for example, for the determination or calculation of MOVs. In other words, excitation patterns (eg theexcitation pattern 314 generated by the FFT-based perceptual model or the excitation pattern 416 generated by the filter band-based perceptual model), non-blurred excitation patterns (e.g., the non-blurred excitation pattern 418 ), Noise pattern (eg thenoise pattern 312 using the FFT-basedperceptual model 300 can be generated on the basis of an original signal and a signal under test) and a spectrum provided by the perceptual models described above constitute inputs to the blocks of the MOV calculation. The MOV calculation for the APEAQ according to embodiments of the invention is for example in the Master's thesis by Goran Markovic, especially in Sections 3.3., 3.4. and 4.8 , A further description, which is similar to the description in Sections 3.3 and 3.4 of the aforementioned master's thesis, can be found in the Recommendation "ITU-R BS.1387-1" . Chapters 3 and 4. Chapter 4.8 of the aforementioned master's thesis by Goran Markovic moreover describes a further development and improvement compared to the ITU Recommendation (ITU-R BS.1387-1), which was carried out as part of the Master's thesis. The further development and improvement described in Chapter 4.8 of the aforementioned master's thesis is part of the APEAQ, and is not part of the ITU recommendation "ITU-R BS.1387-1" and can be used in embodiments according to the invention.

Die Ausgangsgrößen der MOV-Berechnungs-Blöcke sind die MOVs, die als Eingangsgrößen eines neuronalen Netzwerks oder, gemäß Ausführungsbeispielen der Erfindung, einer SVM dienen, wie es beispielsweise in den5 und7 gezeigt ist.The output variables of the MOV calculation blocks are the MOVs which serve as input variables of a neural network or, according to embodiments of the invention, an SVM, as described, for example, in US Pat 5 and 7 is shown.

Im Folgenden werden einige der MOVs, die als Eingangsvariablen der SVM bzw. SVR dienen, näher erläutert. Für weitere Details wird hier ausdrücklich auf dieAbschnitte 3.3, 3.4 und 4.8 der oben genannten Master-Arbeit von Goran Markovic verwiesen.In the following, some of the MOVs that serve as input variables of the SVM or SVR are explained in more detail. For more details, click here Sections 3.3, 3.4 and 4.8 of the aforementioned master thesis by Goran Markovic directed.

Zunächst sei darauf hingewiesen, dass, optional, eine Vorverarbeitung von Anregungs-Mustern, beispielsweise des Anregungs-Musters314 oder des Anregungs-Musters416, erfolgen kann, um die Berechnung der MOVs vorzubereiten. Für Details diesbezüglich wird insbesondere aufAbschnitt 3.3 der genannten Master-Arbeit von Goran Markovic verwiesen. Die Vorverarbeitung wird bevorzugt auf die Anregungs-Muster416 angewendet, die durch das Filterbank-basierte Wahrnehmungs-Modell geliefert werden, kann aber auch auf das von dem FFT-basierten Wahrnehmungs-Modell gelieferte Anregungs-Muster314 angewendet werden. Die Vorverarbeitung kann beispielsweise eine Einstellung bzw. Anpassung der Lautstärke des Original-Signals und/oder des getesteten Signals, eine Berechnung einer zeitlichen Hüllkurvenmodulation sowie eine Berechnung der Signal-Lautheit („Loudness”) umfassen. Verschiedene optionale weitere Veränderungen an der MOV-Anpassung, die bei APEAQ verwendet wird, sind beispielsweise inKapitel 4.1 der Masterarbeit von Goran Markovic beschrieben und können auch bei Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden.First, it should be noted that, optionally, preprocessing of excitation patterns, such as theexcitation pattern 314 or the excitation pattern 416 , can be done to prepare the calculation of the MOVs. For details in this regard is in particular Section 3.3 of the aforementioned master thesis by Goran Markovic directed. The preprocessing is preferred to the excitation pattern 416 but can also be applied to the excitation pattern provided by the FFT-basedperceptual model 314 be applied. The preprocessing may include, for example, adjusting the volume of the original signal and / or the signal under test, calculating temporal envelope modulation, and calculating loudness of the loudness. Various optional modifications to the MOV fitting used in APEAQ are, for example, in Chapter 4.1 of the master thesis of Goran Markovic described and can also be used in embodiments according to the present invention.

Basierend auf den Ausgangsgrößen des FFT-basierten Wahrnehmungs-Modells300 bzw. des Filterbank-basierten Wahrnehmungs-Modells400 können im Übrigen, gegebenenfalls unter Berücksichtigung der genannten Vorverarbeitung der Anregungs-Muster, die MOVs berechnet werden. Für Details diesbezüglich wird aufAbschnitt 3.4 der oben genannten Master-Arbeit von Goran Markovic verwiesen. Es sei hier im Übrigen darauf hingewiesen, dass bevorzugt zwei oder mehr der im Folgenden beschriebenen MOVs berechnet werden, wenngleich immerhin sogar fünf oder mehr verschiedene Ausgangsvariablen zum Einsatz kommen können.Based on the output of the FFT-basedperceptual model 300 or the Filterbank-basedperceptual model 400 Incidentally, if necessary taking into account the above preprocessing of the excitation pattern, the MOVs can be calculated. For details on this will be on Section 3.4 of the aforementioned master thesis by Goran Markovic directed. It should be noted, moreover, that preferably two or more of the MOVs described below are calculated, although after all even five or more different output variables can be used.

In einer weiterentwickelten Version, die in derEmpfehlung ”ITU-R BS.1387” der Internationalen Telekommunikations-Union beschrieben ist, werden fünf MOVs verwendet: RmsModDiffA (Effektivwert Modulationsabweichung bzw. Effektivwert Modulationsmuster-Differenz), RmsNoiseLoudAsymA (Effektivwert Störlautheit Asymmetrisch), AvgLinDistA (Mittelwert der linearen Störungen), SNMRB (Segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. Segmentweises Störungs-zu-Masken-Verhältnis) und EHSB (Harmonische Struktur des Fehlers bzw. harmonische Fehlerstruktur). Die genannten MOVs können auch in Ausführungsbeispielen gemäß der vorliegenden Erfindung berechnet und ausgewertet werden. Zur Mittelung über der Zeit von MOV-Werte in einzelnen Rahmen werden die Werte von allen Rahmen, die bestimmte Bedingungen erfüllen, verwendet. Somit basieren die MOVs auf einer Mittelung über der Zeit, wobei bevorzugt ungeeignete Audio-Rahmen außer Acht gelassen werden. Zusätzlich zu der Mittelung in Zeit wird der endgültige Wert jeder MOV durch arithmetische Mittelwertbildung zwischen einer Mehrzahl von Kanälen gebildet, sofern mehrere Kanäle vorhanden sind. Allerdings ist darauf hinzuweisen, dass die Mittelwertbildung sowohl über der Zeit als auch über den Kanälen nicht erforderlich ist, sondern als optional anzusehen ist und gegebenenfalls durch eine andere Art der Auswertung (zum Beispiel Auswahl von Werten für den schlechtesten Fall) ersetzt werden kann.In an evolved version that is in the Recommendation "ITU-R BS.1387" of the International Telecommunication Union five MOVs are used: RmsModDiffA (RMSNoiseLoudAsymA (rms noise unbalanced), AvgLinDistA (linear noise average), SNMRB (segmented ratio of error signal to masking threshold, or segment by segment) Interference-to-mask ratio) and EHSB (harmonic structure of the error or harmonic error structure). The said MOVs can also be calculated and evaluated in embodiments according to the present invention. To average over time MOV values in individual frames, the values of all frames are determined Meet conditions used. Thus, the MOVs are based on averaging over time, preferentially disregarding inappropriate audio frames. In addition to the averaging in time, the final value of each MOV is formed by arithmetic averaging between a plurality of channels, if there are multiple channels. However, it should be noted that averaging over both time and channels is not required, but is optional and may be replaced by another type of evaluation (eg, worst case choice).

Eine effektive Modulationsabweichung bzw. Modulationsdifferenz bzw. Modulationsmusterdifferenz „RmsModDiffA” beschreibt den Unterschied von Modulationsmustern des originalen Signals (beispielsweise des Referenzsignals210) und des getesteten Signals (z. B. des getesteten Signals212). Für Details im Hinblick auf die Berechnung der mittleren Modulationsabweichung bzw. Modulationsmuster-Differenz sei aufAbschnitt 3.4.1 der oben genannten Diplomarbeit von Goran Markovic sowie auf den entsprechenden Abschnitt der oben genannten ITU-Empfehlung verwiesen.An effective modulation deviation or modulation difference "RmsModDiffA " describes the difference of modulation patterns of the original signal (for example, the reference signal 210 ) and the signal under test (e.g., the signal under test 212 ). For details regarding the calculation of the mean modulation deviation or modulation pattern difference, see Section 3.4.1 of the above thesis by Goran Markovic and to the relevant section of the above ITU Recommendation.

Eine Lautheit von Störungen (bzw. von Unterschieden zwischen Testsignal und Referenzsignal) kann durch verschiedene Ausgangsvariablen beschrieben werden, nämlich beispielsweise durch MOVs „RmsNoiseLoudA” (Effektivwert der Störlautheit), und/oder „RmsMissingComponentsA” (Effektivwert der fehlenden Komponenten bzw. Lautheit der fehlenden Komponenten), und/oder „AvgLinDistA” (Mittelwert der linearen Störungen).Loudness of disturbances (or differences between test signal and reference signal) can be described by different output variables, for example, MOVs "RmsNoiseLoudA ", and / or "RmsMissingComponentsA " (rms value of missing components or loudness, respectively) the missing components), and / or "AvgLinDistA " (average of the linear perturbations).

Details im Hinblick auf die Berechnung dieser Lautheits-Werte sind beispielsweise inAbschnitt 3.4.2 der oben genannten Masterarbeit von Goran Markovic näher erläutert. Im übrigen beschreibtAbschnitt 3.4.3 der genannten Masterarbeit einen weiteren Lautheits-Wert „RmsNoiseLoudAsymA”, der durch eine Linearkombination der oben genannten Lautheits-Werte „RmsNoiseLoudA” und „RmsMissingComponentsA” erhalten werden kann. Weitere Details im Hinblick auf den Mittelwert der linearen Störungen „AvgLinDistA” sind im übrigen inAbschnitt 3.4.4 der Masterarbeit von Goran Markovic erläutert.Details regarding the calculation of these loudness values are for example in Section 3.4.2 of the above master thesis by Goran Markovic explained in more detail. Otherwise describes Section 3.4.3 of the mentioned master thesis another loudness value "RmsNoiseLoudAsymA ", which can be obtained by a linear combination of the above-mentioned loudness values "RmsNoiseLoudA " and "RmsMissingComponentsA ". Further details with regard to the mean value of the linear disturbances "AvgLinDistA " are otherwise in Section 3.4.4 of the master thesis of Goran Markovic explained.

Weiterhin kann als MOV ein segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. segmentweises Störungs-zu-Masken-Verhältnis „SNMRB” berechnet werden, welches eine Beziehung zwischen Störungen (bzw. Unterschieden zwischen Testsignal und Referenzsignal bzw. Fehlersignal) und einer Maskierungsschwelle bzw. Verdeckungsschwelle darstellt. Die Maskierungsschwelle kann beispielsweise basierend auf den verschmierten Anregungsmustern314 des Referenzsignals bzw. Originalsignals210, die durch das FFT-basierte Wahrnehmungsmodell geliefert werden, berechnet werden. Details diesbezüglich sind beispielsweise inAbschnitt 3.4.5 der oben genannten Masterarbeit von Goran Markovic erläutert.Furthermore, a segmented ratio of error signal to the masking threshold or segment-wise noise-to-mask ratio "SNMRB " can be calculated as MOV, which determines a relationship between disturbances (or differences between test signal and reference signal or error signal) and a masking threshold or Represents masking threshold. For example, the masking threshold may be based on the smearedexcitation patterns 314 the reference signal ororiginal signal 210 calculated by the FFT-based perceptual model. Details in this respect are for example in Section 3.4.5 of the aforementioned master thesis by Goran Markovic explained.

Im übrigen kann als MOV auch ein Wert berechnet werden, der eine harmonische Struktur des Fehlers bzw. eine harmonische Fehlerstruktur beschreibt, und der auch als „EHSB” bezeichnet wird.Incidentally, a value which describes a harmonic structure of the error or a harmonic error structure can also be calculated as MOV, which is also referred to as "EHSB ".

Details, wie ein Wert, der die harmonische Struktur des Fehlers bzw. die harmonische Fehlerstruktur beschreibt, basierend auf dem Spektrum (bzw. den Spektra) des Testsignals (z. B. dem Spektrum Xtest [i],316) und dem Spektrum des Referenzsignals (z. B. dem Spektrum Xref [i],316) bestimmt werden kann, sind beispielsweise imAbschnitt 3.4.6 der oben genannten Masterarbeit von Goran Markovic beschrieben.Details, such as a value describing the harmonic structure of the error or the harmonic error structure, based on the spectrum (or the spectra) of the test signal (eg the spectrum Xtest [i], 316 ) and the spectrum of the reference signal (eg the spectrum Xref [i], 316 ) can be determined, for example, in Section 3.4.6 of the aforementioned master's thesis by Goran Markovic described.

Weitere Veränderungen bzw. Verbesserungen bei der Berechnung einiger der oben genannten MOVs sind im Übrigen imAbschnitt 4.8 der oben genannten Masterarbeit von Goran Markovic erläutert.Other changes or improvements in the calculation of some of the above MOVs are, moreover, in the Section 4.8 of the above mentioned master thesis by Goran Markovic explained.

Zusammenfassend ist festzuhalten, dass hier die Berechnung einiger MOVs beschrieben wurde, die bei Ausführungsbeispielen der Erfindung beispielsweise durch den MOV-Berechner120 oder durch die MOV-Berechnung230 und/oder die MOV-Berechnung250 erhalten werden können. In anderen Worten, die genannten MOVs (z. B. der Effektivwert der Modulationsabweichung bzw. der Modulationsmuster-Differenz, die Lautheit der Störungen (auch als ”Störlautheit” bezeichnet), beispielsweise dargestellt durch den Effektivwert der Störlautheit oder durch den Effektivwert der fehlenden Komponenten oder durch den mittleren linearen Abstand oder durch den Effektivwert der asymmetrischen Störlautheit, das Segmentierte Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. segmentweise Störungs-zu-Masken-Verhältnis und/oder ein Wert, der die harmonische Fehlerstruktur bzw. die harmonische Struktur des Fehlers beschreibt) oder zumindest einige der genannten MOVs können durch die MOV-Berechnung230 und/oder die MOV-Berechnung250 erhalten werden. Die numerischen Werte, die die MOVs darstellen, können als Eingangsgrößen für die SVM120,260 dienen, wie im Folgenden noch beschrieben wird.In summary, it should be noted that the calculation of some MOVs has been described, which in embodiments of the invention, for example, by theMOV calculator 120 or by theMOV calculation 230 and / or theMOV calculation 250 can be obtained. In other words, the said MOVs (eg the effective value of the modulation deviation or the modulation pattern difference, the loudness of the disturbances (also referred to as "disturbing loudness"), for example represented by the effective value of the disturbing loudness or by the effective value of the missing components or by the mean linear distance or by the rms value of the asymmetrical noise loudness, the segmented ratio of error signal to the masking threshold or segment-wise noise-to-mask ratio and / or a value describing the harmonic error structure or the harmonic structure of the error) or at least some of the named MOVs can do so through theMOV calculation 230 and / or theMOV calculation 250 to be obtained. The numeric values representing the MOVs can be used as inputs to theSVM 120 . 260 serve, as will be described below.

2.5. Unterstützungs-Vektor-Maschine (SVM) 2.5. Support Vector Machine (SVM)

Im Folgenden wird die Funktionsweise der SVM beschrieben.5 zeigt ein Blockschaltbild einer solchen SVM500, die beispielsweise die Aufgaben der SVM260 bzw. der SVM120 erfüllen kann.The following describes how the SVM works. 5 shows a block diagram ofsuch SVM 500 , for example, the tasks ofSVM 260 or theSVM 120 can fulfill.

Die SVM500 ist bevorzugt ausgelegt, um eine Mehrzahl von MOVs510,512,514,516,518 zu empfangen, wobei in der5 beispielsweise fünf MOVs als Eingangsgrößen der SVM500 gezeigt sind. Bei den MOVs500,512,514,516,518 handelt es sich beispielsweise um die MOVs232 und/oder252, die von der ersten MOV-Berechnung230 und/oder von der zweiten MOV-Berechnung250 bereitgestellt werden. Beispielsweise können die von der SVM500 verwendeten MOVs einen Effektivwert510 der Modulationsabweichung bzw. der Modulationsmuster-Differenz, einen Effektivwert512 der Störlautheit, einen Effektivwert514 der fehlenden Komponenten, ein segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. segmentweises Störungs-zu-Masken-Verhältnis516 und einen Wert518, der eine harmonische Fehlerstruktur bzw. eine harmonische Struktur des Fehlers beschreibt, umfassen.TheSVM 500 is preferably designed to be a plurality ofMOVs 510 . 512 . 514 . 516 . 518 to receive, being in the 5 For example, five MOVs as input variables of theSVM 500 are shown. In theMOVs 500 . 512 . 514 . 516 . 518 For example, these are theMOVs 232 and or 252 that from thefirst MOV calculation 230 and / or from thesecond MOV calculation 250 to be provided. For example, those of theSVM 500 MOVs used anRMS value 510 the modulation deviation or the modulation pattern difference, aneffective value 512 the noise, anRMS value 514 the missing components, a segmented ratio of error signal to masking threshold or segment-wise interference-to-mask ratio 516 and avalue 518 , which describes a harmonic error structure or a harmonic structure of the error include.

Die SVM500 ist ausgelegt, um eine gewichtete Summe einer Mehrzahl von Kern-Funktions-Werten (kernel (x, y1) bis kernel (x, yN)) zu bilden, wobei die einzelnen Kern-Funktions-Werte (kernel (x, y1) bis kernel (x, yN)) mit zugeordneten Koeffizienten (coef1 bis coefN) gewichtet werden. Zusätzlich kann in die Summe auch eine Konstante ρ mit einfließen. Entsprechend wird der (”objektive”) Unterschieds-Bewertungswert520 (auch mit ODG bezeichnet) als Ergebnis der gewichteten Summation erhalten. Die Kern-Funktion wird hier mehrmals in Abhängigkeit von einem Vektor x von (bevorzugt verschiedenen) MOVs (die bevorzugt dem gleichen Abschnitt des Testsignals zugeordnet sind) und auch in Abhängigkeit von jeweiligen Stützvektoren y1 bis yN ausgewertet. Wie im Folgenden noch erläutert wird, fließt hier im Übrigen noch zumindest ein Kern-Funktions-Parameter σ mit ein (wobei auch die Koeffizienten coef1 bis coefN als Kern-Funktion-Parameter angesehen werden können).TheSVM 500 is designed to form a weighted sum of a plurality of kernel function values (kernel (x, y1 ) through kernel (x, yN )), wherein the individual kernel function values (kernel (x, y1 ) to kernel (x, yN )) with associated coefficients (coef1 to coefN ). In addition, a constant ρ can also be included in the sum. Accordingly, the ("objective") difference score becomes 520 (also referred to as ODG) obtained as a result of the weighted summation. The kernel function is evaluated here several times as a function of a vector x of (preferably different) MOVs (which are preferably assigned to the same section of the test signal) and also as a function of respective support vectors y1 to yN. As will be explained below, at least one kernel-function parameter σ also flows in here (whereby the coefficients coef1 to coefN can also be regarded as core-function parameters).

Bei der Kernfunktion ”kernel (x, yi)” (mit 1 ≤ i ≤ N) handelt es sich bevorzugt, aber nicht notwendigerweise um eine radiale Basisfunktion. Es hat sich gezeigt, dass eine Gaußsche radiale Basisfunktion der Formel

Figure 00240001
besonders vorteilhaft ist, wobei ∥x – yi∥ einen Betrag bzw. eine Norm einer Differenz zwischen dem Vektor x von MOVs und einem Unterstützungsvektor yi beschreibt, und wobei σ ein Kern-Funktions-Parameter ist, und wobei e die Eulersche Konstante ist. Andere Kernfunktionen, die typischerweise andere Kernfunktionsparameter haben, können auch verwendet werden.The kernel function "kernel (x, yi )" (where 1≤i≤N) is preferably, but not necessarily, a radial basis function. It has been shown that a Gaussian radial basis function of the formula
Figure 00240001
is particularly advantageous, where ∥x - yi ∥ describes an amount of a difference between the vector x of MOVs and a support vector yi , and where σ is a kernel-function parameter, and e is the Euler's constant , Other core functions, which typically have other core function parameters, may also be used.

Details im Hinblick auf eine derartige Gaußsche radiale Basisfunktion sind beispielsweise im Internet unter der Internet-Adresse:http://en.wikipedia.org/wiki/Radial_basis_function sowie in der Veröffentlichung”Using a Radial Basis Function as Kernel” von K. K. Chin (im Internet verfügbar unter der Adresse: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html) beschrieben.Details regarding such a Gaussian radial basis function are, for example, on the Internet at the Internet address: http://en.wikipedia.org/wiki/Radial_basis_function as well as in the publication "Using a Radial Basis Function as Kernel" by KK Chin (available on the Internet at: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html ).

Mit anderen Worten, die vorstehende Definition der Kernfunktion ”kernel (x, yi)” beschreibt, zusammen mit der schematische Darstellung der Auswertungs- bzw. Berechnungsvorschrift gemäß5, die gesamte Funktion der SVM500 bzw. der SVM120,260. In anderen Worten, das, was innerhalb der SVM passiert ist, zusammen mit der obigen Definition der Kernfunktion, vollständig durch die5 beschrieben.In other words, the above definition of the kernel function "kernel (x, yi )" describes, together with the schematic representation of the evaluation or calculation rule according to FIG 5 , the entire function ofSVM 500 or theSVM 120 . 260 , In other words, what happened inside the SVM, together with the above definition of the core function, completely through the 5 described.

Durch die Anwendung der SVM500 wird somit eine ”objektive” Unterschieds-Bewertung520 (auch als ”objective difference grade” bzw. ”ODG” bezeichnet) erhalten, die die letzte bzw. abschließende Ausgangsgröße der APEAQ darstellt. Die objektive Unterschieds-Bewertung ist ein ”objektives” (also ohne Zutun eines Menschen bzw. ohne Beeinflussung durch einen Menschen, sondern allein unter Verwendung einer technischen Vorrichtung bzw. einer vorgegebenen Berechnungsvorschrift erhaltenes) Maß, das einem SDG entsprechen soll. Der SDG ist eine Bewertung, die einem Test-Audio-Beispiel im Vergleich zu dem Original-Audio-Beispiel (typischerweise durch einen menschlichen Test-Hörer oder durch eine Mehrzahl von menschlichen Testhörern) gegeben wird. Der SDG stellt einen Mittelwert von Bewertungen von einer Anzahl von Hörern dar. Die Hörtest-Prozedur, die verwendet wird, um den SDG und ein zugehöriges Vertrauensintervall zu erhalten, ist in derEmpfehlung ”ITU-R BS.1116”: ”Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems” der internationalen Telekommunikationsunion definiert. Neben dem Konzept gemäß der ITU-R BS.1116 kann aber auch das Konzept gemäß derITU-R BS.1534, die als ”MUSHRA” bekannt ist, verwendet werden (vergleiche beispielsweise die Beschreibung unter der Internet-Adressehttp://en.wikipedia.de/wiki/MUSHRA). Zusammenfassend ist somit festzuhalten, dass die SVM500, zumindest bei geeigneter Wahl der SVM-Parameter coef1 bis coefN, σ, ρ, einen ODG520 liefert, die einen zu dem Test-Audiosignal und dem Referenz-Audiosignal gehörigen SDG mit ausreichender Präzision annähert.By the application of theSVM 500 thus becomes an "objective" difference assessment 520 (also referred to as "objective difference grade" or "ODG"), which represents the last or final output of the APEAQ. The objective difference assessment is an "objective" (ie, without human intervention or interference by a human, but obtained solely using a technical device or predetermined calculation rule) that is to conform to an SDG. The SDG is a rating given to a test audio sample as compared to the original audio sample (typically by a human test listener or by a plurality of human test listeners). The SDG represents an average of scores from a number of listeners. The Listening Test procedure used to obtain the SDG and an associated confidence interval is described in U.S. Pat Recommendation "ITU-R BS.1116": "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems" defined in the International Telecommunication Union. In addition to the concept according to ITU-R BS.1116 but also the concept according to the ITU-R BS.1534 , the as "MUSHRA" is known to be used (see for example the description under the Internet address http://en.wikipedia.de/wiki/MUSHRA ). In summary, it should be noted that theSVM 500 , at least for a suitable choice of the SVM parameters coef1 to coefN , σ, ρ, anODG 520 which approximates an SDG belonging to the test audio signal and the reference audio signal with sufficient precision.

2.6. Training der Unterstützungs-Vektor-Maschine2.6. Training Support Machine

Im Folgenden wird das Training der SVM500 näher erläutert. Es wird – auch unter Verweisung auf entsprechende Literaturstellen – beschrieben, wie die Stützvektoren y1 bis yN bestimmt werden, wie die Gewichtungskoeffizienten coef1 bis coefN bestimmt werden, und wie der Offset ρ bestimmt wird.The following is the training ofSVM 500 explained in more detail. It is described - also with reference to corresponding references - how the support vectors y1 to yN are determined, how the weighting coefficients coef1 to coefN are determined, and how the offset ρ is determined.

Die genannten Daten werden während eines Trainings aufgefunden, und Details, wie dieses Training funktioniert, und wie und basierend auf welchen Daten ein Trainingsergebnis erhalten wird, werden im Folgenden erläutert.The aforementioned data is found during a training, and details of how this training works and how and based on what data a training result is obtained are explained below.

Ganz allgemein ist hier zu sagen, dass das Trainieren einer SVR (bzw. einer SVM) ein Prozess ist, bei dem die Stützvektoren (z. B. die Vektoren yi bis yN), die Gewichtungskoeffizienten (z. B. Koeffizienten coef1 bis coefN) und ein Offset (z. B. ein Offset-Wert ρ) gefunden werden. Zudem kann auch ein Parameter σ gefunden werden.Generally speaking, training an SVR (or an SVM) is a process in which the support vectors (eg, the vectors yi through yN ), the weighting coefficients (eg, coefficients coef1 to coefN ) and an offset (eg an offset value ρ) are found. In addition, a parameter σ can be found.

Die APEAQ, die in derMasterarbeit von Goran Markovic beschrieben ist, wurde beispielsweise unter Verwendung von Daten von öffentlichen Hörtests trainiert (für Details, siehe zum Beispiel die Erläuterungen unter der Internet-Adressehttp://en.wikipedia.org/wiki/Codec_listening_test). Ebenso kann im Übrigen die erfindungsgemäße Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität basierend auf derartigen Daten von öffentlichen Hörtests trainiert werden. Ein Beispiel eines solchen Tests ist beispielsweise im Internet unter der Adresse ”http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm” beschrieben. Für jedes Audiostück (Beispiel) ist ein mittlerer SDG und ein Vertrauensintervall verfügbar. Diese Daten sind in den Graphen in der oben genannten Online-Referenz dargestellt und können auch von den detaillierten Ergebnissen des Tests berechnet werden, die unter der folgenden Internet-Adresse verfügbar sind:http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar. Es sei aber darauf hingewiesen, dass auch beliebige andere Hörtests bzw. eine Kombination mehrerer Hörtests für das Training verwendet werden könnten.The APEAQ, which is in the Master thesis by Goran Markovic has been trained, for example, using data from public listening tests (for details, see, for example, the explanations at the Internet address http://en.wikipedia.org/wiki/Codec_listening_test ). Likewise, by the way, the inventive device for evaluating a perceived audio quality can be trained based on such data from public listening tests. An example of such a test is, for example, on the Internet at the address " http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm "Described. For each audio piece (example), a middle SDG and a confidence interval is available. These data are presented in the graphs in the online reference above and can also be calculated from the detailed results of the test available at the following Internet address: http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar , It should be noted, however, that any other hearing tests or a combination of multiple hearing tests could be used for training.

Für jedes Audiostück berechnet die APEAQ MOVs (beispielsweise so, wie dies oben beschrieben wurde). Die Berechnung der MOVs benötigt kein Wahrnehmungs-Modell. Für jede MOV werden obere und untere Grenzen gefunden, so dass eine Begrenzung der Modell-Ausgangsvariablen-Werte eine größte Korrelation zu den subjektiven Differenzgraden (SDGs) erzeugt. Unter Verwendung dieser Grenzen wird jede MOV auf den Bereich [0, 1] skaliert.For each piece of audio, the APEAQ calculates MOVs (for example, as described above). The calculation of the MOVs does not require a perceptual model. For each MOV, upper and lower bounds are found so that limiting the model output variable values produces a greatest correlation to the subjective difference degrees (SDGs). Using these limits, each MOV is scaled to the range [0, 1].

Jedes Audio-Stück (auch als „audio item” bezeichnet) wird durch seinen SDG, ein Vertrauensintervall und MOV-Werte definiert.Each piece of audio (also known as an "audio item") is defined by its SDG, a confidence interval, and MOV values.

Bei Verwendung eines Kernels mit einer radialen Basisfunktion (RBF) wird ein SVM-Training durch zwei Parameter definiert: C und γ. C > 0 ist der Straf-Parameter des Fehler-Terms und γ = 1/σ2, wobei σ der Parameter der radialen Basisfunktion ist. Diese Parameter werden bevorzugt in einer Such-Prozedur gefunden.Using a kernel with radial basis function (RBF), SVM training is defined by two parameters: C and γ. C> 0 is the penalty parameter of the error term and γ = 1 / σ2 , where σ is the parameter of the radial basis function. These parameters are preferably found in a search procedure.

In dem Trainings-Prozess der APEAQ gibt es zwei Such-Prozeduren.In the training process of APEAQ there are two search procedures.

Eine von diesen Such-Prozeduren ist diejenige, die in dem Artikel”A Practical Guide to Support Vector Classification” von C.-W. Hsu und anderen (Online verfügbar unter der Internet-Adresse: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf) beschrieben beziehungsweise vorgeschlagen wurde: eine Gitter-Suche nach C und γ unter Verwendung einer Kreuz-Validierung. Paare von Werten (C, γ) werden unter Verwendung von exponentiell wachsenden Sequenzen geprüft, und das Paar mit der besten Kreuz-Validierungs-Genauigkeit wird ausgewählt. Bei dem Training der APEAQ gemäß Ausführungsbeispielen der vorliegenden Erfindung wird eine zusätzliche lineare Suche in der Umgebung der Werte durchgeführt, die in der exponentiellen Gitter-Suche gefunden wurden. Diese Werte von C und γ werden dann für das Training basierend auf dem gesamten Eingangsinformations-Satz verwendet, wie dies in dem oben genannten Artikel bzw. in der oben genannten Anleitung vorgeschlagen wurde. Eine weiteres spezifisches Merkmal für die APEAQ besteht darin, dass die Kreuz-Validierung (bevorzugt, aber nicht notwendigerweise) mehrere Male ausgeführt wird, und dass der maximale Fehler unter mehreren Ausführungen als das Genauigkeitsmaß für das Paar C, γ gewählt wird.One of these search procedures is the one in the article "A Practical Guide to Support Vector Classification" by C.-W. Hsu and others (available online at the Internet address: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf) has been described or suggested: a grid search for C and γ using cross-validation. Pairs of values (C, γ) are tested using exponentially growing sequences and the pair with the best cross-validation accuracy is selected. In training the APEAQ according to embodiments of the present invention, an additional linear search is performed in the vicinity of the values found in the exponential grid search. These values of C and γ are then used for training based on the total input information set, as suggested in the above mentioned article or instructions. Another specific feature for the APEAQ is that the cross-validation is performed (preferably, but not necessarily) several times, and that the maximum error among several executions is chosen as the measure of accuracy for the pair C, γ.

Eine weitere Such-Prozedur ist spezifisch für die APEAQ und hat bessere Verallgemeinerungs-Fähigkeiten. Bei dieser Such-Prozedur werden alle Audiostücken in Trainings-Sätze und Test-Sätze aufgeteilt, wobei die Test-Sätze viel kleiner sind (als die Trainings-Sätze). Trainings-Sätze und Test-Sätze sind beispielsweise (aber nicht notwendigerweise) vollkommen unabhängig, und werden bzw. wurden bevorzugt (aber nicht notwendigerweise) von unterschiedlichen Hörtests erhalten. Es wird die selbe Gitter-Suche nach C und γ durchgeführt, aber die Paare von (C, γ) werden für ein Training einer SVM auf dem gesamten Trainings-Satz verwendet, und dasjenige mit der besten Genauigkeit auf dem Test-Satz wird ausgewählt. Another search procedure is specific to the APEAQ and has better generalization capabilities. In this search procedure, all audio pieces are divided into training sentences and test sentences, the test sentences being much smaller (than the training sentences). For example, training sentences and kits are (but not necessarily) completely independent, and are preferred (but not necessarily) obtained from different hearing tests. The same grid search for C and γ is performed, but the pairs of (C, γ) are used for training one SVM on the entire training set, and the one with the best accuracy on the test set is selected.

Eine zusätzliche lineare Suche wird in der Umgebung der bei der exponentiellen Gitter-Suche gefundenen Werte ausgeführt.An additional linear search is performed around the values found in the exponential grid search.

Dies ist die primäre Such-Methode in dem Unterstützungsvektorregressions-Training (SVR-Training) für die APEAQ.This is the primary search method in Support Vector Regression Training (SVR training) for the APEAQ.

Die Suche nach den besten Werten von C und γ hängt von zwei Eingangsparametern ab: ν und einem Fehlermaß. ν ist die obere Grenze für den Bruchteil von Fehlern (asymptotisch, die Anzahl von Stützvektoren), wobei gilt: 0 ≤ ν ≤ 1. In anderen Worten, eine obere Grenze für einen Bruchteil von Fehlern und eine untere Grenze für einen Bruchteil von Stützvektoren wird üblicherweise mit ν bezeichnet. Beste Ergebnisse wurden unter Verwendung von ν = 0.15 erhalten. Das Fehlermaß definiert die Genauigkeit der SVM oder, in anderen Worten, die Qualität von C und γ. Es gibt viele Fehlermaße, die verwendet werden können, wie z. B. eine Korrelation, die Wurzel aus dem mittleren quadratischen Fehler, ein mittlerer Unterschied, ein maximaler Fehler, ein Prozentsatz von Ausreißern, oder ein mittlerer Fehler-Punktwert (AES).The search for the best values of C and γ depends on two input parameters: ν and an error measure. ν is the upper bound for the fraction of errors (asymptotic, the number of support vectors), where: 0 ≤ ν ≤ 1. In other words, an upper bound for a fraction of errors and a lower bound for a fraction of support vectors usually denoted by ν. Best results were obtained using ν = 0.15. The error measure defines the accuracy of SVM or, in other words, the quality of C and γ. There are many error measures that can be used, such as: A root mean squared error, a mean difference, a maximum error, a percentage of outliers, or a mean error score (AES).

Der mittlere Fehler-Punktwert AES (auch als ”average error score” bezeichnet) wurde in derEmpfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion eingeführt, um unterschiedliche Anforderungen für die Genauigkeit des ODG abhängig von der Genauigkeit des SDG zu implementieren. Die Genauigkeit eines SDG wird durch das ihr zugeordnete Vertrauensintervall bestimmt. Ein 95%-Vertrauensintervall wird mit der folgenden Formel definiert, wobei tN, p die Student’sche t-Verteilung ist, wobeiS die Varianz ist, und wobei N die Beispiel-Größe ist:

Figure 00280001
The mean error score AES (also referred to as "average error score") was used in the Recommendation ITU-R BS.1387 of the International Telecommunication Union introduced to implement different requirements for the accuracy of the ODG depending on the accuracy of the SDG. The accuracy of an SDG is determined by the confidence interval assigned to it. A 95% confidence interval is defined by the following formula, where tN , p is the Student's t-distribution, where S is the variance, and where N is the example size:
Figure 00280001

Die Basis ist die Formel für die Wurzel aus dem mittleren quadratischen Fehler, zu welcher das Vertrauensintervall IPi hinzugefügt wird:

Figure 00280002
The base is the formula for the root of the mean squared error to which the confidence interval IPi is added:
Figure 00280002

Der Wertebereich für AES hängt von dem Satz von Tests ab, basierend auf dem er bestimmt wird. Üblicherweise nehmen AES-Werte Werte zwischen 1.5 und 3.0 an. Je kleiner die AES-Werte, desto genauer sind die ODGs. AES darf nicht zwischen verschiedenen Sätzen von Tests verglichen werden.The range of values for AES depends on the set of tests based on which it is determined. Usually, AES values assume values between 1.5 and 3.0. The smaller the AES values, the more accurate the ODGs are. AES must not be compared between different sets of tests.

Das Vertrauensintervall ist üblicherweise begrenzt (beispielsweise von der Größe her nach unten hin), so dass ein größerer (bzw. allzu großer) Einfluss von Tests, bei denen das (Vertrauens-)Intervall einen sehr kleinen Wert hat, vermieden wird. Es ist beispielsweise vernünftig, dass das minimale Intervall mit der Präzision, die für den ODG erreicht wird, korrespondiert. In derEmpfehlung ”ITU-R BS.1387-1” der internationalen Telekommunikationsunion wurde das minimale Intervall von 0,25 gewählt.The confidence interval is usually limited (for example, downwards in size), so that greater (or too much) influence of tests in which the (confidence) interval has a very small value is avoided. For example, it is reasonable for the minimum interval to correspond to the precision achieved for the ODG. In the Recommendation "ITU-R BS.1387-1" of the International Telecommunication Union the minimum interval of 0.25 was chosen.

AES mit einem minimalen Intervall von 0.15 wird beispielsweise als das Fehlermaß bei dem Training der APEAQ gemäß Ausführungsbeispielen der vorliegenden Erfindung verwendet.For example, AES with a minimum interval of 0.15 is used as the measure of error in training the APEAQ according to embodiments of the present invention.

Im Folgenden wird das Training der Unterstützungs-Vektor-Maschinen (im Folgenden auch als ”SVMs” bezeichnet) das oben erläutert wurde, anhand der6 noch einmal kurz zusammengefasst.Hereinafter, the training of the support vector machines (hereinafter also referred to as "SVMs") explained above will be described with reference to FIG 6 briefly summarized again.

6 zeigt eine schematische Darstellung eines Trainings-Prozesses und der dazu benötigen Voraussetzungen. 6 shows a schematic representation of a training process and the required prerequisites.

Bei dem Trainings-Prozess wird davon ausgegangen, dass eine Mehrzahl von Audio-Beispielen610 vorhanden sind, wobei diese Audio-Beispiele610 typischerweise jeweils ein Referenz-Audiosignal und ein gegenüber diesem Referenz-Audiosignal verändertes bzw. verschlechtertes Test-Audiosignal (oder sogar mehrere zugehörige Test-Audiosignale) umfassen. Basierend auf den Audio-Beispielen610 wird in einem Schritt620 ein subjektiver Hörtest ausgeführt, bei dem Testhörer beispielsweise Unterschiede zwischen einem Referenz-Audiosignal und einem diesem entsprechenden Test-Audiosignal bewerten. Somit werden subjektive Bewertungen erhalten, die einem Satz aus einem Referenz-Audiosignal und einem zugehörigen Test-Audiosignal zugeordnet sind. Die subjektiven Bewertungen werden auch als SDG bzw. SDGs bezeichnet und sind im Übrigen mit622 bezeichnet. Der Erstellung der subjektiven Bewertungen kann Teil eines Trainings-Prozesses sein, kann aber, alternativ, auch vor dem eigentlichen Trainings-Prozess durchgeführt werden, so dass die subjektiven Bewertungen622 als Eingangsgröße für den eigentlichen Trainings-Prozess vorliegen. In the training process, it is assumed that a plurality of audio examples 610 are present, these audio examples 610 typically each comprise a reference audio signal and a test audio signal altered or degraded from that reference audio signal (or even several associated test audio signals). Based on the audio examples 610 gets in onestep 620 For example, a subjective listening test is performed in which test listeners rate differences between a reference audio signal and a test audio signal corresponding thereto. Thus, subjective judgments associated with a set of a reference audio signal and an associated test audio signal are obtained. The subjective ratings are also referred to as SDG or SDGs and are included with therest 622 designated. The creation of the subjective evaluations can be part of a training process, but, alternatively, can also be performed before the actual training process, so that thesubjective evaluations 622 present as input for the actual training process.

In einem Schritt630 werden, beispielsweise unter Verwendung eines auf einer FFT-basierenden Wahrnehmungsmodells300 oder unter Verwendung eines auf einer Filterbank basierenden Wahrnehmungsmodells400 FFT-Wahrnehmungsmodell-Ausgangsgrößen bzw. Filterbank-Wahrnehmungsmodell-Ausgangsgrößen bestimmt, wie dies beispielsweise anhand der2 beschrieben wurde.In onestep 630 using, for example, an FFT-basedperceptual model 300 or using a filter bank-basedperceptual model 400 FFT perceptual model outputs or filter bank perceptual model outputs determined, as for example, based on the 2 has been described.

Anschließend werden in einem Schritt640 MOVs basierend auf den FFT-Wahrnehmungsmodell-Ausgangsgrößen bzw. Filterbank-Wahrnehmungsmodell-Ausgangsgrößen berechnet, die zu den Audiobeispielen610 gehören. Zumindest einige der in dem Schritt640 erhaltenen MOVs beschreiben dabei typischerweise einen Unterschied zwischen einem Referenzaudiosignal und einem zugehörigen Test-Audiosignal.Subsequently, in onestep 640 MOVs based on the FFT perceptual model outputs or filter bank perceptual model outputs calculated to the audio examples 610 belong. At least some of the in thestep 640 The resulting MOVs typically describe a difference between a reference audio signal and an associated test audio signal.

Anschließend erfolgt in einem Schritt650 eine Suche nach den SVM-Trainings-Parametern C und γ. So wird beispielsweise ein erster Satz von SVM-Trainings-Parametern ausgewählt, und es wird basierend auf einer (typischerweise echten) Teilmenge der Audiobeispiele610 ein ”kleines” Training von SVM-Betriebs-Parametern (z. B. Stützvektoren und Gewichtungskoeffizienten) durchgeführt. Anschließend wird basierend auf einer anderen (typischerweise echten) Teilmenge der Audiobeispiele610 überprüft, ob das Training unter Verwendung des vorher gewählten Satzes von SVM-Trainings-Parametern C, γ zu SVM-Betriebs-Parametern geführt hat, die ihrerseits zu zuverlässigen ODGs führen, wenn die andere Teilmenge der Audiobeispiele unter Verwendung der SVM (mit den eben erhaltenen SVM-Betriebs-Parametern) klassifiziert wird. Somit wird überprüft, welcher Satz von SVM-Trainings-Parametern C, γ zu dem besten Lernerfolg führt, wenn nur eine echte Teilmenge der Audiobeispiele610 als Trainings-Audiobeispiele verwendet werden. Der sich hierbei ergebende (beste) Satz von SVM-Trainings-Parametern C, γ wird dann für ein umfassenderes Training der SVM unter Verwendung beispielsweise aller Audiobeispiele610, oder zumindest einer größeren Teilmenge von Audiobeispielen610 als vorher, verwendet.This is then done in one step 650 a search for the SVM training parameters C and γ. For example, a first set of SVM training parameters is selected, and it is based on a (typically real) subset of theaudio samples 610 performed a "small" training of SVM operational parameters (eg, support vectors and weighting coefficients). Then it will be based on another (typically real) subset of theaudio samples 610 checks whether the training has resulted in SVM operational parameters using the preselected set of SVM training parameters C, γ, which in turn lead to reliable ODGs when the other subset of the audio samples using the SVM (with the received SVM operating parameters) is classified. Thus, it is checked which set of SVM training parameters C, γ leads to the best learning outcome, if only a true subset of the audio examples 610 be used as training audio samples. The resulting (best) set of SVM training parameters C, γ is then used for a more complete training of the SVM using, for example, all audio examples 610 , or at least a larger subset ofaudio samples 610 than before, used.

Das entsprechende Training der SVM mit dem ausgewählten Satz von SVM-Trainings-Parametern C, γ erfolgt in dem Schritt660. Somit werden in dem Schritt660 SVM-Betriebs-Parameter γ1 bis yN, coef1 bis coefN und ρ (sowie gegebenenfalls, aber nicht notwendigerweise, auch σ) erhalten, die das SVM-Modell definieren. Bei der Bewertung, welcher Satz von SVM-Trainings-Parametern zu dem besten bzw. zuverlässigsten ODG führt, wird ein Fehlermaß (wie oben beschrieben) verwendet, wobei hier verschiedene Fehlermaße eingesetzt werden können.The corresponding training of the SVM with the selected set of SVM training parameters C, γ takes place in thestep 660 , Thus, in thestep 660 SVM operating parameters γ1 to yN , coef1 to coefN and ρ (and optionally, but not necessarily, also σ) are obtained which define the SVM model. When evaluating which set of SVM training parameters leads to the best or most reliable ODG, an error measure (as described above) is used, and different error measures can be used here.

Im Folgenden werden einige Details im Hinblick auf die oben bereits erwähnte exponentielle Gitter-Suche erläutert, wobei die exponentielle Gittersuche beispielsweise zur Parametersuche verwendet wird.In the following, some details are explained with respect to the exponential grid search already mentioned above, wherein the exponential grid search is used, for example, for parameter search.

8 zeigt eine Pseudo-Programmcode-Darstellung eines Algorithmus zur exponentiellen Gittersuche, wie er in Ausführungsbeispielen gemäß der Erfindung einsetzbar ist. In anderen Worten, die exponentielle Gittersuche kann beispielsweise gemäß dem Algorithmus800, der in8 gezeigt ist, durchgeführt werden. 8th shows a pseudo-program code representation of an algorithm for exponential grid search, as it can be used in embodiments according to the invention. In other words, the exponential grid search can be done according to the algorithm, for example 800 who in 8th is shown to be performed.

Der Algorithmus800 umfasst eine Initialisierung810 einer Schrittweite (”Step”) sowie eine iterative Ausführung eines Teilalgorithmus820, wobei der Teilalgorithmus820 typischerweise mehrmals mit stufenweise verringerter Schrittweite ”Step” ausgeführt wird, solange die Schrittweite größer ist als eine minimale Schrittweite ”minimum_step”.Thealgorithm 800 includes an initialization 810 a step size and an iterative execution of a sub-algorithm 820 , where thesubalgorithm 820 typically several times with stepwise reduced step size "Step" is executed, as long as the step size is greater than a minimum step size "minimum_step".

In dem Teilalgorithmus820 wird zunächst die Variable ”exp_γ” in einem Schritt830 auf einen Minimalwert ”minimum_exp_γ” für die Variable ”exp_γ” initialisiert. Ferner wird innerhalb des Teilalgorithmus830 ein Teilalgorithmus840 bevorzugt mehrmals mit unterschiedlichen, bevorzugt stufenweise größer werdenden, Werten der Variable ”exp_γ” ausgeführt, solange die Variable ”exp_γ” kleiner als ein Maximalwert ”maximum_exp_γ” ist. Ferner wird in dem Teilalgorithmus820 in einem Schritt850 die Schrittweite (”Stepp”) halbiert bzw. allgemein verringert.In the sub-algorithm 820 First, the variable "exp_γ" in onestep 830 initialized to a minimum value "minimum_exp_γ" for the variable "exp_γ". Further, within the sub-algorithm 830 a sub-algorithm 840 preferably several times with different, preferably gradually increasing values of the variable "exp_γ" executed, as long as the variable "exp_γ" is less than a maximum value "maximum_ exp_γ ". Further, in the sub-algorithm 820 in onestep 850 the step size is halved or generally reduced.

In dem Teilalgorithmus840 wird die Variable ”exp_C” zunächst in einem Schritt860 auf einen Minimalwert ”minimum_exp_C” für die Variable ”exp_C” initialisiert. Zudem wird in dem Teilalgorithmus840 ein Teilalgorithmus870 bevorzugt mehrmals mit unterschiedlichen, bevorzugt stufenweise größer werdenden Werten der Variable exp_C ausgeführt. Zudem wird in dem Teilalgorithmus840, und bevorzugt als Abschluss des Teilalgorithmus840 bzw. nach der Ausführung des untergeordneten Teilalgorithmus870, in einem Schritt880 ein Wert der Variable ”exp_γ” um den aktuellen Wert der Schrittweite-Variable ”step” vergrößert, bzw. es wird allgemein der Wert der Schrittweite-Variable step zu dem Wert der Variable exp_γ hinzuaddiert.In the sub-algorithm 840 the variable "exp_C" is first in onestep 860 initialized to a minimum value "minimum_exp_C" for the variable "exp_C". In addition, in the sub-algorithm 840 a sub-algorithm 870 preferably executed several times with different, preferably gradually increasing values of the variable exp_C. In addition, in the sub-algorithm 840 , and preferred as completion of the sub-algorithm 840 or after the execution of thesubordinate subroutine 870 , in one step 880 a value of the variable "exp_γ" is increased by the current value of the step size variable "step", or in general the value of the step size variable step is added to the value of the variable exp_γ.

In dem Teilalgorithmus870 werden zunächst in einem Schritt872 Werte der Variablen C und γ bestimmt, wobei gilt:C = 2exp_C;undγ = 2exp_γIn the sub-algorithm 870 be first in onestep 872 Values of the variables C and γ are determined, where: C = 2exp_C ; and γ = 2exp_γ

In einem Schritt873 werden dann SVM-Parameter unter Verwendung der aktuellen Werte der Variablen C und γ erhalten, wobei hier beispielsweise ein Training der SVM verwendet wird, wie es hierin beschrieben ist.In onestep 873 Then SVM parameters are obtained using the current values of the variables C and γ, for example, training of the SVM as described herein.

In einem Schritt874 wird die Qualität bzw. Genauigkeit der erhaltenen SVM-Parameter überprüft, indem beispielsweise eine SVM probeweise mit den aktuell erhaltenen SVM-Parametern parametrisiert und auf ein oder mehrere Testsignale angewendet wird, und indem überprüft wird, wie gut ODGs, die mit der probeweise entsprechend parametrisierten SVM basierend auf den Testsignalen erhalten werden, mit zu den Testsignalen gehörigen SDGs übereinstimmen.In onestep 874 For example, the quality or accuracy of the received SVM parameters is checked, for example, by parameterizing an SVM on a trial basis with the currently obtained SVM parameters and applying it to one or more test signals, and by checking how well ODGs correspondingly parameterized with the trial SVM based on the test signals, match with the test signals associated SDGs.

Zudem wird die Zeit gemessen, die dafür (also zum Beispiel für das Erhalten der SVM-Parameter in dem Schritt873, und gegebenenfalls auch für das Prüfen von deren Qualität) benötigt oder benötigt wurde (Schritt875).It also measures the time that it takes (for example, to get the SVM parameters instep 873 , and possibly also for checking their quality) was needed or needed (step 875 ).

Zudem wird in einem Schritt876 überprüft, ob die benötigte Zeit größer als ein Zeit-Schwellwert ”threshold” ist. Wird in dem Schritt876, der gleichzeitig zu einem oder mehreren der Schritte873,874,875 erfolgen kann, oder der anschließend an die Schritte873,874,875 erfolgen kann, herausgefunden, dass die benötigte Zeit ”time” größer als der ZeitSchwellwert ”threshold” ist, so wird beispielsweise in dem Schritt876 zu einer nächsten γ-Iteration gesprungen. Bei dem Springen zu der nächsten γ-Iteration kann beispielsweise die wiederholte Ausführung des Teilalgorithmus870 abgebrochen werden, das heißt, es werden ansprechend darauf, dass die benötigte Zeit größer als der Zeit-Schwellwert ist, keine weiteren Werte für die Variable exp_C (bei dem aktuellen Wert der Variable exp_γ) mehr durchgeprüft, sondern es wird unmittelbar ein neuer Wert für die Variable exp_γ verwendet (sofern der Maximalwert maximum_exp_γ noch nicht erreicht ist). Andernfalls, also wenn die benötigte Zeit ”time” nicht größer als der Zeit-Schwellwert ist bzw. war, wird in einem Schritt877 der Wert der Variable exp_C um den Wert der Schrittweite-Variable step vergrößert, bzw. es wird der Wert der Schrittweite-Variable step zu dem Wert der Variable exp_C hinzuaddiert.In addition, in onestep 876 checks if the required time is greater than a time threshold "threshold". Will in thestep 876 which simultaneously becomes one or more of thesteps 873 . 874 . 875 or following thesteps 873 . 874 . 875 found that the time required "time" is greater than the threshold time "threshold" is, for example, in thestep 876 jumped to a next γ-iteration. For example, jumping to the next γ-iteration may involve the repeated execution of the sub-algorithm 870 aborted, that is to say, in response to the time required being greater than the time threshold, no further values are checked for the variable exp_C (at the current value of the variable exp_γ), but a new value for the variable exp_γ is used (if the maximum value maximum_exp_γ has not yet been reached). Otherwise, that is, if the required time "time" is or was not greater than the time threshold, is in onestep 877 the value of the variable exp_C is increased by the value of the step size variable step, or the value of the step size variable step is added to the value of the variable exp_C.

Es sei darauf hingewiesen, dass gegebenenfalls unterschiedliche Schrittweite-Variablen für die stufenweise Veränderung der Variablen exp_γ und exp_C verwendet werden können.It should be noted that, if necessary, different step size variables can be used for the stepwise variation of the variables exp_γ and exp_C.

Zusammenfassend ist somit festzuhalten, dass eine Gittersuche im Hinblick auf die Werte der Variablen exp_γ und exp_C durchgeführt wird, wobei beispielsweise die Werte der der Variablen exp_γ und exp_C linear (gemäß einer vorgegebenen Schrittweite) verändert werden, und wobei die Werte der Variablen γ und C sich folglich in exponentieller Weise ändern. Eine innere Schleife läuft dabei über die Werte der Variable C, und eine äußere Schleife über die Werte der Variable γ, so dass im Regelfall eine Serie von Werten der Variable C für ein Training der SVM verwendet wird, und so dass anschließend ein Wert der Variable γ verändert wird, woraufhin eine weitere Serie von Werten der Variable C für ein Training der SVM bei verändertem γ verwendet wird.In summary, it can thus be stated that a grid search is carried out with respect to the values of the variables exp_γ and exp_C, wherein, for example, the values of the variables exp_γ and exp_C are changed linearly (according to a predetermined step size), and the values of the variables γ and C consequently change in an exponential way. An inner loop runs over the values of the variable C, and an outer loop over the values of the variable γ, so that normally a series of values of the variable C is used for a training of the SVM, and then a value of the variable γ is changed, whereupon a further series of values of the variable C is used for a training of the SVM with changed γ.

Dauert eine Bestimmung für ein Paar von SVM-Parametern γ und C zu lange (länger als der Zeit-Schwellwert), so wird die Überprüfung von weiteren Werten der Variable C übersprungen, und es wird unmittelbar ein neuer Wert der Variable γ gewählt. If a determination for a pair of SVM parameters γ and C takes too long (longer than the time threshold), the check of further values of the variable C is skipped, and a new value of the variable γ is immediately selected.

Zusammenfassend ist ferner festzuhalten, dass ein wichtiger Schritt, der bei Ausführungsbeispielen gemäß der Erfindung optional zu der herkömmlichen exponentiellen Gittersuche hinzugefügt wird, in der Messung der Zeit, die benötigt wird, um die SVM-Parameter zu erhalten, besteht. Falls die benötigte Zeit über einen Schwellwert (bzw. Zeit-Schwellwert) hinausgeht, so gibt es einen Abbruch (”break”) in der inneren Schleife (zum Beispiel in der Schleife870), und die Suche wird mit der nächsten Iteration von γ fortgesetzt. Der Schwellwert kann beispielsweise gleich der Zeit gewählt werden, die benötigt wurde, um den besten bisher gefundenen SVM-Parameter zu erhalten. Dies verbessert die Geschwindigkeit des Trainings-Prozesses in manchen Fällen signifikant.In summary, it should also be noted that an important step, optionally added to the conventional exponential grid search in embodiments according to the invention, is the measurement of the time required to obtain the SVM parameters. If the time required exceeds a threshold (or time threshold), there will be a break in the inner loop (for example in the loop) 870 ), and the search continues with the next iteration of γ. For example, the threshold may be selected equal to the time required to obtain the best SVM parameter found so far. This significantly improves the speed of the training process in some cases.

Zusammenfassend ist festzuhalten, dass bei einem Ausführungsbeispiel der der Erfindung der Prozess des Auffindens von Parametern für eine SVM in eine Trainingsphase und eine Testphase aufgeteilt ist. Die Trainingsphase ist in eine Suche und eine abschließende Trainingsphase aufgeteilt.In summary, in one embodiment of the invention, the process of finding parameters for an SVM is divided into a training phase and a testing phase. The training phase is divided into a search and a final training phase.

Die Such-Phase besteht aus einer Kreuz-Validierung (oder umfasst eine Kreuz-Validierung). In der Such-Phase wird die Suche nach Best-Werten von C und γ durchgeführt. Diese Werte werden in der abschließenden Trainingsphase verwendet.The search phase consists of a cross validation (or includes a cross validation). In the search phase, the search for best values of C and γ is performed. These values are used in the final training phase.

2.7 Vorteile und Besonderheiten beim Einsatz einer Stützvektormaschine in Zusammenhang mit der weiterentwickelten -Bewertung der wahrgenommenen Audioqualität2.7 Advantages and peculiarities of using a support vector machine in connection with the further development of the perceived audio quality

Im Folgenden werden besondere Synergien zwischen dem Stützvektor-Algorithmus auf der einen Seite und der weiterentwickelten Technologie zur Bewertung der wahrgenommenen Audioqualität (APEAQ) beschrieben. Insbesondere wird kurz dargelegt, warum die hierin beschriebene spezielle Implementierung der SVR einerseits und die APEAQ auf der anderen Seite einen kombinierten Vorteil ergeben.In the following special synergies between the support vector algorithm on the one hand and the advanced technology for the evaluation of the perceived audio quality (APEAQ) are described. In particular, it will be briefly explained why the specific implementation of the SVR described herein on the one hand and the APEAQ on the other hand on the other hand give a combined advantage.

Diesbezüglich wird u. a. auf die Veröffentlichung„Comparing Support Vector Machines with Gaussian Kernels to Radial Basis Function Classifiers” von B. Schölkopf u. a. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences; im Internet verfügbar unter der Adresse: http://www.svms.org/comparison/Scholkopfetal1996.pdf) verwiesen. Aus der genannten Veröffentlichung ist ersichtlich, dass der Stützvektor-Algorithmus im Falle einer radialen Basisfunktion automatisch Mittelpunkte, Gewichte und Schwellwerte bestimmt, um eine obere Grenze des erwarteten Fehlers zu minimieren. Diese Eigenschaft ist von wesentlicher Bedeutung dafür, dass die SVR besonders gut in Verbindung mit der APEAQ einsetzbar ist, da ein Vertrauensintervall immer berücksichtigt wird wenn von den Ergebnissen eines subjektiven Hörtests die Rede ist. Maße für die Genauigkeit der objektiven Audioqualität umfassen beispielsweise den mittleren Fehler-Punktwert AES (auch als „average error score” bezeichnet) und eine Analyse von Ausreißern. Diese Maße berücksichtigen Vertrauensintervalle als obere Grenzen des erwarteten Fehlers.In this regard, inter alia, the publication "Comparing Support Vector Machines with Gaussian Kernel to Radial Basis Function Classifiers" by B. Schölkopf et al. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences, available on the Internet at: http://www.svms.org/comparison/Scholkopfetal1996.pdf) directed. From the cited publication, it can be seen that the support vector algorithm automatically determines midpoints, weights and thresholds in the case of a radial basis function to minimize an upper bound on the expected error. This feature is essential for the SVR to be particularly useful in conjunction with APEAQ, as a confidence interval is always taken into account when discussing the results of a subjective hearing test. Measurements of the accuracy of the objective audio quality include, for example, the mean error score AES (also called "average error score") and an analysis of outliers. These measures take into account confidence intervals as upper bounds of expected error.

Im übrigen wurde herausgefunden, dass ein Kern mit einer radialen Basisfunktion aufgrund der nichtlinearen Beziehung zwischen den MOVs und den SDGs passend ist.Incidentally, it has been found that a core having a radial basis function is due to the nonlinear relationship between the MOVs and the SDGs.

In dem Artikel„Support Vector Machines Versus Artificial Neuronal Networks” (im Internet veröffentlicht unter der Internet-Adresse http://www.svms.org/anns.html) ist beschrieben, dass ein wesentlicher Vorteil von SVMs darin besteht, dass die Lösung zu einer SVM global und eindeutig ist, während künstliche neuronale Netzwerke unter dem Vorhandensein von mehreren lokalen Minima leiden können. Weitere Vorteile von SVMs bestehen gemäß diesem Artikel darin, dass SVMs eine einfache geometrische Interpretation haben und eine dünne bzw. ausgedünnte Lösung ergeben. Anders als bei künstlichen neuronalen Netzwerken hängt die rechnerische Komplexität von Unterstützungsvektormaschinen nicht (bzw. nicht wesentlich) von der Dimensionalität des Eingangsraums ab. Künstliche neuronale Netzwerke benützen eine empirische Risikominimierung, während SVMs eine strukturelle Risikominimierung benützen. Ein weiterer Grund dafür, dass SVMs künstlichen neuronalen Netzwerken in der Praxis oftmals leistungsmäßig überlegen sind, liegt darin, dass sich SVMs mit dem größten Problem, das bei neuronalen Netzwerken besteht, beschäftigen (bzw. dieses Problem nicht haben): SVMs sind weniger anfällig für eine Über-Anpassung („over-fitting”).In the article "Support Vector Machines Versus Artificial Neuronal Networks" (published on the internet at http://www.svms.org/anns.html ), it is described that a significant advantage of SVMs is that the solution to an SVM is global and unique, while artificial neural networks may suffer from the presence of multiple local minima. Further advantages of SVMs according to this article are that SVMs have a simple geometric interpretation and give a thin or thinned solution. Unlike artificial neural networks, the computational complexity of support vector machines does not (or does not significantly) depend on the dimensionality of the input space. Artificial neural networks use empirical risk minimization, while SVMs use structural risk minimization. Another reason that SVMs often outperform artificial neural networks in practice is that SVMs are (or do not have) the biggest problem with neural networks: SVMs are less prone to an over-fitting.

Gemäß einem Aspekt der vorliegenden Erfindung wurde im Übrigen bei dem Training der APEAQ-SVM, also der SVM im Einsatz in Verbindung mit der APEAQ, ein zusätzlicher Testsatz verwendet, um die Abhängigkeit der Verallgemeinerung von dem verwendeten Fehlermaß und von ν zu überprüfen. Dies führt dazu, dass die erhaltene SVM sogar noch weniger anfällig für eine Überanpassung („over-fitting”) ist.Incidentally, in one aspect of the present invention, an additional set of tests was used in the training of the APEAQ SVM, SVM in use in conjunction with the APEAQ, to perform the Dependence of the generalization of the used error measure and of ν to check. As a result, the resulting SVM is even less susceptible to over-fitting.

Zusammenfassend ist also das Folgende festzuhalten:

  • 1. Eine Begrenzung und Skalierung der MOVs durch eine Maximierung der Korrelation mit SDGs bringt die Eingangsgrößen der SVM in den optimalen Bereich;
  • 2. Die SVM ist weniger anfällig für eine Überanpassung („over-fitting”) als ein neuronales Netzwerk, und subjektive Hörtests liefern niemals eine Grund-Wahrheit („ground truth”), sondern eine Abschätzung einer Qualität. Die Abschätzung kann sehr unterschiedlich sein, wenn der Test unter Verwendung anderer Hörer, unter Verwendung anderer Ausrüstung oder unter Verwendung eines anderen Ortes organisiert wird.
  • 3. Die Verwendung eines schlechtesten Falls unter mehreren Durchlaufen der Kreuz-Validierung als das Maß für die Genauigkeit verringert eine Überanpassung in der SVM weiter.
  • 4. Die Verwendung eines Test-Satzes, der unabhängig von dem Trainings-Satz ist, verringert eine Überanpassung in der SVM weiter.
  • 5. Zur Verwendung einer mittleren Fehlerpunktzahl (AES, „average error score”) mit einem Intervall von 0,15 in dem Training verringert weiter eine Überanpassung in der SVM und ist hilfreich für alle Fehlermaße.
  • 6. Die Verwendung einer radialen Basisfunktion mit ν = 0,15 verbessert Fehler-Maße, die Vertrauensintervalle berücksichtigen. ν bezieht sich hierbei nicht auf eine spezifische Kernfunktion. Vielmehr ist ν eine obere Grenze für den Bruchteil von Fehlern. Für Details diesbezüglich sei beispielsweise auf die Veröffentlichungen”New support vector algorithms with parametric insensitive/margin model” von Pei-Yi Hao (veröffentlicht in: Neural Networks, Volume 23,Issue 1, Januar 2010, Seiten 60–73) und”The performance of ν-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy” von Dazhou Zhu und anderen (veröffentlicht in: Analytica Chimica Acta, Volume 598,Issue 2, 29. August 2007, Seiten 227–234) verwiesen.
  • 7. Eine SVM hat weniger Probleme mit lokalen Minima als ein neuronales Netzwerk.
In summary, therefore, the following must be noted:
  • 1. Limiting and scaling the MOVs by maximizing the correlation with SDGs brings the SVM inputs into the optimal range;
  • 2. The SVM is less prone to over-fitting than a neural network, and subjective listening tests never provide a ground truth, but an estimate of a quality. The estimate can be very different if the test is organized using other handsets, using other equipment or using a different location.
  • 3. The use of a worst case case of multiple cross validation as the measure of accuracy further reduces overfitting in the SVM.
  • 4. The use of a test set that is independent of the training set further reduces over-fitting in the SVM.
  • 5. Using an average error score (AES) with an interval of 0.15 in the training further reduces over-fitting in the SVM and is helpful for all error measures.
  • 6. The use of a radial basis function with ν = 0.15 improves error measures that take into account confidence intervals. ν does not refer to a specific core function. Rather, ν is an upper limit to the fraction of errors. For details in this regard, for example, to the publications "New support vector algorithms with parametric insensitive / margin model" by Pei-Yi Hao (Published in: Neural Networks, Volume 23,Issue 1, January 2010, pages 60-73) and By Dazhou Zhu and others (Published in: Analytica Chimica Acta, Volume 598,Issue 2, Aug. 29). "The performance of ν-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy" 2007, pages 227-234) directed.
  • 7. An SVM has fewer problems with local minima than a neural network.

Die Synergie der obigen Punkte ergibt besondere Vorteile der APEAQ mit der SVM im Vergleich zu der Veränderung eines neuronalen Netzwerks (NN). Allerdings ist es nicht erforderlich, dass Ausführungsbeispiele alle der oben genannten Aspekte berücksichtigen.The synergy of the above points gives special advantages of APEAQ with SVM compared to the alteration of a neural network (NN). However, it is not necessary that embodiments consider all of the above aspects.

3. Weiteres Ausführungsbeispiel3. Further embodiment

Im Folgenden wird ein weiteres Ausführungsbeispiel der Erfindung beschrieben. Insbesondere wird auch ein mögliches Anmeldungsszenario des erfindungsgemäßen Konzepts beschrieben.In the following, a further embodiment of the invention will be described. In particular, a possible application scenario of the inventive concept is described.

Ausführungsbeispiele gemäß der Erfindung können in Verbindung mit einer automatischen Abstimmung eines Audiocodierers, wie z. B. eines AAC-Audiocodierers, verwendet werden. Unter einem AAC-Audiocodierer wird hierbei ein Audiocodierer verstanden, der gemäß dem „Advanced Audio Coding”-Standard („Fortschrittliche Audiocodierung”-Standard) arbeitet.Embodiments according to the invention may be described in connection with an automatic tuning of an audio encoder, such. As an AAC audio encoder, are used. An AAC audio encoder is hereby understood to mean an audio encoder which operates in accordance with the "Advanced Audio Coding" standard ("Advanced Audio Coding" standard).

Beispielsweise kann das erfindungsgemäße Konzept in Verbindung mit der automatischen Abstimmung eines sogenannten NERO-AAC-Codierers verwendet werden. Beispielsweise kann ein Ausführungsbeispiel der Erfindung in Verbindung mit dem sogenannten „NERO-Digital-Audio-Autotun” („Nero-Digital-Audio-automatischer-Abstimmer”, auch kurz als ”NDAudioAutotune” bezeichnet) eingesetzt werden. Der Nero-Digital-Audio-automatischer-Abstimmer besteht aus einem Frontende und der oben beschriebenen APEAQ. Die eingesetzte APEAQ gemäß Ausführungsbeispielen der vorliegenden Erfindung kann beispielsweise viele Verbesserungen gegenüber der Version haben, die in der oben genanntenMaster-Arbeit von Goran Markovic beschrieben ist. Einige dieser Verbesserungen gemäß verschiedenen Aspekten der Erfindung werden im Folgenden beschrieben.For example, the inventive concept can be used in conjunction with the automatic tuning of a so-called NERO-AAC coder. For example, one embodiment of the invention may be used in conjunction with the so-called "NERO Digital Audio Autotun"("Nero Digital Audio Automatic Tuner", also referred to as "NDAudio Autotune" for short). The Nero Digital Audio Auto Tuner consists of a front end and the APEAQ described above. For example, the APEAQ employed according to embodiments of the present invention may have many improvements over the version described in the above Master thesis by Goran Markovic is described. Some of these improvements according to various aspects of the invention are described below.

Im Folgenden wird zunächst das durch Ausführungsbeispiele gemäß der vorliegenden Erfindung gelöste technische Problem kurz erläutert. Ein integraler Teil der PEAQ und damit auch der APEAQ ist ein Wahrnehmungs-Modell, das eine menschliche Beurteilung modelliert. Das Wahrnehmungs-Modell, das bei der herkömmlichen PEAQ verwendet wird, ist ein neuronales Netzwerk (NN), wobei ein neuronales Netzwerk das Verhalten von biologischen neuronalen Netzwerken simuliert. Ein Prozess des Auffindens von Parametern für ein Wahrnehmungs-Modell, das eine bestmögliche Genauigkeit bzw. zumindest eine ausreichend gute Genauigkeit ergibt, wird als Training bezeichnet. Allerdings wurde herausgefunden, dass Trainingsprozesse für ein neuronales Netzwerk sehr langsam sind, und dass es schwierig ist, zu bestimmen, ob die gefundenen Parameter gut genug sind, da die erreichte Genauigkeit sehr stark von den gewählten Start-Zufalls-Werten abhängig ist. Eine Überprüfung von einzelnen Modifikationen in der PEAQ ist unpraktisch bis zu dem Punkt, dass sie unmöglich ist. Außerdem benötigt es eine erhebliche Zeitdauer, Ergebnisse von neuen Hörtests zu verwenden, um die Genauigkeit zu verbessern.In the following, the technical problem solved by embodiments according to the present invention will first be briefly explained. An integral part of the PEAQ and thus the APEAQ is a perceptual model that models a human assessment. The perceptual model used in conventional PEAQ is a neural network (NN), where a neural network simulates the behavior of biological neural networks. A process of finding parameters for a perceptual model that gives best possible accuracy, or at least enough good accuracy, is called training. However, it has been found that training processes for a neural network are very slow, and that it is difficult to determine whether the parameters found are good enough, since the accuracy achieved depends very much on the chosen starting random values. A review of individual modifications in the PEAQ is impractical to the point that she is impossible. It also takes a significant amount of time to use results from new listening tests to improve accuracy.

Gemäß einem Aspekt der vorliegenden Erfindung wird im Rahmen der APEAQ eine SVR, die eine Version der SVM (auch als „Support Vector Machine” oder „SVM” bezeichnet) anstelle eines neuronalen Netzwerks als ein Wahrnehmungs-Modell verwendet. Es wurde herausgefunden, dass dies den Vorteil mit sich bringt, dass das Training der APEAQ beschleunigt wird, da aufgrund der Natur der SVM deren Training sehr schnell ist. Ferner wurde herausgefunden, dass zusätzlich das Training der SVM eine konsistente Genauigkeit mit sehr geringer Abhängigkeit von Anfangs-Zufallsvariablen mit sich bringt.According to one aspect of the present invention, in the context of APEAQ, an SVR that uses a version of the SVM (also referred to as "Support Vector Machine" or "SVM") instead of a neural network is used as a perceptual model. It has been found that this has the advantage of speeding up the training of APEAQ, since due to the nature of SVM their training is very fast. In addition, it has been found that in addition the training of the SVM involves consistent accuracy with very little dependence on initial random variables.

Somit geben Ausführungsbeispiele der vorliegenden Erfindung die Möglichkeit, jede individuelle Änderung an anderen Teilen der APEAQ zu überprüfen.Thus, embodiments of the present invention provide the ability to review any individual change to other parts of the APEAQ.

Bei Ausführungsbeispielen der Erfindung ermöglicht die Verwendung der SVM bzw. die sich daraus ergebende Beschleunigung des Trainingsprozesses, die APEAQ schnell an Ergebnisse von neuen Hör-Tests, die relevanter für den tatsächlichen Audiocodierer sind, anzupassen.In embodiments of the invention, the use of the SVM, or the consequent acceleration of the training process, allows the APEAQ to quickly adapt to results of new listening tests that are more relevant to the actual audio encoder.

Abgesehen von einem schnelleren Training wird durch Ausführungsbeispiele gemäß der Erfindung auch eine höhere Genauigkeit im Vergleich zu Konzepten mit neuronalen Netzwerken erzielt. Dies stellt eine Haupt-Verbesserung dar.Apart from faster training, embodiments of the invention also provide greater accuracy compared to neural network concepts. This is a major improvement.

Im übrigen kann die APEAQ optional durch die folgenden Maßnahmen noch weiter verbessert werden (wobei die im Folgenden kurz erläuterten Verbesserungen bei manchen Ausführungsbeispielen auch in Verbindung mit der Verwendung eines neuronalen Netzwerks eingesetzt werden können):

  • • Berechnung von MOVs auf der Basis von sechs Sekunden langen Segmenten und Verwenden des schlechtesten ODG unter einer Mehrzahl von Segmenten anstelle des Mittelwerts über die ganze Eingangsinformation; und
  • • Verwendung einer Filterbank, die Eingangsinformation nutzt, wobei die Frequenzantwort des äußeren Ohrs und des Mittelohrs über eine FFT angewendet wird, und Verwendung einer Gleichwert-Unterdrückung am Eingang für beide Modelle (FFT und Filterbank).
In addition, the APEAQ can optionally be further improved by the following measures (although the following briefly explained improvements in some embodiments can also be used in connection with the use of a neural network):
  • • calculating MOVs on the basis of six second long segments and using the worst ODG among a plurality of segments instead of the mean over all the input information; and
  • • Use a filter bank that uses input information, using the frequency response of the outer ear and middle ear via an FFT, and use equal-value rejection at the input for both models (FFT and Filterbank).

Mit anderen Worten die MOVs232 und252 können basierend auf sechs Sekunden langen Segmenten berechnet werden, und für jedes sechs Sekunden lange Segment kann beispielsweise ein zugehöriger ODG bestimmt werden. Anschließend kann ein schlechtester ODG aus der Mehrzahl von ODGs für eine Sequenz von derartigen Segmenten als ODG für ein gesamtes getestetes Signal ausgegeben werden. Die Segmente sind bevorzugt, aber nicht notwendigerweise, überlappend. Die Länge der Segmente kann sich natürlich von sechs Sekunden unterscheiden, wobei die Länge der Segmente bevorzugt in dem Bereich zwischen zwei Sekunden und zwanzig Sekunden liegen sollte. Diese Art der Berechnung des ODG kann im übrigen auch verwendet werden, falls anstelle der SVM260 ein neuronales Netzwerk zum Einsatz kommt.In other words theMOVs 232 and 252 For example, for each six second segment, an associated ODG can be determined. Subsequently, a worst ODG of the plurality of ODGs for a sequence of such segments may be output as ODG for a total signal under test. The segments are preferred, but not necessarily overlapping. Of course, the length of the segments may differ from six seconds, with the length of the segments preferably being in the range between two seconds and twenty seconds. Incidentally, this type of calculation of the ODG may also be used if instead of the SVM 260 a neural network is used.

Zusammenfassend ist im übrigen zu sagen, dass Verbesserungen gemäß den Aspekten der vorliegenden Erfindung beispielsweise zum Test von Audiocodierern eingesetzt werden können. Beispielsweise wurden Aspekte der vorliegenden Erfindung bereits in der sogenannten „NDAudioAutotune”-Software eingesetzt.In summary, it should be noted that improvements according to the aspects of the present invention can be used, for example, to test audio encoders. For example, aspects of the present invention have already been used in the so-called "NDAudioAutotune" software.

Weiterhin ist festzuhalten, dass die APEAQ ganz allgemein für die Entwicklung von Audiocodierern und für die Implementierung und/oder Portierung von Audiocodierern von Interesse ist.It should also be noted that the APEAQ is generally of interest for the development of audio encoders and for the implementation and / or porting of audio encoders.

4. Weitere Ausführungsbeispiele und Verbesserungen4. Other embodiments and improvements

Im Folgenden sind weitere Aspekte gemäß der vorliegenden Erfindung beschrieben.In the following, further aspects according to the present invention are described.

4.1. Anwendungsgebiete4.1. application areas

Ausführungsbeispiele gemäß der vorliegenden Erfindung sind in Verbindung mit Software-Werkzeugen einsetzbar, die eine Audioqualität von Audiocodierern bewerten. Beispielsweise ist die Software „NDAudioAutotune” ein Werkzeug für die automatische Abstimmung von Audiocodierern, wie beispielsweise dem NERO AAC-Codierer. Die Software besteht aus einer APEAQ und einem Frontende. Das Frontende ist bei einigen Ausführungsbeispielen nur für die interne Abstimmung eines bestimmten Audiocodierers, wie beispielsweise des NERO AAC-Codierers, verwendbar. Allerdings ist es natürlich auch möglich, das Frontende so zu gestalten, dass es für die Abstimmung verschiedener Audiocodierer einsetzbar ist. „APEAQ” ist ein Werkzeug, das auf der PEAQ basiert und gegenüber der PEAQ viele Verbesserungen aufweist, von denen einige in der oben genanntenMasterarbeit von Goran Markovic beschrieben sind.Embodiments according to the present invention are useful in conjunction with software tools that evaluate audio quality of audio encoders. For example, NDAudioAutotune software is a tool for auto-tuning audio encoders such as the NERO AAC encoder. The software consists of an APEAQ and a frontend. The front end is in some embodiments only for internal tuning of a particular audio encoder, such as the NERO AAC encoder, usable. However, it is of course also possible to design the front end so that it can be used for the tuning of different audio coders. "APEAQ" is a tool that based on the PEAQ and has many improvements over the PEAQ, some of which are in the above Master thesis by Goran Markovic are described.

Die hierin beschriebene Version der APEAQ weist allerdings eine oder mehrere zusätzliche Verbesserungen auf, die in der oben genannten Masterarbeit noch nicht beschrieben sind, und die im Folgenden erläutert werden.However, the APEAQ version described herein has one or more additional enhancements that are not yet described in the above-mentioned master thesis, and which are explained below.

„PEAQ” (und somit auch „APEAQ”) ist ein Werkzeug zur Messung der Audioqualität. „PEAQ” ist ein Standard, der in derEmpfehlung „ITU-R BS1387” der internationalen Telekommunikations-Union beschrieben ist. Es gibt zumindest eine kommerzielle Version, die käuflich erwerbbar ist: „Opera” von dem Unternehmen OPTICOM."PEAQ" (and thus also "APEAQ") is a tool for measuring audio quality. "PEAQ" is a standard used in the Recommendation "ITU-R BS1387" of the International Telecommunication Union is described. There is at least one commercial version, which is available for purchase: "Opera" from the company OPTICOM.

Details im Hinblick auf die Software ”Opera” finden sich beispielsweise unter der folgenden Internet-Adresse:http://www.opticom.de/technology/audio-quality-testing.html.Details regarding the software "Opera" can be found, for example, at the following Internet address: http://www.opticom.de/technology/audio-quality-testing.html ,

Allerdings wurde herausgefunden, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung, die eine APEAQ implementieren, etwas sechs mal schneller sind als die Software ”Opera”. Weiterhin wurde festgestellt, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung, die APEAQ implementieren, eine viel höhere Genauigkeit aufweisen als die Vergleichs-Software ”Opera”, und zwar besonders für Codierer, die neue Technologien wie SBR (Spektralband-Replikation), PS (Parametrisches Stereo), PNS (Wahrnehmungs-Rausch-Ersetzung) und IS verwenden.However, it has been found that embodiments implementing APEAQ according to the present invention are about six times faster than the software "Opera". Furthermore, it has been found that embodiments implementing APEAQ according to the present invention have much higher accuracy than the Opera comparison software, especially for encoders incorporating new technologies such as SBR (Spectral Band Replication), PS (Parametric Stereo ), PNS (perception noise substitution) and IS use.

Die APEAQ gemäß Ausführungsbeispielen der Erfindung ist interessant für alle Anwendungen bei der Entwicklung von Audiocodierern oder bei der Implementierung und/oder Portierung eines Audiocodierers.The APEAQ according to embodiments of the invention is interesting for all applications in the development of audio encoders or in the implementation and / or porting of an audio encoder.

Im Folgenden werden einige Anwendungen der APEAQ, gemäß den Ausführungsbeispielen der vorliegenden Erfindung, kurz aufgezählt:

  • • Bewertung einer Implementierung: Beim Kauf von Audioverarbeitungsgeräten (z. B. eines Audiocodierers/Audiodecodierers bzw. ”CODEC”) ist es wünschenswert, dass Kunden verschiedene Produkte ausprobieren können, um ein geeignetes Gerät bzw. ein Gerät, das ihren Anforderungen gerecht wird, kaufen zu können. Dies benötigt ein großes Maß an Präzision, insbesondere für die Rang-Beurteilung von unterschiedlichen Produkten.
  • • Abschließende Bewertung der funktionellen Qualität: Bevor ein bestimmtes Ausrüstungsstück, eine elektrische Schaltung oder das ganze Gerät in Benutzung gestellt wird, verringert eine kurze Prüfung die Möglichkeit der Fehlfunktion. Bei diesem abschließenden Test ist die Geschwindigkeit wichtiger als die Präzision.
  • • Online-Überwachung: Während der Rundfunkausstrahlung eines Radio- oder Fernseh-Audiosignals ist es möglich, dessen Qualität zu beobachten. Dies erfordert, in Realzeit zu arbeiten, und benötigt daher einen ausreichend schnellen Algorithmus.
  • • Ausrüstungs- und Verbindungsstatus: Um den funktionsbereiten Zustand von Audioverbindungen oder Ausrüstung zu garantieren, ist von Zeit zu Zeit ein gründlicher Test von deren Qualität erforderlich bzw. empfehlenswert. Anders als bei der Online-Überwachung ist eine Realzeitbeobachtung nicht erforderlich. Eine große Präzision und ein ausführlicher Test wird benötigt.
  • • Codierer/Decodierer-Identifizierung (”CODEC-Identifikation”): Um zu identifizieren, welcher Codierer/Decodierer für die Kompression eines getesteten Signals verwendet wird, sollte ein Messsystem Muster von Charakteristika von Codierern/Decodierern (”CODECs”) vergleichen. Eine Datenbank mit Mustern von Charakteristika bekannter CODECs wird benötigt. Die relevante Frage ist die Machbarkeit dieser Anwendung, da es kein Maß für die Bestimmung von ähnlichen Mustern gibt.
  • • Entwicklung von Codierern/Decodierern (”CODECs”): Eine objektive Bewertung kann bei der Implementierung eines Codierers oder eines Decodierers auf digitalen Signalprozessoren angewendet werden. Die Bewertung des Audiosignals, das durch den implementierten Codierer komprimiert ist bzw. komprimiert wird, darf (bzw. sollte) nicht erheblich schlechter sein als die des Referenz-Codierers auf einer PC-Plattform. Die Bewertung kann auch bei der Entwicklung eines neuen Codierers/Decodierers (CODEC) verwendet werden – durch Auswahl von Parametern, die einen Einfluss auf die Qualität haben, oder bei der Überprüfung auf mögliche Fehler, die während der Implementierung des Algorithmus auftreten können. Diese Anwendung benötigt eine sehr hohe Präzision bei dem Messprozess.
  • • Netzwerk- und Systemplanung: Computernetzwerke werden auch für Musikübertragung, Sprachübertragung und Videoübertragung in Realzeit genutzt. Die Qualität des Netzwerks hat einen Einfluss auf die Übertragung solcher Daten. Für die Netzwerkplanung kann neben traditionellen Methoden auch eine Wahrnehmungs-Bewertung genutzt werden.
  • • Hilfe für subjektive Tests: Die Auswahl des Audiomaterials für subjektive Tests ist von sehr großer Bedeutung für deren Relevanz. Kontinuierliches und umfangreiches Hören kann aufgrund der Ermüdung der Hörer ungenaue Ergebnisse bringen. Eine objektive Bewertung kann für die Auswahl solcher Beispiele genutzt werden, was zur Erreichung von genaueren Ergebnissen des subjektiven Tests beitragen würde.
In the following some applications of the APEAQ, according to the embodiments of the present invention, are briefly enumerated:
  • Evaluation of an Implementation: When purchasing audio processing equipment (eg an audio coder / audio decoder or "CODEC"), it is desirable that customers be able to try different products in order to find a suitable device or device that meets their needs, to buy. This requires a great deal of precision, especially for the rank assessment of different products.
  • • Final Functional Quality Assessment: Before a particular piece of equipment, an electrical circuit, or the entire device is put into use, a brief examination reduces the possibility of malfunction. In this final test, speed is more important than precision.
  • • Online monitoring: During broadcasting of a radio or television audio signal, it is possible to observe its quality. This requires working in real time and therefore requires a sufficiently fast algorithm.
  • • Equipment and Connection Status: To guarantee the sound condition of audio connections or equipment, from time to time a thorough test of their quality is required or recommended. Unlike online monitoring, real-time monitoring is not required. A great precision and a detailed test is needed.
  • • Encoder / Decoder Identification ("CODEC Identification"): To identify which encoder / decoder to use for the compression of a signal under test, a measurement system should compare patterns of characteristics of encoders / decoders ("CODECs"). A database of patterns of characteristics of known CODECs is needed. The relevant question is the feasibility of this application, as there is no measure of determining similar patterns.
  • Development of Encoder / Decoder ("CODECs"): An objective evaluation can be applied to the implementation of an encoder or decoder on digital signal processors. The evaluation of the audio signal compressed by the implemented coder should not be significantly worse than that of the reference coder on a PC platform. The evaluation can also be used in the development of a new codec / decoder (CODEC) by selecting parameters that affect the quality or checking for possible errors that may occur during the implementation of the algorithm. This application requires very high precision in the measuring process.
  • • Network and system planning: Computer networks are also used for music transmission, voice transmission and video transmission in real time. The quality of the network has an influence on the transmission of such data. For network planning, a perceptual evaluation can be used in addition to traditional methods.
  • • Assistance for subjective tests: The selection of the audio material for subjective tests is very important for their relevance. Continuous and extensive listening can lead to inaccurate results due to the fatigue of the listener. An objective assessment can be used to select such examples, which would help achieve more accurate subjective test results.

4.2. Verbesserungen4.2. improvements

Ausführungsbeispiele gemäß der vorliegenden Erfindung schaffen verschiedene Verbesserungen der weiterentwickelten APEAQ, wie sie in der oben genanntenMasterarbeit von Goran Markovic beschrieben ist.Embodiments in accordance with the present invention provide various enhancements to the advanced APEAQ as described in the above Master thesis by Goran Markovic is described.

In anderen Worten, Ausführungsbeispiele gemäß der Erfindung verbessern die APEAQ gemäß der oben bezeichnetenMasterarbeit von Goran Markovic unter Verwendung der folgenden Methoden bzw. Konzepte (wobei die Verbesserungen einzeln oder in beliebiger Kombination eingesetzt werden können):

  • 1. Verwendung einer Nu-SVR mit einer Radial-Basis-Kern-Funktion anstelle eines neuronalen Netzwerks;
  • 2. Berechnen von MOVs auf der Basis von sechs Sekunden langen Segmenten und Verwendung eines schlechtesten ODG unter einer Mehrzahl von Segmenten anstelle eines Mittelwerts über die gesamte Eingangsinformation;
  • 3. Die Filterbank verwendet eine Eingangsinformation, wobei die Frequenzantwort des äußeren Ohrs und des Mittelohrs über eine schnelle Fourier-Transformation angewendet wird;
  • 4. Gleichwert-Zurückweisung wird auf die Eingangsinformation für beide Modelle (schnelle Fourier-Transformation und Filterbank) angewendet (zum Beispiel auf dieModelle300,400);
  • 5. Geschwindigkeitsverbesserungen:
  • a) Verwendung der schnellen Fourier-Transformation für die Autokorrelation in EHS (wobei dies ein Standard-Weg ist, um die Autokorrelation zu beschleunigen und für EHS in der Literatur vorgeschlagen wurde);
  • b) Die Filterbank wird für einige Bänder über rekursive Filter berechnet und für einige Bänder unter Verwendung einer Faltung mit einer Impulsantwort (wobei beide Verfahren bereits in der Literatur vorgestellt wurden). Das rekursive Filter, das für die Optimierung verwendet wird, ist inAbschnitt 3.5.2 der Dissertation ”Perceptual Audio Quality Assessment using a Non-Linear Filter Bank” von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999) beschrieben.
In other words, embodiments according to the invention improve the APEAQ according to the above-mentioned Master thesis by Goran Markovic using the following methods or concepts (where the improvements can be used individually or in any combination):
  • 1. Using a Nu-SVR with a Radial Basis Kernel function instead of a Neural Network;
  • 2. calculating MOVs on the basis of six second long segments and using a worst case ODG among a plurality of segments instead of an average over the entire input information;
  • 3. The filter bank uses input information, wherein the frequency response of the outer ear and the middle ear is applied via a fast Fourier transform;
  • 4. Equivalent rejection is applied to the input information for both models (fast Fourier transform and filter bank) (for example, themodels 300 . 400 );
  • 5. Speed improvements:
  • a) use of fast Fourier transform for autocorrelation in EHS (which is a standard way to accelerate autocorrelation and has been proposed for EHS in the literature);
  • b) The filter bank is calculated for some bands via recursive filters and for some bands using convolution with an impulse response (both methods have already been presented in the literature). The recursive filter used for the optimization is in Section 3.5.2 of the thesis "Perceptual Audio Quality Assessment using a Non-Linear Filter Bank" by Thilo Thiede (Department of Electrical Engineering of the Technical University Berlin, Berlin 1999) described.

4.3. Stützvektor-Regression (SVR)4.3. Support vector regression (SVR)

Im Folgenden wird das Konzept der SVR, das in Ausführungsbeispielen gemäß der Erfindung zum Einsatz kommt, noch einmal kurz erläutert.In the following, the concept of the SVR, which is used in embodiments according to the invention, will be briefly explained again.

SVR ist eine Version einer SVM. Die Funktion einer SVM ist beispielsweise in Wikipedia erklärt (siehe die Internetadressehttp://en.wikipedia.org/wiki/support_vector_machine).SVR is a version of an SVM. The function of an SVM is explained for example in Wikipedia (see the Internet address http://en.wikipedia.org/wiki/support_vector_machine ).

Die SVR wurde zum ersten Mal in dem Artikel„Support Vector Regression Machines” von H. Drucker u. a. beschrieben (verfügbar, zum Beispiel, unter der Internetadresse ”http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf”.The SVR was first in the article "Support Vector Regression Machines" by H. Drucker et al. (Available, for example, at the Internet address "http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf" ,

Ein Vorteil gegenüber neuronalen Netzen besteht darin, dass der Trainingsprozess viel schneller ist und eine viel konsistentere Qualität der Ergebnisse in aufeinanderfolgenden Durchläufen erzielt.An advantage over neural networks is that the training process is much faster and produces a much more consistent quality of results in consecutive runs.

Klassifizierung und eine SVM wurden im Übrigen beispielsweise bereits für die Verbesserung der Qualität bei der Übertragung von Sprache über das Internet (auch als „voice over IP” bzw. „VoIP” bezeichnet) verwendet. Für Details diesbezüglich wird beispielsweise auf die Veröffentlichung„The design of VoIP systems with high preceptual conversational quality” von B. Wah und B. Sat (veröffentlich im Journal of Multimedia, Band. 4, Nr. 2, April 2009) verwiesen.Incidentally, classification and SVM have already been used, for example, to improve the quality of voice transmission over the Internet (also referred to as "voice over IP" or "VoIP"). For details in this regard, for example, the publication "The design of VoIP systems with high preceptual conversational quality" by B. Wah and B. Sat (published in the Journal of Multimedia, Volume 4, No. 2, April 2009 ).

Eine Klassifizierung und eine SVM wurden auch für die Beurteilung von Präferenzen im Hinblick auf Motorgeräusche verwendet. Für Details diesbezüglich wird auf die Veröffentlichung„Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs” von T. Coen u. a. verwiesen.Classification and SVM have also been used to assess preferences for engine noise. For details in this regard is on the publication "Modeling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" by T. Coen et al directed.

Im Übrigen wird auch noch auf die Veröffentlichung”Towards a Model of Perceived Quality of Blind Audio Source Separation” von B. Fox u. a. (veröffentlicht auf der 2007 IEEE International Conference on Multimedia and Expo) verwiesen, wobei hier allerdings ein anderer Typ der Regression verwendet wird und nicht eine SVR.Incidentally, even on the release "Towards a Model of Perceived Quality of Blind Audio Source Separation" by B. Fox et al. (Published at the 2007 IEEE International Conference on Multimedia and Expo) but here another type of regression is used and not an SVR.

4.4. Verwendung des schlechtesten Sechs-Sekunden-Segments 4.4. Use the worst six-second segment

Die ursprüngliche PEAQ berechnet die MOVs aus der gesamten Eingangsinformation und mittelt deren Werte über die gesamte Dauer der Eingangsinformationen.The original PEAQ computes the MOVs from all input information and averages their values over the entire duration of the input information.

Mit den hier vorgeschlagenen Modifikationen gemäß einem Aspekt der Erfindung werden die MOVs alle 0,07 Sekunden auf überlappenden Sechs-Sekunden-Segmenten berechnet. Für jedes Segment wird ein ODG berechnet, und der schlechteste ODG wird als das endgültige Maß der Qualität verwendet.With the modifications proposed herein according to one aspect of the invention, the MOVs are calculated every 0.07 seconds on overlapping six-second segments. For each segment, an ODG is calculated, and the worst ODG is used as the final measure of quality.

Es wurde herausgefunden, dass diese Vorgehensweise das Nutzerverhalten in Hörtests simuliert, wo der Nutzer bzw. Hörer sich auf Segmente mit den meisten Artefakten konzentriert.It has been found that this approach simulates user behavior in listening tests where the user or listener focuses on segments with the most artifacts.

Eine entsprechende neuartige Vorgehensweise kann in Verbindung mit Ausführungsbeispielen gemäß der Erfindung eingesetzt werden, kann aber auch in Verbindung mit herkömmlichen Vorrichtungen zur PEAQ eingesetzt werden.A corresponding novel procedure can be used in conjunction with embodiments according to the invention, but can also be used in conjunction with conventional devices for PEAQ.

4.5. Ohr-Frequenzantwort über FFT in dem Filterbank-Modell4.5. Ear Frequency Response via FFT in the Filterbank Model

Im Folgenden wird eine weitere mögliche Verbesserung der herkömmlichen PEAQ, der in derMaster-Arbeit von Goran Markovic beschriebenen APEAQ und auch der erfindungsgemäßen nochmals verbesserten PEAQ beschrieben.Below is another possible improvement of the conventional PEAQ used in the Master thesis by Goran Markovic described APEAQ and also the again improved PEAQ invention.

Diese Veränderung ist spezifisch für die PEAQ und damit auch für die APEAQ. Zwei Ohrmodelle (bzw. Gehörmodelle) in der PEAQ verwenden eine separate Verarbeitung, um eine Ohr-Frequenzantwort zu modellieren. Jedes dieser Modelle transformiert Eingangssignale von der Zeit in den Frequenzbereich und modelliert anschließend die Frequenzantwort in dem Frequenzbereich.This change is specific to the PEAQ and thus to the APEAQ. Two ear models (or ear models) in the PEAQ use separate processing to model an ear frequency response. Each of these models transforms input signals from time to frequency domain and then models the frequency response in the frequency domain.

Gemäß einem Aspekt der Erfindung besteht eine Modifikation darin, dass die Frequenzantwort in dem FFT Modell modelliert wird, und dass dann eine inverse schnelle Fourier-Transformation (inverse FFT) verwendet wird, um die Eingangsinformation für die Filterbank zu erzeugen. Es wurde herausgefunden, dass diese Vorgehensweise eine präzisere Modellierung erzeugt, da die schnelle Fourier-Transformation eine viel höhere Frequenzauflösung hat als das Filterbank-Modell.According to one aspect of the invention, a modification is that the frequency response is modeled in the FFT model, and then an inverse fast Fourier transform (inverse FFT) is used to generate the input information for the filter bank. It has been found that this approach produces more accurate modeling because the fast Fourier transform has a much higher frequency resolution than the Filterbank model.

Zusammenfassend ist festzuhalten, dass diese neuartige Vorgehensweise sowohl in Verbindung mit herkömmlichen Konzepten zur PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden kann.In summary, it should be noted that this novel approach can be used both in conjunction with conventional concepts for PEAQ as well as in connection with embodiments according to the present invention.

4.6. Gleichanteil-Zurückweisung am Eingang für beide Modelle (FFT und Filterbank)4.6. DC rejection at the input for both models (FFT and Filterbank)

Im Folgenden werden weitere optionale Verbesserungen beschrieben, die sowohl im Zusammenhang mit herkömmlichen Konzepten zur PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden können.In the following, further optional enhancements will be described, which may be used in conjunction with conventional concepts for PEAQ as well as in conjunction with embodiments according to the present invention.

Eine Gleichanteils-Zurückweisung bzw. -unterdrückung wurde ursprünglich in der PEAQ über ein Filter mit unendlicher Impulsantwort (IIR-Filter) nur auf der Eingangsinformation der Filterbank durchgeführt.A DC rejection was originally performed in the PEAQ via an infinite impulse response (IIR) filter only on the input information of the filter bank.

Bei Ausführungsbeispielen gemäß diesem Aspekt der Erfindung wurde dieser Block (also beispielsweise die Gleichanteil-Unterdrückung) zu dem Anfang verschoben und auf die Eingangsinformation für das FFT-Modell angewendet. Da die Eingangsinformation der FFT in den Zeitbereich zurücktransformiert wird und in der Filterbank verwendet wird, hat die Gleichanteil-Unterdrückung somit einen Einfluss auf die Filterbank.In embodiments according to this aspect of the invention, this block has been shifted to the beginning (i.e., DC offset, for example) and applied to the input information for the FFT model. Since the input information of the FFT is transformed back into the time domain and used in the filter bank, the DC component suppression thus has an influence on the filter bank.

In der ursprünglichen PEAQ wurde die Gleichanteil-Unterdrückung implizit in dem FFT Modell gemacht, und zwar durch die Gruppierung in die Wahrnehmungsbänder. Die FFT hat bei niedrigen Frequenzen eine niedrige Auflösung, und die Verwendung einer Gleichanteil-Unterdrückung durch ein Filter mit unendlicher Impulsantwort verbessert dies.In the original PEAQ, DC equalization was implicitly made in the FFT model by grouping into the perceptual bands. The FFT has a low resolution at low frequencies, and the use of DC equalization by an infinite impulse response filter improves this.

Die beschriebene Lösung gemäß einem Aspekt der Erfindung kann sowohl in Verbindung mit einer herkömmlichen PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden.The described solution according to one aspect of the invention can be used both in conjunction with a conventional PEAQ and in conjunction with embodiments according to the present invention.

4.7. Verwendung der FFT für die Autokorrelation bei der Bestimmung der harmonischen Struktur des Fehlers bzw. der harmonischen Fehlerstruktur 4.7. Use of FFT for autocorrelation in determining the harmonic structure of the error or harmonic error structure

Es wurde erkannt, dass die Verwendung der FFT zur Autokorrelation ein üblicher Weg der Optimierung ist, der seit der Erfindung der FFT eingesetzt wird.It has been recognized that the use of FFT for autocorrelation is a common way of optimization used since the invention of the FFT.

Die Veröffentlichung„Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audioquality” von P. Kabal (veröffentlicht durch das Telecommunications und Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University) schlägt die Verwendung dieser Optimierung für die Berechnung der harmonischen Struktur des Fehlers bzw. der harmonischen Fehlerstruktur vor.The publication "Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audio Quality" by P. Kabal (published by the Telecommunications and Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University) suggests the use of this optimization for the calculation of the harmonic structure of the error or the harmonic error structure.

Insofern ist festzuhalten, dass die Autokorrelation bei der Bestimmung der harmonischen Struktur des Fehlers bzw. der harmonischen Fehlerstruktur bei Ausführungsbeispielen gemäß der Erfindung zum Einsatz kommen kann.In this respect, it should be noted that the autocorrelation in the determination of the harmonic structure of the error or the harmonic error structure can be used in embodiments according to the invention.

4.8. Kombination von Regression und Impuls-Faltung in einer Filterbank4.8. Combination of regression and pulse convolution in a filter bank

Im Folgenden wird eine Kombination von Regression und Impuls-Faltung in einer Filterbank gemäß einem Aspekt der vorliegenden Erfindung beschrieben. Die Kombination von Regression und Impuls-Faltung in einer Filterbank kann sowohl in herkömmlichen Konzepten zur PEAQ als auch in Ausführungsbeispielen gemäß der vorliegenden Erfindung zum Einsatz kommen.In the following, a combination of regression and pulse convolution in a filter bank according to one aspect of the present invention will be described. The combination of regression and pulse convolution in a filter bank can be used both in conventional PEAQ concepts and in embodiments according to the present invention.

Bei der Entwicklung der PEAQ wurden Filter mit endlicher Impulsantwort (FIR-Filter) entwickelt, die rekursive Algorithmen verwenden.In the development of PEAQ, finite impulse response (FIR) filters have been developed using recursive algorithms.

Für Details diesbezüglich wird beispielsweise auf die Dissertation„Perceptual Audio Quality Assessment Using a non-linear Filerbank” von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999) verwiesen.For details in this regard, for example, the dissertation "Perceptual Audio Quality Assessment Using a non-linear Filerbank" by Thilo Thiede (Department of Electrical Engineering of the Technical University Berlin, Berlin 1999) directed.

In derEmpfehlung „ITU-R BS 1386.1” der Internationalen Telekommunikations-Union ist die Impulsantwort der Filter gegeben, was darauf hinweist, eine Faltung für die Filterberechnung zu verwenden. Es gibt insgesamt 40 Filter bzw. Bänder, und diese sind unabhängig voneinander. Ein rekursiver Algorithmus benötigt dieselbe Zeitdauer für jedes Band. Die Faltungsgeschwindigkeit hängt von der Anzahl von Werten in den Impulsantworten ab, die nicht gleich Null sind. Durch die Verwendung der Faltung für Bänder mit kurzen Impulsantworten und durch die Verwendung einer Rekursion für den Rest konnte eine Verbesserung der Geschwindigkeit erreicht werden.In the Recommendation "ITU-R BS 1386.1" of the International Telecommunication Union the impulse response of the filters is given, indicating that a convolution is to be used for the filter computation. There are a total of 40 filters or bands, and these are independent of each other. A recursive algorithm needs the same amount of time for each band. The convolution rate depends on the number of values in the impulse responses that are not equal to zero. By using the convolution for bands with short impulse responses and by using a recursion for the rest, an improvement in speed could be achieved.

Zusammenfassend ist somit festzuhalten, dass diese Verbesserung bei der Berechnung der Filterbank gemäß einem Aspekt der Erfindung sowohl bei herkömmlichen Konzepten zur PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden kann.In summary, it should therefore be noted that this improvement in the calculation of the filter bank according to one aspect of the invention can be used both in conventional concepts for PEAQ and in connection with embodiments according to the present invention.

5. Weiteres Ausführungsbeispiel5. Further embodiment

Im Folgenden wird noch ein weiteres Ausführungsbeispiel gemäß der vorliegenden Erfindung kurz beschrieben.Hereinafter, still another embodiment according to the present invention will be briefly described.

Zunächst wird auf das zugrunde liegende technische Problem kurz eingegangen. Das Werkzeug „NDAudioAutotune” ist ein Nero-Werkzeug zur automatischen Suche nach optimalen Parameterwerten für einen Nero-AAC Codierer, um dessen Qualität zu verbessern. Das genannte Werkzeug besteht aus APEAQ und einem Frontende. APEAQ ist eine modifizierte Implementierung von PEAQ, welches ein standardisiertes Maß der objektiven Audioqualität ist (entsprechend derEmpfehlung „ITU-R BS.1387-Empfehlung für ein Verfahren für objektive Messungen der wahrgenommenen Audioqualität”).First, the underlying technical problem is briefly discussed. The NDAudioAutotune tool is a Nero tool for automatically finding optimal parameter values for a Nero-AAC encoder to improve its quality. The named tool consists of APEAQ and a front end. APEAQ is a modified implementation of PEAQ, which is a standardized measure of objective audio quality (according to the Recommendation "ITU-R BS.1387 Recommendation for a method for objective measurements of perceived audio quality" ).

APEAQ erzeugt Bewertungen, die einen Pegel einer hörbaren Verschlechterung darstellen und Bewertungen von subjektiven Hörtests, die durch Menschen durchgeführt wurden, entsprechen. Die Korrelation zwischen APEAQ-Bewertungen und Bewertungen von subjektiven Tests ist ein Maß für dessen Genauigkeit.APEAQ generates ratings that represent a level of audible degradation and are equivalent to ratings of subjective human hearing tests. The correlation between APEAQ ratings and subjective rating scores is a measure of its accuracy.

Ein Wahrnehmungsmodell, das eine menschliche Beurteilung modelliert, ist ein integraler Teil von PEAQ (und folglich auch von APEAQ). Es bildet Werte von internen APEAQ-Variablen (die als Modellausgangsvariablen bzw. ”MOVs” bezeichnet werden) auf die abschließende Bewertung ab. Die Abbildung wird durch Parameter des Wahrnehmungs-Modells bestimmt. Der Prozess, Parameter für ein kognitives Modell zu finden, die die beste mögliche Genauigkeit ergeben, wird als Training bezeichnet. Das Training eines Wahrnehmungs-Modells beginnt mit der Wahl von Zufalls-Start-Parametern. Jede Modifikation an einem anderen Teil von APEAQ erzeugt Unterschiede in den Modell-Ausgangsvariablen-Werten und benötigt ein neues Training des Wahrnehmungs-Modells.A perceptual model that models a human assessment is an integral part of PEAQ (and consequently of APEAQ). It maps values of internal APEAQ variables (called model output variables or "MOVs") to the final score. The picture will determined by parameters of the perceptual model. The process of finding parameters for a cognitive model that give the best possible accuracy is called training. The training of a perceptual model begins with the selection of random start parameters. Any modification to another part of APEAQ produces differences in model output variable values and requires a new training of the perceptual model.

Das Wahrnehmungs-Modell, das bei PEAQ verwendet wird, ist ein neuronales Netzwerk (NN). Trainingsprozesse für ein neuronales Netzwerk sind sehr langsam, und es ist zusätzlich schwierig, zu bestimmen, ob aufgefundene Parameter gut genug sind, da die erreichte Genauigkeit sehr stark abhängig von den gewählten Start-Zufalls-Werten ist. Das machte es unmöglich, einzelne Veränderungen am anderen Teil von APEAQ individuell zu prüfen. Weitere Informationen zu PEAQ finden sich beispielsweise unter der folgenden Internetadresse:http://en.wikipedia.org/wiki/PEAQ.The perceptual model used in PEAQ is a neural network (NN). Training processes for a neural network are very slow, and it is additionally difficult to determine whether found parameters are good enough, since the accuracy achieved is very much dependent on the chosen start-random values. This made it impossible to individually examine individual changes in the other part of APEAQ. Further information on PEAQ can be found, for example, at the following Internet address: http://en.wikipedia.org/wiki/PEAQ ,

Weitere Informationen über neuronale Netzwerke finden sich beispielsweise unter der folgenden Internetadresse:http://en.wikipedia.org/wiki/Neural_network.Further information about neural networks can be found, for example, at the following Internet address: http://en.wikipedia.org/wiki/Neural_network ,

Insgesamt ist festzuhalten, dass herkömmlicherweise andere Wahrnehmungs-Modelle, wie beispielsweise neuronale Netzwerke, verwendet wurden, aber keine SVM.Overall, it should be noted that conventionally other perceptual models, such as neural networks, have been used, but no SVM.

Im Hinblick auf den Stand der Technik ist somit festzuhalten, dass das Training der bisher verwendeten Wahrnehmungs-Modelle langsam ist und keine ausreichend gute Genauigkeit erreicht. Es ist unpraktikabel, bis zu dem Punkt, dass es unmöglich ist, einzelnen Modifikationen bei PEAQ zu überprüfen.With regard to the prior art, it can thus be stated that the training of the perceptual models used hitherto is slow and does not achieve sufficiently good accuracy. It is impractical to the point that it is impossible to verify individual modifications to PEAQ.

Im Übrigen benötigt es ein erhebliches Maß an Zeit, um Ergebnisse von neuen Hör-Tests zu verwenden, um die Genauigkeit zu verbessern.Incidentally, it takes a considerable amount of time to use results of new hearing tests to improve accuracy.

Im Folgenden wird erläutert, wie einige Ausführungsbeispiele gemäß der Erfindung die oben genannten Probleme lösen und welche Vorteile die erfindungsgemäßen Lösungen bieten.In the following it will be explained how some embodiments according to the invention solve the abovementioned problems and which advantages the solutions according to the invention offer.

Gemäß einem Aspekt der Erfindung wird eine SVR, die eine Version einer SVM ist, anstelle von neuronalen Netzwerken als ein Wahrnehmungs-Modell verwendet.According to one aspect of the invention, an SVR, which is a version of SVM, is used as a perceptual model instead of neural networks.

Dies bringt den Vorteil, dass ein schnelleres Training von APEAQ erreicht werden kann, da aufgrund der Natur der SVM deren Training sehr schnell ist. Zusätzlich erzeugt das Training der SVM eine konsistente Genauigkeit mit sehr geringer Abhängigkeit von Start-Zufalls-Werten.This has the advantage that faster training of APEAQ can be achieved because, due to the nature of SVM, their training is very fast. In addition, training the SVM produces consistent accuracy with very little dependence on starting random values.

Daher bietet die vorgeschlagene Lösung die Möglichkeit, jede einzelne Veränderung im anderen Teil von APEAQ zu überprüfen.Therefore, the proposed solution offers the opportunity to review every single change in the other part of APEAQ.

Die vorgeschlagene Lösung kann auch benutzt werden, um APEAQ schnell an Ergebnisse von neuen Hörtests, die relevanter für die tatsächlichen Audiocodierer sind (als bisher verwendete Hörtests), anzupassen.The proposed solution can also be used to quickly adapt APEAQ to results of new listening tests that are more relevant to the actual audio coders (than previous listening tests).

Neben einem schnelleren Training wird im Vergleich zu neuronalen Netzen auch eine höhere Genauigkeit erreicht.In addition to faster training, higher accuracy is achieved compared to neural networks.

Weitere Informationen zum Thema SVM finden sich im Übrigen unter folgender Internet-Adresse:http://en.wikipedia.org/wiki/PEAQ.Further information on SVM can be found at the following Internet address: http://en.wikipedia.org/wiki/PEAQ ,

SVR wurde im Übrigen 1996 in der bereits oben erwähnten Veröffentlichung„Support Vector Regression Maschines” von H. Drucker und anderen vorgeschlagen.Incidentally, SVR was published in 1996 in the above-mentioned publication "Support Vector Regression Maschines" by H. Drucker and others proposed.

Zusammenfassend ist somit festzuhalten, dass es ein Kerngedanke von Ausführungsbeispielen gemäß der Erfindung ist, eine SVM zur Modellierung der Wahrnehmung in objektiven Messungen der Audioqualität zu verwenden. Ferner ist es ein Kerngedanke von Ausführungsbeispielen der Erfindung, ein schnelles Training der SVM zu verwenden, um einzelne Veränderungen zu überprüfen, und um die SVM an neue Hörtestergebnisse anzupassen.In summary, it should be noted that it is a central idea of embodiments according to the invention to use an SVM for modeling the perception in objective measurements of the audio quality. Further, it is a core idea of embodiments of the invention to use rapid training of the SVM to verify individual changes and to adapt the SVM to new hearing test results.

Im Folgenden werden einige Details im Hinblick auf Ausführungsbeispiele und Implementierungsbeispiele gegeben. So zeigt die7 zu Vergleichszwecken die Struktur eines neuronalen Netzwerks, das in PEAQ und APEAQ herkömmlicherweise eingesetzt wird.In the following, some details regarding embodiments and implementation examples will be given. That's how it shows 7 for comparison, the structure of a neural network conventionally used in PEAQ and APEAQ.

5 zeigt die Struktur einer SVM, die in Verbindung mit APEAQ (bzw. in einem Ausführungsbeispiel gemäß der vorliegenden Erfindung) eingesetzt wird. 5 shows the structure of an SVM used in conjunction with APEAQ (or in one embodiment of the present invention).

Ein modifiziertes und weiterentwickeltes Modell von PEAQ wird bei APEAQ und bei Ausführungsbeispielen der Erfindung verwendet, wie es in der Master-Arbeit„Analysis of Methods for Objective Evaluation of Quality of Audiosignals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic beschrieben ist.A modified and refined model of PEAQ is used in APEAQ and in embodiments of the invention as described in the master thesis "Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" by Goran Markovic is described.

APEAQ erzeugt beispielsweise fünf Modell-Ausgangs-Variablen (MOVs):

  • 1. RmsModDiff;
  • 2. RmsNoiseLoud;
  • 3. RmsMissingComponents;
  • 4. SNMR; und
  • 5. EHS.
For example, APEAQ generates five model output variables (MOVs):
  • 1. RmsModDiff;
  • 2. RmsNoiseLoud;
  • 3. Rms Missing Components;
  • 4. SNMR; and
  • 5. EHS.

Diese fünf Modell-Ausgangs-Variablen werden als Vektor x in Eingangsgrößen für die Kern-Funktion gemäß5 bezeichnet. Ein zweiter Parameter für die Kern-Funktion ist ein Stützvektor yi. coefi sind Gewichtungskoeffizienten und ρ ist ein Offset-Wert. Stützvektoren, Koeffizienten und Offset-Werte werden während eines Trainings gefunden. Σ ist eine Summenfunktion. Übliche Kerne bzw. Kern-Funktionen sind lineare, polynomiale und radiale Basisfunktionen und ein hyperbolischer Tangens. In APEAQ haben radiale Basisfunktionen die besten Ergebnisse geliefert.These five model output variables are called vector x in input quantities for the kernel function according to 5 designated. A second parameter for the kernel function is a support vector yi . coefi are weighting coefficients and ρ is an offset value. Support vectors, coefficients and offset values are found during training. Σ is a sum function. Common kernels are linear, polynomial and radial basis functions and a hyperbolic tangent. In APEAQ, radial basis functions have delivered the best results.

Im Übrigen sei darauf hingewiesen, dass das SVM-Modell bei manchen Ausführungsbeispielen aus Stützvektoren, Koeffizienten und einem Offset-Wert („Bias”) besteht.Incidentally, it should be noted that in some embodiments, the SVM model consists of support vectors, coefficients and an offset value ("bias").

6 zeigt im Übrigen einen Trainingsprozess und die dafür erforderlichen Vorbedingungen. Details diesbezüglich wurden bereits oben beschrieben. 6 incidentally shows a training process and the necessary preconditions. Details in this regard have already been described above.

Zusammenfassend ist somit festzuhalten, dass es ein wesentlicher Aspekt von Ausführungsbeispielen gemäß der vorliegenden Erfindung ist, dass eine SVM bei der PEAQ verwendet wird.In summary, it should be noted that it is an essential aspect of embodiments according to the present invention that an SVM is used in the PEAQ.

Weiter ist festzuhalten, dass das Konzept gemäß der vorliegenden Erfindung in Verbindung mit APEAQ verwendet werden kann, um einen AAC-Codierer zu verbessern und zu testen. Ausführungsbeispiele gemäß der Erfindung können damit in allen Produkten eingesetzt werden, in denen ein AAC-Codierer verwendet wird. In anderen Worten, APEAQ gemäß der vorliegenden Erfindung ist allgemein bei der Entwicklung von Audio-Codierern und bei der Implementierung bzw. Portierung von Audio-Codierern einsetzbar.It should also be noted that the concept according to the present invention may be used in conjunction with APEAQ to enhance and test an AAC encoder. Embodiments according to the invention can thus be used in all products in which an AAC encoder is used. In other words, APEAQ according to the present invention is generally applicable to the development of audio encoders and to the implementation of audio encoders.

6. Weitere Anmerkungen6. Further comments

Im Übrigen ist festzuhalten, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung deutlich über das hinausgehen, was herkömmlicherweise gemacht wurde.Incidentally, it should be noted that embodiments according to the present invention go well beyond what has conventionally been done.

So sind bei Ausführungsbeispielen gemäß der Erfindung, bei denen APEAQ durch den Einsatz einer SVM verbessert wird, die Eingangsinformationen der SVR Parameter, die auf Folgendem basieren:

  • • der Differenz zwischen einer internen Darstellung der Audiosignale,
  • • Maskierungsschwellwerten, die auf dem Differenz-Signal basieren; und
  • • der Harmonischen-Struktur-Unterschied bzw. der harmonischen Fehlerstruktur.
Thus, in embodiments according to the invention in which APEAQ is enhanced through the use of SVM, the input information of SVR parameters are based on:
  • The difference between an internal representation of the audio signals,
  • • masking thresholds based on the difference signal; and
  • • the harmonic structure difference or the harmonic error structure.

Im Gegensatz dazu sind herkömmlicherweise Eingangsinformationen der SVM Parameter, die auf der Lautheit (SPL mit unterschiedlicher Gewichtung) oder der Rauheit basieren.In contrast, conventionally, input information of SVM parameters are based on loudness (SPL with different weighting) or roughness.

Im Übrigen sind herkömmlicherweise die Eingangsgrößen der SVM-Variablen, die auf einer einzigen Quelle basieren. Im Gegensatz dazu sind bei Ausführungsbeispielen der vorliegenden Erfindung die Eingangsgrößen-Variablen, die auf der Differenz zwischen Quellen basieren, wie in APEAQ.Incidentally, conventionally, the inputs are the SVM variables based on a single source. In contrast, in embodiments of the present invention, the input variables based on the difference between sources are as in APEAQ.

Im Übrigen unterscheiden sich Ausführungsbeispiele gemäß der vorliegenden Erfindung von herkömmlichen Konzepten dadurch, dass eine SVR verwendet wird, und nicht nur eine Klassifikation und eine SVM.Incidentally, embodiments according to the present invention differ from conventional concepts in that an SVR is used, not just a classification and an SVM.

7. Implementierungsalternativen 7. Implementation alternatives

Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder eine elektronische Schaltung ausgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.Although some aspects have been described in the context of a device, it will be understood that these aspects also constitute a description of the corresponding method, so that a block or a component of a device is also to be understood as a corresponding method step or as a feature of a method step. Similarly, aspects described in connection with or as a method step also represent a description of a corresponding block or detail or feature of a corresponding device. Some or all of the method steps may be performed by a hardware device (or using a hardware device). Apparatus), such as a microprocessor, a programmable computer or an electronic circuit. In some embodiments, some or more of the most important method steps may be performed by such an apparatus.

Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.Depending on particular implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be performed using a digital storage medium, such as a floppy disk, a DVD, a Blu-ray Disc, a CD, a ROM, a PROM, an EPROM, an EEPROM or FLASH memory, a hard disk, or other magnetic disk or optical memory are stored on the electronically readable control signals that can cooperate with a programmable computer system or cooperate such that the respective method is performed. Therefore, the digital storage medium can be computer readable.

Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.Thus, some embodiments according to the invention include a data carrier having electronically readable control signals capable of interacting with a programmable computer system such that one of the methods described herein is performed.

Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.In general, embodiments of the present invention may be implemented as a computer program product having a program code, wherein the program code is operable to perform one of the methods when the computer program product runs on a computer.

Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.The program code can also be stored, for example, on a machine-readable carrier.

Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.Other embodiments include the computer program for performing any of the methods described herein, wherein the computer program is stored on a machine-readable medium.

Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.In other words, an embodiment of the method according to the invention is thus a computer program which has a program code for performing one of the methods described herein when the computer program runs on a computer.

Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.A further embodiment of the inventive method is thus a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program is recorded for carrying out one of the methods described herein.

Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.A further embodiment of the method according to the invention is thus a data stream or a sequence of signals, which represent the computer program for performing one of the methods described herein. The data stream or the sequence of signals may be configured, for example, to be transferred via a data communication connection, for example via the Internet.

Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.Another embodiment includes a processing device, such as a computer or a programmable logic device, that is configured or adapted to perform one of the methods described herein.

Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.Another embodiment includes a computer on which the computer program is installed to perform one of the methods described herein.

Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.Another embodiment according to the invention comprises a device or system adapted to transmit a computer program for performing at least one of the methods described herein to a receiver. The transmission can be, for example, electronically or optically done. The receiver may be, for example, a computer, a mobile device, a storage device or a similar device. For example, the device or system may include a file server for transmitting the computer program to the recipient.

Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.In some embodiments, a programmable logic device (eg, a field programmable gate array, an FPGA) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a field programmable gate array may cooperate with a microprocessor to perform one of the methods described herein. In general, in some embodiments, the methods are performed by any hardware device. This may be a universal hardware such as a computer processor (CPU) or hardware specific to the process, such as an ASIC.

Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.The embodiments described above are merely illustrative of the principles of the present invention. It will be understood that modifications and variations of the arrangements and details described herein will be apparent to others of ordinary skill in the art. Therefore, it is intended that the invention be limited only by the scope of the appended claims and not by the specific details presented in the description and explanation of the embodiments herein.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

  • Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion (ITU)[0005]Recommendation ITU-R BS.1387 of the International Telecommunication Union (ITU)[0005]
  • ”Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic (Masterarbeit an der Universität von Novi Sad, Fakultät für technische Wissenschaften, Serbien, Juli 2006)[0007]Goran Markovic's "Analysis of Methods for Objective Evaluation of Quality of Audio Signaling and Application in Implementation of an Encoder on a Class of Digital Signal Processors" (Master Thesis at the University of Novi Sad, Faculty of Technical Sciences, Serbia, July 2006)[ 0007]
  • ”http://www.opticom.de/technology/audio-quality-testing.html[0018]"Http://www.opticom.de/technology/audio-quality-testing.html[0018]
  • http://en.wikipedia.org/wiki/PEAQ[0019]http://en.wikipedia.org/wiki/PEAQ[0019]
  • ”The Design of VoIP Systems with high perceptual conversional Quality” von B. W. Wah und B. Sat (Academy Publisher, Journal of Multimedia, Vol. 4, No. 2, April 2009)[0020]BW Wah and B. Sat (Academy Publishers, Journal of Multimedia, Vol. 4, No. 2, April 2009), "The Design of VoIP Systems with High Perceptual Conversional Quality".[0020]
  • ”Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs” von T. Coen u. a.[0021]"Modeling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" by T. Coen et al.[0021]
  • Seite 57 in der Veröffentlichung ”ITU-R BS.1387-1” der Internationalen Telekommunikationsunion[0031]Page 57 in the publication "ITU-R BS.1387-1" of the International Telecommunication Union[0031]
  • ”ITU-R BS.1387-1”[0031]"ITU-R BS.1387-1"[0031]
  • Seite 7 der Veröffentlichung ”Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems” von I. Choi (veröffentlicht in: JAES, Volume 56 Issue 1/2 Seiten 3–17; Januar 2008)[0031]Page 7 of the publication "Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems" by I. Choi (published in: JAES, Volume 56Issue 1/2, pages 3-17, January 2008)[0031]
  • Abschnitt 3 der Master-Arbeit „Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic (Universität von Novi Sad, Fakultät für technische Wissenschaften, Novi Sad, Juli 2006)[0065]Section 3 of the Master's Thesis "Analysis of Methods for Objective Evaluation of Quality of Audio Signaling and Application in Implementation of an Encoder on a Class of Digital Signal Processors" by Goran Markovic (University of Novi Sad, Faculty of Technical Sciences, Novi Sad, July 2006)[0065]
  • Empfehlung ITU-R BS.1387-1: „Method for Objective Measurements of Perceived Audio Quality” der Internationalen Telekommunikations-Union (ITU), Genf, 2001[0066]Recommendation ITU-R BS.1387-1: "Method for Objective Measurements of Received Audio Quality" of the International Telecommunication Union (ITU), Geneva, 2001[0066]
  • Empfehlung „ITU-R BS.1387-1” der Internationalen Telekommunikations-Union[0067]Recommendation "ITU-R BS.1387-1" of the International Telecommunication Union[0067]
  • Abschnitt 3.1. der oben genannten Master-Arbeit von Goran Markovic[0072]Section 3.1. the aforementioned master's thesis by Goran Markovic[0072]
  • Empfehlung „ITU-R BS.1387-1” der Internationalen Telekommunikations-Union (ITU)[0072]Recommendation "ITU-R BS.1387-1" of the International Telecommunication Union (ITU)[0072]
  • Absatz 3.1.3 der Master-Arbeit von Goran Markovic[0075]Paragraph 3.1.3 of the Master'sThesis by Goran Markovic[0075]
  • Abschnitt 3.2 der Master-Arbeit von Goran Markovic[0082]Section 3.2 of the Master'sThesis by Goran Markovic[0082]
  • Vorschlag ”ITU-R BS.1387-1” der Internationalen Telekommunikations-Union[0082]Proposal "ITU-R BS.1387-1" of the International Telecommunication Union[0082]
  • Empfehlung „ITU-R BS.1387-1”[0083]Recommendation "ITU-R BS.1387-1"[0083]
  • Master-Arbeit von Goran Markovic[0083]Master's thesis by Goran Markovic[0083]
  • Master-Arbeit von Goran Markovic beschrieben, und zwar insbesondere in den Abschnitten 3.3., 3.4. und 4.8[0085]Master's thesis by Goran Markovic, especially in Sections 3.3., 3.4. and 4.8[0085]
  • Empfehlung „ITU-R BS.1387-1”[0085]Recommendation "ITU-R BS.1387-1"[0085]
  • Kapitel 3 und 4. Kapitel 4.8 der genannten Master-Arbeit von Goran Markovic[0085]Chapters 3 and 4. Chapter 4.8 of the mentioned master thesis by Goran Markovic[0085]
  • Abschnitte 3.3, 3.4 und 4.8 der oben genannten Master-Arbeit von Goran Markovic[0087]Sections 3.3, 3.4 and 4.8 of the aforementioned master's thesis by Goran Markovic[0087]
  • Abschnitt 3.3 der genannten Master-Arbeit von Goran Markovic[0088]Section 3.3 of the mentioned master thesis by Goran Markovic[0088]
  • Kapitel 4.1 der Masterarbeit von Goran Markovic[0088]Chapter 4.1 of the Master Thesis by Goran Markovic[0088]
  • Abschnitt 3.4 der oben genannten Master-Arbeit von Goran Markovic[0089]Section 3.4 of the aforementioned Master'sThesis by Goran Markovic[0089]
  • Empfehlung ”ITU-R BS.1387” der Internationalen Telekommunikations-Union[0090]Recommendation "ITU-R BS.1387" of the International Telecommunication Union[0090]
  • Abschnitt 3.4.1 der oben genannten Diplomarbeit von Goran Markovic[0091]Section 3.4.1 of the above thesis by Goran Markovic[0091]
  • Abschnitt 3.4.2 der oben genannten Masterarbeit von Goran Markovic[0093]Section 3.4.2 of the aforementioned Master Thesis by Goran Markovic[0093]
  • Abschnitt 3.4.3 der genannten Masterarbeit[0093]Section 3.4.3 of the mentioned master thesis[0093]
  • Abschnitt 3.4.4 der Masterarbeit von Goran Markovic[0093]Section 3.4.4 of the Master Thesis by Goran Markovic[0093]
  • Abschnitt 3.4.5 der oben genannten Masterarbeit von Goran Markovic[0094]Section 3.4.5 of the aforementioned Master Thesis by Goran Markovic[0094]
  • Abschnitt 3.4.6 der oben genannten Masterarbeit von Goran Markovic[0096]Section 3.4.6 of the aforementioned Master Thesis by Goran Markovic[0096]
  • Abschnitt 4.8 der oben genannten Masterarbeit von Goran Markovic[0097]Section 4.8 of the aforementioned Master Thesis by Goran Markovic[0097]
  • http://en.wikipedia.org/wiki/Radial_basis_function[0103]http://en.wikipedia.org/wiki/Radial_basis_function[0103]
  • ”Using a Radial Basis Function as Kernel” von K. K. Chin (im Internet verfügbar unter der Adresse: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html[0103]"Using a Radial Basis Function as Kernel" by KK Chin (available on the Internet at: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html[0103]
  • Empfehlung ”ITU-R BS.1116”: ”Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems”[0105]Recommendation "ITU-R BS.1116": "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems"[0105]
  • ITU-R BS.1534[0105]ITU-R BS.1534[0105]
  • http://en.wikipedia.de/wiki/MUSHRA[0105] http://en.wikipedia.org/wiki/MUSHRA[0105]
  • Masterarbeit von Goran Markovic[0109]Master thesis by Goran Markovic[0109]
  • http://en.wikipedia.org/wiki/Codec_listening_test[0109]http://en.wikipedia.org/wiki/Codec_listening_test[0109]
  • http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm[0109]http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm[0109]
  • http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar[0109]http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar[0109]
  • ”A Practical Guide to Support Vector Classification” von C.-W. Hsu und anderen (Online verfügbar unter der Internet-Adresse: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf)[0114]"A Practical Guide to Support Vector Classification" by C.-W. Hsu and others (available online at the Internet address: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf)[0114]
  • Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion[0119]Recommendation ITU-R BS.1387 of the International Telecommunication Union[0119]
  • Empfehlung ”ITU-R BS.1387-1” der internationalen Telekommunikationsunion[0122]Recommendation "ITU-R BS.1387-1" of the International Telecommunication Union[0122]
  • „Comparing Support Vector Machines with Gaussian Kernels to Radial Basis Function Classifiers” von B. Schölkopf u. a. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences; im Internet verfügbar unter der Adresse: http://www.svms.org/comparison/Scholkopfetal1996.pdf)[0148]"Comparing Support Vector Machines with Gaussian Kernel to Radial Basis Function Classifiers" by B. Schölkopf et al. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences, available on the Internet at: http://www.svms.org/comparison/Scholkopfetal1996.pdf)[0148]
  • „Support Vector Machines Versus Artificial Neuronal Networks” (im Internet veröffentlicht unter der Internet-Adresse http://www.svms.org/anns.html[0150]"Support Vector Machines Versus Artificial Neuronal Networks" (published on the internet at http://www.svms.org/anns.html[0150]
  • ”New support vector algorithms with parametric insensitive/margin model” von Pei-Yi Hao (veröffentlicht in: Neural Networks, Volume 23, Issue 1, Januar 2010, Seiten 60–73)[0152]"New support vector algorithms with parametric insensitive / margin model" by Pei-Yi Hao (published in: Neural Networks, Volume 23,Issue 1, January 2010, pages 60-73)[0152]
  • ”The performance of ν-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy” von Dazhou Zhu und anderen (veröffentlicht in: Analytica Chimica Acta, Volume 598, Issue 2, 29. August 2007, Seiten 227–234)[0152]By Dazhou Zhu and others (Published in: Analytica Chimica Acta, Volume 598,Issue 2, Aug. 29). "The performance of ν-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy" 2007, pages 227-234)[0152]
  • Master-Arbeit von Goran Markovic[0156]Master's thesis by Goran Markovic[0156]
  • Masterarbeit von Goran Markovic[0167]Master thesis by Goran Markovic[0167]
  • Empfehlung „ITU-R BS1387” der internationalen Telekommunikations-Union[0169]Recommendation "ITU-R BS1387" of the International Telecommunication Union[0169]
  • http://www.opticom.de/technology/audio-quality-testing.html[0170]http://www.opticom.de/technology/audio-quality-testing.html[0170]
  • Masterarbeit von Goran Markovic[0174]Master thesis by Goran Markovic[0174]
  • Masterarbeit von Goran Markovic[0175]Master Thesis by Goran Markovic[0175]
  • Abschnitt 3.5.2 der Dissertation ”Perceptual Audio Quality Assessment using a Non-Linear Filter Bank” von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999)[0175]Section 3.5.2 of the dissertation "Perceptual Audio Quality Assessment using a Non-Linear Filter Bank" by Thilo Thiede (Department of Electrical Engineering of the Technical University of Berlin, Berlin 1999)[0175]
  • http://en.wikipedia.org/wiki/support_vector_machine[0177]http://en.wikipedia.org/wiki/support_vector_machine[0177]
  • „Support Vector Regression Machines” von H. Drucker u. a. beschrieben (verfügbar, zum Beispiel, unter der Internetadresse ”http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf”.[0178]"Support Vector Regression Machines" by H. Drucker et al. (Available, for example, at the Internet address "http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf" .[0178]
  • „The design of VoIP systems with high preceptual conversational quality” von B. Wah und B. Sat (veröffentlich im Journal of Multimedia, Band. 4, Nr. 2, April 2009[0180]B. The Design of VoIP Systems with High Preceptual Conversational Quality by B. Wah and B. Sat (published in the Journal of Multimedia, Volume 4, No. 2, April 2009[0180]
  • „Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs” von T. Coen u. a.[0181]"Modeling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" by T. Coen et al.[0181]
  • ”Towards a Model of Perceived Quality of Blind Audio Source Separation” von B. Fox u. a. (veröffentlicht auf der 2007 IEEE International Conference on Multimedia and Expo)[0182]"Towards a Model of Perceived Quality of Blind Audio Source Separation" by B. Fox et al. (Published at the 2007 IEEE International Conference on Multimedia and Expo)[0182]
  • Master-Arbeit von Goran Markovic[0187]Master thesis by Goran Markovic[0187]
  • „Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audioquality” von P. Kabal (veröffentlicht durch das Telecommunications und Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University)[0197]"Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audio Quality" by P. Kabal (published by the Telecommunications and Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University)[0197]
  • „Perceptual Audio Quality Assessment Using a non-linear Filerbank” von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999)[0201]"Perceptual Audio Quality Assessment Using a non-linear Filerbank" by Thilo Thiede (Department of Electrical Engineering of the Technical University of Berlin, Berlin 1999)[0201]
  • Empfehlung „ITU-R BS 1386.1” der Internationalen Telekommunikations-Union[0202]Recommendation "ITU-R BS 1386.1" of the International Telecommunication Union[0202]
  • Empfehlung „ITU-R BS.1387-Empfehlung für ein Verfahren für objektive Messungen der wahrgenommenen Audioqualität”[0205]Recommendation "ITU-R BS.1387 recommendation for a method for objective measurements of the perceived audio quality"[0205]
  • http://en.wikipedia.org/wiki/PEAQ[0208]http://en.wikipedia.org/wiki/PEAQ[0208]
  • http://en.wikipedia.org/wiki/Neural_network[0209]http://en.wikipedia.org/wiki/Neural_network[0209]
  • http://en.wikipedia.org/wiki/PEAQ[0219]http://en.wikipedia.org/wiki/PEAQ[0219]
  • „Support Vector Regression Maschines” von H. Drucker und anderen[0220]"Support Vector Regression Machines" by H. Drucker and others[0220]
  • „Analysis of Methods for Objective Evaluation of Quality of Audiosignals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic[0224]Goran Markovic's "Analysis of Methods for Objective Evaluation of Quality of Audio Signal and Application in Implementation of Encoders on a Class of Digital Signal Processors"[0224]

Claims (18)

Translated fromGerman
Vorrichtung (100;200) zur Bewertung einer wahrgenommenen Audioqualität, mit folgenden Merkmalen: einem Modell-Ausgangsvariablen-Berechner (120;229,230,240,250), der ausgelegt ist, um Werte einer Mehrzahl von Modell-Ausgangsvariablen (122;232,252;510,512,514,516,518) zu berechnen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal (112;210) und einem Testsignal (110;212) beschreiben; und einer Stützvektor-Maschine (130;260;500), die ausgelegt ist, um einen Unterschieds-Bewertungs-Wert (116;216;520) basierend auf den Modell-Ausgangsvariablen und einer Mehrzahl von Stützvektormaschinen-Parametern (coef1, coef2, coefN, y1, y2, yN, ρ) bereitzustellen.Contraption ( 100 ; 200 ) for evaluating a perceived audio quality, comprising: a model output variable calculator ( 120 ; 229 . 230 . 240 . 250 ) adapted to read values of a plurality of model output variables ( 122 ; 232 . 252 ; 510 . 512 . 514 . 516 . 518 ) to calculate the differences in terms of a plurality of criteria between a reference signal ( 112 ; 210 ) and a test signal ( 110 ; 212 ) describe; and a support vector machine ( 130 ; 260 ; 500 ) which is designed to provide a difference score ( 116 ; 216 ; 520 ) Based (on the model output variables and a plurality of support vector machine parameters coef1, coef2, coefN, y1, y2, yN, provide ρ).Vorrichtung (100;200) gemäß Anspruch 1, wobei die Stützvektormaschine (130;260;500) ausgelegt ist, um den Unterschieds-Bewertungs-Wert (116;216;520) so bereitzustellen, dass der Unterschieds-Bewertungs-Wert hörbare Differenzen zwischen dem Test-Signal (110;212) und dem Referenzsignal (112;210) in der Form eines einzigen numerischen Wertes (116;216;520) darstellt.Contraption ( 100 ; 200 ) according to claim 1, wherein the support vector machine ( 130 ; 260 ; 500 ) is designed to calculate the difference score ( 116 ; 216 ; 520 ) so that the difference score value audible differences between the test signal ( 110 ; 212 ) and the reference signal ( 112 ; 210 ) in the form of a single numerical value ( 116 ; 216 ; 520 ).Vorrichtung (100;200) gemäß Anspruch 1 oder 2, wobei die Stützvektormaschine (130;260;500) ausgelegt ist, um eine gewichtete Summe einer Mehrzahl von Kern-Funktions-Werten (kernel (x, yi)) zu bilden, um den Unterschieds-Bewertungs-Wert (116;216;520) zu erhalten, wobei die Stützvektormaschine ausgelegt ist, um eine Kern-Funktion (kernel (x, yi)) in Abhängigkeit von einem Vektor (x) von Modell-Ausgangsvariablen (122;232,252;510,512,514,516,518), einem Stützvektor (yi) und zumindest einem Kern-Funktions-Parameter auszuwerten, um einen Kern-Funktions-Wert (kernel (x, yi)) zu erhalten, und um den Kern-Funktions-Wert in Abhängigkeit von einem zugehörigen Gewichtungswert (coefi) zu gewichten, um die gewichtete Summe zu erhalten.Contraption ( 100 ; 200 ) according to claim 1 or 2, wherein the support vector machine ( 130 ; 260 ; 500 ) is arranged to form a weighted sum of a plurality of kernel function values (kernel (x, yi )) to obtain the difference score ( 116 ; 216 ; 520 ), wherein the support vector machine is adapted to generate a kernel function (kernel (x, yi )) in response to a vector (x) of model output variables ( 122 ; 232 . 252 ; 510 . 512 . 514 . 516 . 518 ), a support vector (yi ) and at least one kernel function parameter to obtain a kernel function value (kernel (x, yi )) and the kernel function value in dependence on an associated one Weighting value (coefi ) to obtain the weighted sum.Vorrichtung (100;200) gemäß Anspruch 3, wobei die Stützvektormaschine (130;260;500) ausgelegt ist, um als Kern-Funktionen (kernel (x, yi)) radiale Basisfunktionen auszuwerten, die als Kern-Funktions-Wert einen Wert liefern, dessen Betrag mit zunehmendem Unterschied zwischen dem Vektor (x) von Modell-Ausgangs-Parametern und einem zugehörigen Stützvektor (yi) abnimmt und sich an Null annähert, wobei eine Geschwindigkeit eine Abnahme des Betrags des Kern-Funktions-Werts mit dem Unterschied zwischen dem Vektor (x) von Modell-Ausgangsvariablen und dem zugehörigen Stützvektor (yi) durch einen der Kern-Funktionen zugeordneten Kern-Funktions-Parameter (σ) bestimmt wird.Contraption ( 100 ; 200 ) according to claim 3, wherein the support vector machine ( 130 ; 260 ; 500 ) is designed to evaluate, as kernel functions (kernel (x, yi )), radial basis functions which provide a value as kernel function value, the magnitude of which with increasing difference between the vector (x) of model output parameters and an associated support vector (yi ) decreases and approaches zero, wherein a velocity decreases the magnitude of the kernel function value with the difference between the vector (x) of model output variables and the associated support vector (yi ) one of the core functions associated core function parameter (σ) is determined.Vorrichtung (100;200) gemäß einem der Ansprüche 1 bis 4, wobei der Modell-Ausgangsvariablen-Berechner (120;229,230,240,250) ausgelegt ist, um als Modell-Ausgangsvariablen (122;232,252;510,512,514,516,518) zumindest zwei der folgenden Werte bereitzustellen: Modulationsabweichungswert, gefensterter Modulationsabweichungswert (WinModDiff1B), gemittelter Modulationsabweichungswert (AvgModDiff1B, AvgModDiff2B), Effektivwert des Modulationsabweichungswertes (RmsModDiffA), Störlautheitswert, Effektivwert des Störlautheitswertes (RmsNoiseLoudA, RmsNoiseLoudB), Effektivwert oder Lautheit fehlender Komponenten (RmsMissingComponentsA), Wert oder Effektivwert der asymmetrischen Störlautheit (NoiseLoudAsym, RmsNoiseLoudAsymA), Mittelwert der linearen Verzerrungen (AvgLinDistA), Bandbreitenwert des Referenzsignals (BandwidthRefB), Bandbreitenwert des Testsignals (BandwidthTestB), Gesamtes Verhältnis von Störungen zu Maskierungsschwelle (TotalNMRB), Relativer Anteil von gestörten Rahmen (RelDistFramesB), Segmentweises Verhältnis von Störungen zu Maskierungsschwelle (SegmentalNMRB), maximale gefilterte Detektionswahrscheinlichkeit (MFPDB), Mittlerer-verzerrter-Block-Wert (ADBB), Fehlersignal-zu-Verdeckungsschwelle-Verhältniswert (SNMRB), Harmonische-Fehlerstruktur-Wert (EHS, EHSB), Abstandswert des Zwischen-Ohr-Zeit-Unterschieds (ITDDist), Abstandswert des Zwischen-Ohr-Pegel-Unterschieds (ILDDist), Abstandswert des Zwischen-Ohr-Kreuzkorrelations-Koeffizienten (IACCDist).Contraption ( 100 ; 200 ) according to one of claims 1 to 4, wherein the model output variable calculator ( 120 ; 229 . 230 . 240 . 250 ) is designed to be used as a model output variable ( 122 ; 232 . 252 ; 510 . 512 . 514 . 516 . 518 ) To provide at least two of the following: modulation deviation value, windowed modulation deviation value (WinModDiff1B), average modulation deviation value (AvgModDiff1B, AvgModDiff2B), effective value of the modulation deviation value (RmsModDiffA), Störlautheitswert, effective value of the Störlautheitswertes (RmsNoiseLoudA, RmsNoiseLoudB), effective value or Loudness of missing components (RmsMissingComponentsA ), value or rms value of asymmetric noise (NoiseLoudAsym, RmsNoiseLoudAsymA ), average of linear distortions (AvgLinDistA ), bandwidth value of the reference signal (BandwidthRefB ), bandwidth value of the test signal (BandwidthTestB ), total ratio of noise to masking threshold (TotalNMRB) relative amount of disturbed frame (RelDistFramesB), segment-wise ratio of interference to masking threshold (SegmentalNMRB), maximum filtered detection probability (MFPDB), Middle-distorted-Bl ock value (ADBB ), error signal to masking threshold ratio value (SNMRB ), harmonic error structure value (EHS, EHSB ), distance value of the inter-ear time difference (ITDDist), distance value of the inter-ear Level Difference (ILDDist), Distance Value of Inter-Ear Cross-correlation Coefficient (IACCDist).Vorrichtung (100;200) gemäß einem der Ansprüche 1 bis 5, wobei die Vorrichtung (100;200) zur Bewertung einer wahrgenommenen Audioqualität einen Parameter-Einsteller (140) umfasst, der ausgelegt ist, um Parameter (coefi, yi, σ, ρ) der Stützvektormaschine basierend auf Trainings-Audiosignalen (142) und zugehörigen Ziel-Unterschieds-Bewertungs-Werten (144) zu bestimmen.Contraption ( 100 ; 200 ) according to one of claims 1 to 5, wherein the device ( 100 ; 200 ) for evaluating a perceived audio quality, a parameter adjuster ( 140 ) configured to generate parameters (coefi , yi , σ, ρ) of the support vector machine based on training audio signals ( 142 ) and associated target difference score values ( 144 ).Vorrichtung (100;200) gemäß Anspruch 6, wobei der Parameter-Einsteller ausgelegt ist, um Stütz-Vektoren (yi), Gewichtungs-Koeffizienten (coefi) und einen Offset-Wert (ρ) basierend auf den Trainings-Audiosignalen (142) und den zugehörigen Ziel-Unterschieds-Bewertungs-Werten (144) zu bestimmen.Contraption ( 100 ; 200 ) according to claim 6, wherein the parameter adjuster is adapted to generate support vectors (yi ), weighting coefficients (coefi ) and an offset value (ρ) based on the training audio signals ( 142 ) and the associated target difference evaluation values ( 144 ).Vorrichtung gemäß Anspruch 6 oder 7, wobei der Parameter-Einsteller ausgelegt ist, um die Parameter (coefi, yi, σ, ρ) der Stützvektormaschine unter Verwendung von Modell-Ausgangsvariablen, die auf den Trainings-Audiosignalen (142) basieren, und zugehörigen Ziel-Unterschieds-Bewertungs-Werten (144) zu bestimmen. Apparatus according to claim 6 or 7, wherein the parameter adjuster is adapted to calculate the parameters (coefi , yi , σ, ρ) of the support vector machine using model output variables present on the training audio signals ( 142 ) and associated target difference scores ( 144 ).Vorrichtung (100;200) gemäß Anspruch 6 oder 7 oder 8, wobei der Parameter-Einsteller (140) ausgelegt ist, um in einem ersten Parameter-Einstellungs-Schritt einen Fehler-Gewichtungs-Parameter (C, γ) zu bestimmen, und um in einem zweiten Parameter-Einstellungs-Schritt die Stütz-Vektoren (yi), die Gewichtungs-Koeffizienten (coefi) und den Offset-Wert (ρ) unter Verwendung des Fehler-Gewichtungs-Parameters (C, γ) zu bestimmen, wobei der Parameter-Einsteller ausgelegt ist, um für eine Mehrzahl von Fehler-Gewichtungs-Parametern (C, γ) Kreuz-Validierungswerte zu erhalten und die Fehler-Gewichtungs-Parameter (C, γ) in Abhängigkeit von den Kreuz-Validierungswerten zu bestimmen.Contraption ( 100 ; 200 ) according to claim 6 or 7 or 8, wherein the parameter adjuster ( 140 ) is adapted to determine an error weighting parameter (C, γ) in a first parameter setting step, and in a second parameter setting step, the supporting vectors (yi ), the weighting coefficients (coefi ) and the offset value (ρ) using the error weighting parameter (C, γ), the parameter adjuster being arranged to determine a plurality of error weighting parameters (C, γ ) Obtain cross validation values and determine the error weighting parameters (C, γ) in dependence on the cross validation values.Vorrichtung gemäß einem der Ansprüche 1 bis 9, wobei der Parameter-Einsteller (140) ausgelegt ist, um eine Such-Prozedur durchzuführen, um einen Fehler-Gewichtungs-Parameter (C) und einen Kern-Funktions-Abnahme-Parameter (γ) der radialen Basisfunktionen zu bestimmen, wobei der Kern-Funktions-Abnahme-Parameter (γ) eine Geschwindigkeit einer Abnahme eines Betrags des Kern-Funktions-Werts mit zunehmendem Unterschied zwischen dem Vektor (x) von Modell-Ausgangsvariablen und dem zugehörigen Stützvektor (yi) beschreibt; und wobei der Parameter-Einsteller ausgelegt ist, um eine Trainings-Prozedur unter Verwendung der in der Such-Prozedur bestimmten Parameter (C, γ) durchzuführen, um Stützvektormaschinen-Parameter (coef1, coef2, coefN, y1, y2, yN) zu erhalten; wobei der Parameter-Einsteller ausgelegt ist, um eine exponentielle Gitter-Suche im Hinblick auf den Fehler-Gewichtungs-Parameter (C) und den Kern-Funktions-Abnahme-Parameter (γ) unter Verwendung einer Kreuz-Validierung durchzuführen, wobei der Parameter-Einsteller ausgelegt ist, um unter Verwendung exponentiell anwachsender Sequenzen Paare des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameters (γ) auszuprobieren und dasjenige Paar mit einer besten Kreuz-Validierungs-Genauigkeit auszuwählen, und um eine zusätzliche lineare Suche nach verbesserten Werten des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameters (γ) in einer Umgebung von Werten des in der exponentiellen Gittersuche ausgewählten Paares von Werten (C, γ) durchzuführen.Device according to one of claims 1 to 9, wherein the parameter adjuster ( 140 ) is adapted to perform a search procedure to determine an error weighting parameter (C) and a kernel function decrease parameter (γ) of the radial basis functions, the kernel function decrease parameter (γ ) describes a rate of decrease of an amount of the kernel function value with increasing difference between the vector (x) of model output variables and the associated support vector (yi ); and wherein the parameter adjuster is arranged to perform a training procedure using the parameters (C, γ) determined in the search procedure to generate support vector machine parameters (coef1 , coef2 , coefN , y1 , y2 to obtain, yN ); wherein the parameter adjuster is arranged to perform an exponential lattice search with respect to the error weighting parameter (C) and the kernel function decrease parameter (γ) using cross-validation, wherein the parameter Adjuster is adapted to try pairs of the error weighting parameter (C) and the kernel function decrease parameter (γ) using exponentially increasing sequences and to select the pair with a best cross validation accuracy, and an additional one linear search for improved values of the error weighting parameter (C) and the kernel function decrease parameter (γ) in an environment of values of the pair of values (C, γ) selected in the exponential grid search.Vorrichtung gemäß einem der Ansprüche 1 bis 9, wobei der Parameter-Einsteller (140) ausgelegt ist, um einen Fehler-Gewichtungs-Parameter (C) und einen Kern-Funktions-Abnahme-Parameter (γ) der radialen Basisfunktionen zu bestimmen, wobei der Kern-Funktions-Abnahme-Parameter (γ) eine Geschwindigkeit einer Abnahme eines Betrags des Kern-Funktions-Werts mit zunehmendem Unterschied zwischen dem Vektor (x) von Modell-Ausgangsvariablen und dem zugehörigen Stützvektor (yi) beschreibt; und wobei der Parameter-Einsteller ausgelegt ist, um eine exponentielle Gitter-Suche im Hinblick auf den Fehler-Gewichtungs-Parameter (C) und den Kern-Funktions-Abnahme-Parameter (γ) durchzuführen, wobei der Parameter-Einsteller ausgelegt ist, um unter Verwendung exponentiell anwachsender Sequenzen Paare des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameters (γ) als aktuelle Fehler-Gewichtungs-Parameter (C) und als aktuellen Kern-Funktions-Abnahme-Parameter (γ) für eine Durchführung einer Stützvektor-Maschinen-Trainings-Prozedur auszuwählen; wobei der Parameter-Einsteller ausgelegt ist, um eine Stützvektor-Maschinen-Trainings-Prozedur unter Verwendung des jeweils aktuellen Fehler-Gewichtungs-Parameters (C) und des jeweils aktuellen Kern-Funktions-Abnahme-Parameter (γ) mehrmals, mit jeweils unterschiedlichen Paaren des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameter (γ), durchzuführen, und um anschließend an die Durchführungen der Stützvektor-Maschinen-Trainings-Prozedur einen jeweiligen Test durchzuführen, um ein Maß für eine Genauigkeit der durch die jeweilige Durchführung der Stützvektor-Maschinen-Trainings-Prozedur erhaltenen Stützvektormaschinen-Parameter zu bestimmen, und um dasjenige Paar eines Fehler-Gewichtungs-Parameters (C) und eines Kern-Funktions-Abnahme-Parameter (γ) für eine weitere Verwendung auszuwählen, das in einem besten Maß der Genauigkeit der durch die jeweilige Durchführung der Stützvektor-Maschinen-Trainings-Prozedur erhaltenen Stützvektormaschinen-Parameter resultiert.Device according to one of claims 1 to 9, wherein the parameter adjuster ( 140 ) is adapted to determine an error weighting parameter (C) and a core function decrease parameter (γ) of the radial basis functions, wherein the core function decrease parameter (γ) is a speed of decreasing an amount the kernel function value with increasing difference between the vector (x) of model output variables and the associated support vector (yi ); and wherein the parameter adjuster is arranged to perform an exponential grid search with respect to the error weighting parameter (C) and the kernel function decrease parameter (γ), wherein the parameter adjuster is configured to using exponentially increasing sequences pairs of the error weighting parameter (C) and the kernel function decrease parameter (γ) as current error weighting parameters (C) and as actual core function decrease parameter (γ) for performing a support vector machine training procedure; wherein the parameter adjuster is adapted to generate a support vector machine training procedure a plurality of times, each time using the respective current error weighting parameter (C) and the respective current core function decrease parameter (γ), each with different pairs of the error weighting parameter (C) and the kernel function decrease parameter (γ), and then to perform a respective test on the implementations of the support vector machine training procedure to provide a measure of the accuracy of the determine support vector machine parameters obtained by the respective execution of the support vector machine training procedure, and to select the pair of an error weighting parameter (C) and a core function decrease parameter (γ) for further use, to the best of the accuracy of the support vector machine parameter obtained by the respective execution of the support vector machine training procedure results.Vorrichtung (100;200) gemäß Anspruch 9 oder 10 oder 11, wobei der Parameter-Einsteller (140) ausgelegt ist, um ein Maß für Unterschiede zwischen von der Stützvektormaschine (130) gelieferten Unterschieds-Bewertungs-Werten (116) und Ziel-Unterschieds-Bewertungs-Werten (144) in Abhängigkeit von einem Verhältnis zwischen einer Differenz eines von der Stützvektormaschine gelieferten Unterschieds-Bewertungs-Werts (116, ODGi) und eines Ziel-Unterschieds-Bewertungs-Werts (144, SDGi) und einer Breite (IPi) eines Vertrauensintervalls, das dem Ziel-Unterschieds-Bewertungs-Wert (144, SDGi) zugeordnet ist, zu bestimmen, wobei der Parameter-Einsteller ausgelegt ist, um eine untere Grenze für die Breite des Vertrauensintervalls zu verwenden.Contraption ( 100 ; 200 ) according to claim 9 or 10 or 11, wherein the parameter adjuster ( 140 ) is designed to provide a measure of differences between the support vector machine ( 130 ) provided Valuation Values ( 116 ) and target difference score values ( 144 ) depending on a ratio between a difference of a difference evaluation value provided by the support vector machine ( 116 , ODGi ) and a target difference score value ( 144 , SDGi ) and a width (IPi ) of a confidence interval corresponding to the target difference score ( 144 SDGi ), the parameter adjuster being designed to use a lower limit for the width of the confidence interval.Vorrichtung (100;200) gemäß einem der Ansprüche 1 bis 12, wobei die Vorrichtung ausgelegt ist, um die Modell-Ausgangsvariablen (122;232,252;510,512,514,516,518) wertemäßig zu begrenzen und zu skalieren, um eine wertmäßig begrenzte und skalierte Version der Modell-Ausgangsvariablen als Eingangsinformation für die Stützvektormaschine (130;260;500) zu erhalten.Contraption ( 100 ; 200 ) according to one of claims 1 to 12, wherein the device is designed to determine the model output variables ( 122 ; 232 . 252 ; 510 . 512 . 514 . 516 . 518 ) to limit and scale by value limited and scaled version of the model output variables as input information for the support vector machine ( 130 ; 260 ; 500 ) to obtain.Vorrichtung (100;200) gemäß einem der Ansprüche 1 bis 13, wobei der Modell-Ausgangsvariablen-Berechner (120;229,230,240,250) ausgelegt ist, um zumindest eine Modell-Ausgangsvariable (RmsNoiseLoudA) zu berechnen, deren Wert eine Differenz zwischen einer internen Darstellung (334) des Referenzsignals (112;210) und einer internen Darstellung (334) des Testsignals (110;212) beschreibt, und wobei die Stützvektormaschine (130;260;500) ausgelegt ist, um die Modell-Ausgangsvariable, deren Wert die Differenz zwischen der internen Darstellung des Referenzsignals und der internen Darstellung des Testsignals beschreibt, als Eingangsinformation zu verwenden.Contraption ( 100 ; 200 ) according to one of claims 1 to 13, wherein the model output variable calculator ( 120 ; 229 . 230 . 240 . 250 ) is designed to calculate at least one model output variable (RmsNoiseLoudA ) whose value is a difference between an internal representation ( 334 ) of the reference signal ( 112 ; 210 ) and an internal representation ( 334 ) of the test signal ( 110 ; 212 ) and wherein the support vector machine ( 130 ; 260 ; 500 ) is adapted to use as input information the model output variable whose value describes the difference between the internal representation of the reference signal and the internal representation of the test signal.Vorrichtung (100;200) gemäß einem der Ansprüche 1 bis 14, wobei der Modell-Ausgangsvariablen-Berechner (120;229,230,240,250) ausgelegt ist, um zumindest eine Modell-Ausgangsvariable (SNMRB) zu berechnen, deren Wert einen Verdeckungsschwellwert, der sich basierend auf einem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt, oder deren Wert von dem Verdeckungsschwellwert abhängig ist, und wobei die Stützvektormaschine (130;260;500) ausgelegt ist, um die Modell-Ausgangsvariable, deren Wert den Verdeckungsschwellwert, der sich basierend auf dem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt, oder deren Wert von dem Verdeckungsschwellwert abhängig ist, als Eingangsinformation zu verwenden.Contraption ( 100 ; 200 ) according to one of claims 1 to 14, wherein the model output variable calculator ( 120 ; 229 . 230 . 240 . 250 ) is configured to calculate at least one model output variable (SNMRB ) whose value describes a masking threshold that results based on a difference signal between the test signal and the reference signal, or whose value depends on the masking threshold, and wherein the Support vector machine ( 130 ; 260 ; 500 ) is adapted to use the model output variable whose value describes the masking threshold resulting from the difference signal between the test signal and the reference signal, or whose value depends on the masking threshold, as input information.Vorrichtung (100;200) gemäß einem der Ansprüche 1 bis 15, wobei der Modell-Ausgangsvariablen-Berechner (120;229,230,240,250) ausgelegt ist, um zumindest eine Modell-Ausgangsvariable (EHS) zu berechnen, deren Wert einen Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt, oder deren Wert eine harmonische Struktur des Unterschieds zwischen dem Testsignal und dem Referenzsignal beschreibt, oder deren Wert eine harmonische Fehlerstruktur beschreibt, und wobei die Stützvektormaschine (130;260;500) ausgelegt ist, um die Modell-Ausgangsvariable, deren Wert den Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt, oder deren Wert eine harmonische Struktur des Unterschieds zwischen dem Testsignal und dem Referenzsignal beschreibt, oder deren Wert eine harmonische Fehlerstruktur beschreibt, als Eingangsinformation zu verwenden.Contraption ( 100 ; 200 ) according to one of claims 1 to 15, wherein the model output variable calculator ( 120 ; 229 . 230 . 240 . 250 ) is designed to calculate at least one model output variable (EHS) whose value describes a difference between the harmonic structure of the test signal and the reference signal, or whose value describes a harmonic structure of the difference between the test signal and the reference signal, or their value describes a harmonic error structure, and wherein the support vector machine ( 130 ; 260 ; 500 ) is designed to describe the model output variable whose value describes the difference between the harmonic structure of the test signal and the reference signal, or whose value describes a harmonic structure of the difference between the test signal and the reference signal, or whose value describes a harmonic error structure Input information to use.Verfahren zur Bewertung einer wahrgenommenen Audioqualität, mit folgenden Schritten: Berechnen einer Mehrzahl von Modell-Ausgangsvariablen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal und einem Testsignal beschreiben; und Bereitstellen eines Unterschieds-Bewertungs-Werts unter Verwendung einer Stützvektormaschine basierend auf den Modell-Ausgangsvariablen und einer Mehrzahl von Stützvektormaschinen-Parametern.Method for evaluating a perceived audio quality, comprising the following steps:Calculating a plurality of model output variables describing differences in a plurality of criteria between a reference signal and a test signal; andProviding a difference evaluation value using a support vector machine based on the model output variables and a plurality of support vector machine parameters.Computerprogramm zur Durchführung des Verfahrens gemäß Anspruch 17, wenn das Computerprogramm auf einem Computer ausgeführt wird.Computer program for carrying out the method according to claim 17, when the computer program is executed on a computer.
DE102011084035A2011-10-052011-10-05Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signalsCeasedDE102011084035A1 (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
DE102011084035ADE102011084035A1 (en)2011-10-052011-10-05Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
DE102011084035ADE102011084035A1 (en)2011-10-052011-10-05Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals

Publications (1)

Publication NumberPublication Date
DE102011084035A1true DE102011084035A1 (en)2013-04-11

Family

ID=47908667

Family Applications (1)

Application NumberTitlePriority DateFiling Date
DE102011084035ACeasedDE102011084035A1 (en)2011-10-052011-10-05Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals

Country Status (1)

CountryLink
DE (1)DE102011084035A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN113574597A (en)*2018-12-212021-10-29弗劳恩霍夫应用研究促进协会Apparatus and method for source separation using estimation and control of sound quality
CN113705213A (en)*2021-03-012021-11-26腾讯科技(深圳)有限公司Wrongly written character recognition method, device, equipment and readable storage medium
CN114694678A (en)*2022-03-312022-07-01腾讯音乐娱乐科技(深圳)有限公司Sound quality detection model training method, sound quality detection method, electronic device, and medium
CN115683171A (en)*2023-01-052023-02-03国家海洋技术中心Anchorage type wave buoy performance testing method, system and storage medium

Non-Patent Citations (58)

* Cited by examiner, † Cited by third party
Title
"A Practical Guide to Support Vector Classification" von C.-W. Hsu und anderen (Online verfügbar unter der Internet-Adresse: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf)
"Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" von Goran Markovic (Masterarbeit an der Universität von Novi Sad, Fakultät für technische Wissenschaften, Serbien, Juli 2006)
"Analysis of Methods for Objective Evaluation of Quality of Audiosignals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" von Goran Markovic
"Comparing Support Vector Machines with Gaussian Kernels to Radial Basis Function Classifiers" von B. Schölkopf u. a. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences; im Internet verfügbar unter der Adresse: http://www.svms.org/comparison/Scholkopfetal1996.pdf)
"Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audioquality" von P. Kabal (veröffentlicht durch das Telecommunications und Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University)
"http://www.opticom.de/technology/audio-quality-testing.html
"Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" von T. Coen u. a.
"New support vector algorithms with parametric insensitive/margin model" von Pei-Yi Hao (veröffentlicht in: Neural Networks, Volume 23, Issue 1, Januar 2010, Seiten 60-73)
"Perceptual Audio Quality Assessment Using a non-linear Filerbank" von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999)
"Support Vector Machines Versus Artificial Neuronal Networks" (im Internet veröffentlicht unter der Internet-Adresse http://www.svms.org/anns.html
"Support Vector Regression Machines" von H. Drucker u. a. beschrieben (verfügbar, zum Beispiel, unter der Internetadresse "http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf".
"Support Vector Regression Maschines" von H. Drucker und anderen
"The Design of VoIP Systems with high perceptual conversional Quality" von B. W. Wah und B. Sat (Academy Publisher, Journal of Multimedia, Vol. 4, No. 2, April 2009)
"The design of VoIP systems with high preceptual conversational quality" von B. Wah und B. Sat (veröffentlich im Journal of Multimedia, Band. 4, Nr. 2, April 2009
"The performance of nu-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy" von Dazhou Zhu und anderen (veröffentlicht in: Analytica Chimica Acta, Volume 598, Issue 2, 29. August 2007, Seiten 227-234)
"Towards a Model of Perceived Quality of Blind Audio Source Separation" von B. Fox u. a. (veröffentlicht auf der 2007 IEEE International Conference on Multimedia and Expo)
"Using a Radial Basis Function as Kernel" von K. K. Chin (im Internet verfügbar unter der Adresse: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html
Absatz 3.1.3 der Master-Arbeit von Goran Markovic
Abschnitt 3 der Master-Arbeit "Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" von Goran Markovic (Universität von Novi Sad, Fakultät für technische Wissenschaften, Novi Sad, Juli 2006)
Abschnitt 3.1. der oben genannten Master-Arbeit von Goran Markovic
Abschnitt 3.2 der Master-Arbeit von Goran Markovic
Abschnitt 3.3 der genannten Master-Arbeit von Goran Markovic
Abschnitt 3.4 der oben genannten Master-Arbeit von Goran Markovic
Abschnitt 3.4.1 der oben genannten Diplomarbeit von Goran Markovic
Abschnitt 3.4.2 der oben genannten Masterarbeit von Goran Markovic
Abschnitt 3.4.3 der genannten Masterarbeit
Abschnitt 3.4.4 der Masterarbeit von Goran Markovic
Abschnitt 3.4.5 der oben genannten Masterarbeit von Goran Markovic
Abschnitt 3.4.6 der oben genannten Masterarbeit von Goran Markovic
Abschnitt 3.5.2 der Dissertation "Perceptual Audio Quality Assessment using a Non-Linear Filter Bank" von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999)
Abschnitt 4.8 der oben genannten Masterarbeit von Goran Markovic
Abschnitte 3.3, 3.4 und 4.8 der oben genannten Master-Arbeit von Goran Markovic
Empfehlung "ITU-R BS 1386.1" der Internationalen Telekommunikations-Union
Empfehlung "ITU-R BS.1116": "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems"
Empfehlung "ITU-R BS.1387" der Internationalen Telekommunikations-Union
Empfehlung "ITU-R BS.1387-1" der internationalen Telekommunikationsunion
Empfehlung "ITU-R BS.1387-Empfehlung für ein Verfahren für objektive Messungen der wahrgenommenen Audioqualität"
Empfehlung "ITU-R BS1387" der internationalen Telekommunikations-Union
Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion (ITU)
http://en.wikipedia.de/wiki/MUSHRA
http://en.wikipedia.org/wiki/Codec_listening_test
http://en.wikipedia.org/wiki/Neural_network
http://en.wikipedia.org/wiki/PEAQ
http://en.wikipedia.org/wiki/Radial_basis_function
http://en.wikipedia.org/wiki/support_vector_machine
http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar
http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm
http://www.opticom.de/technology/audio-quality-testing.html
ITU-R BS.1534
Juan LUO, Shenghui ZHAO, Jingming KUANG: Non-intrusive objective speech quality measurement based on GMM and SVR for narrowband and wideband speech, In: Communication Systems ICCS 2008, S. 193-198, DOI: 10.1109/ICCS.2008.4737170*
Kapitel 3 und 4. Kapitel 4.8 der genannten Master-Arbeit von Goran Markovic
Kapitel 4.1 der Masterarbeit von Goran Markovic
Masterarbeit von Goran Markovic
Master-Arbeit von Goran Markovic
Master-Arbeit von Goran Markovic beschrieben, und zwar insbesondere in den Abschnitten 3.3., 3.4. und 4.8
Seite 57 in der Veröffentlichung "ITU-R BS.1387-1" der Internationalen Telekommunikationsunion
Seite 7 der Veröffentlichung "Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems" von I. Choi (veröffentlicht in: JAES, Volume 56 Issue 1/2 Seiten 3-17; Januar 2008)
Tiago H. FALK, Wai-Yip CHAN: Single-Ended Speech Quality Measurement Using Machine Learning Methods, 2006, In: Audio, Speech, and Language Processing, Vol. 14 (6) 1935-1947, DOI: 10.1109/TASL.2006.883253*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN113574597A (en)*2018-12-212021-10-29弗劳恩霍夫应用研究促进协会Apparatus and method for source separation using estimation and control of sound quality
CN113574597B (en)*2018-12-212024-04-12弗劳恩霍夫应用研究促进协会 Apparatus and method for source separation using estimation and control of sound quality
CN113705213A (en)*2021-03-012021-11-26腾讯科技(深圳)有限公司Wrongly written character recognition method, device, equipment and readable storage medium
CN114694678A (en)*2022-03-312022-07-01腾讯音乐娱乐科技(深圳)有限公司Sound quality detection model training method, sound quality detection method, electronic device, and medium
CN115683171A (en)*2023-01-052023-02-03国家海洋技术中心Anchorage type wave buoy performance testing method, system and storage medium

Similar Documents

PublicationPublication DateTitle
DE602005000539T2 (en) Gain-controlled noise cancellation
DE60104091T2 (en) Method and device for improving speech in a noisy environment
DE69520067T2 (en) Method and device for identifying an input signal
DE10017646A1 (en) Noise suppression in the time domain
DE69626115T2 (en) SIGNAL QUALITY ASSESSMENT
DE102012107952A1 (en) Noise reduction for dual-microphone communication devices
DE112016006218T5 (en) Acoustic signal enhancement
EP3520441B1 (en)Active suppression of the occlusion effect in hearing aids
DE69901894T2 (en) METHOD AND DEVICE FOR OBJECTIVE QUALITY MEASUREMENT OF AUDIO SIGNALS
DE10041512A1 (en) Method and device for artificially expanding the bandwidth of speech signals
DE60205232T2 (en) METHOD AND DEVICE FOR DETERMINING THE QUALITY OF A LANGUAGE SIGNAL
DE19647399C1 (en) Hearing-appropriate quality assessment of audio test signals
DE102007048973A1 (en) Apparatus and method for generating a multi-channel signal with voice signal processing
DE102006027673A1 (en) Signal isolator, method for determining output signals based on microphone signals and computer program
DE60308336T2 (en) METHOD AND SYSTEM FOR MEASURING THE TRANSMISSION QUALITY OF A SYSTEM
EP1896123B1 (en)System, method and computer program for analysing an audio signal
DE102008031150B3 (en) Method for noise suppression and associated hearing aid
DE102016003133A1 (en) Method for automatically determining an individual function of a DPOAE level map of a human or animal hearing
DE102010026381A1 (en) Method for locating an audio source and multichannel hearing system
DE102015221764A1 (en) Method for adjusting microphone sensitivities
DE102011084035A1 (en)Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals
DE102015207706B3 (en) Method for frequency-dependent noise suppression of an input signal
DE60024403T2 (en) PROCESS FOR EXTRACTION OF SOUND SOURCE INFORMATION
EP0772764B1 (en)Process and device for determining the tonality of an audio signal
DE10313331A1 (en) Method for determining the direction of incidence of a signal from an acoustic signal source and device for carrying out the method

Legal Events

DateCodeTitleDescription
R012Request for examination validly filed
R002Refusal decision in examination/registration proceedings
R003Refusal decision now final

Effective date:20130601


[8]ページ先頭

©2009-2025 Movatter.jp