Movatterモバイル変換


[0]ホーム

URL:


DE102024101578A1 - Detecting an emergency vehicle in a motor vehicle environment - Google Patents

Detecting an emergency vehicle in a motor vehicle environment

Info

Publication number
DE102024101578A1
DE102024101578A1DE102024101578.0ADE102024101578ADE102024101578A1DE 102024101578 A1DE102024101578 A1DE 102024101578A1DE 102024101578 ADE102024101578 ADE 102024101578ADE 102024101578 A1DE102024101578 A1DE 102024101578A1
Authority
DE
Germany
Prior art keywords
training
computer
feature map
vehicle
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102024101578.0A
Other languages
German (de)
Inventor
Suganthi Srinivasan
Rakesh Rajegowda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Connaught Electronics Ltd
Original Assignee
Connaught Electronics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Connaught Electronics LtdfiledCriticalConnaught Electronics Ltd
Priority to DE102024101578.0ApriorityCriticalpatent/DE102024101578A1/en
Publication of DE102024101578A1publicationCriticalpatent/DE102024101578A1/en
Pendinglegal-statusCriticalCurrent

Links

Classifications

Landscapes

Abstract

Translated fromGerman

Zum Detektieren eines Rettungsfahrzeugs wird ein Wärmebild (7) von einer Wärmekamera (3) empfangen und das Wärmebild (7) wird vorverarbeitet. Audio-Datensätze (10) werden von zwei Mikrophonen (4) empfangen, welche an unterschiedlichen Positionen montiert sind, und jeweilige Spektrogramme (23) für die Audio-Datensätze (10) erzeugt werden. Eine erste Merkmalskarte (24) wird erzeugt, wobei das Erzeugen der ersten Merkmalskarte (24) ein Anwenden eines ersten CNN-Moduls (9) auf das vorverarbeitete Wärmebild (7) beinhaltet. Eine zweite Merkmalskarte (25) wird erzeugt, wobei das Erzeugen der zweiten Merkmalskarte (25) ein Anwenden eines zweiten CNN-Moduls (12) auf die Spektrogramme (23) beinhaltet. Die erste Merkmalskarte (24) und die zweite Merkmalskarte (25) werden fusioniert. Abhängig von den fusionierten Merkmalen wird eine Position des Rettungsfahrzeugs unter Verwendung eines Decodermoduls (17) bestimmt.
To detect an emergency vehicle, a thermal image (7) is received by a thermal camera (3), and the thermal image (7) is preprocessed. Audio data sets (10) are received by two microphones (4) mounted at different positions, and respective spectrograms (23) are generated for the audio data sets (10). A first feature map (24) is generated, wherein generating the first feature map (24) includes applying a first CNN module (9) to the preprocessed thermal image (7). A second feature map (25) is generated, wherein generating the second feature map (25) includes applying a second CNN module (12) to the spectrograms (23). The first feature map (24) and the second feature map (25) are fused. Depending on the fused features, a position of the rescue vehicle is determined using a decoder module (17).

Description

Translated fromGerman

Die vorliegende Erfindung ist auf ein computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs (englisch: emergency vehicle) in einer Umgebung eines Kraftfahrzeugs und auf ein entsprechendes computerimplementiertes Trainingsverfahren zum Trainieren eines künstlichen neuronalen Netzwerks, ANN (englisch: artificial neural network), zum Ausführen eines derartigen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs gerichtet. Die Erfindung ist des Weiteren auf ein entsprechendes Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs gerichtet, wobei ein derartiges computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs durchgeführt wird. Die Erfindung ist auch auf ein entsprechendes Datenverarbeitungsgerät gerichtet, welches zumindest eine Recheneinheit aufweist, und auf ein elektronisches Fahrzeugführungssystem, welches ein derartiges Datenverarbeitungsgerät aufweist. Die Erfindung ist des Weiteren auf ein entsprechendes Computerprogrammprodukt gerichtet.The present invention is directed to a computer-implemented method for detecting an emergency vehicle in the environment of a motor vehicle and to a corresponding computer-implemented training method for training an artificial neural network (ANN) to execute such a computer-implemented method for detecting an emergency vehicle. The invention is further directed to a corresponding method for at least partially automatically driving a motor vehicle, wherein such a computer-implemented method for detecting an emergency vehicle is carried out. The invention is also directed to a corresponding data processing device having at least one computing unit, and to an electronic vehicle guidance system having such a data processing device. The invention is further directed to a corresponding computer program product.

Im Zusammenhang von Fahrerassistenzfunktionen oder anderen Funktionen zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs kann das zuverlässige automatische Verfolgen von Rettungsfahrzeugen, zum Beispiel Polizeifahrzeugen, Feuerwehrfahrzeugen oder Ambulanzfahrzeugen, aus Sicherheitsgründen und auch, um einen Weg für das Rettungsfahrzeug freizumachen, wichtig sein.In the context of driver assistance functions or other functions for at least partially automatically driving a motor vehicle, the reliable automatic tracking of emergency vehicles, for example police vehicles, fire engines or ambulances, can be important for safety reasons and also to clear a path for the emergency vehicle.

Das DokumentUS 2021/003414914 A1 beschreibt ein Verfahren zum Detektieren eines Rettungsfahrzeugs, wobei eine Vielzahl von Bildern, die aus einer Perspektive eines autonomen Fahrzeugs aufgenommen wurden, empfangen wird. Eines oder mehrere Gates werden in den Bildern erzeugt, wobei jedes Gate einem Bereich von Interesse in einer jeweiligen Entfernung von dem Fahrzeug entspricht. Dann werden Lichter innerhalb der Gates detektiert und Kandidaten für ein Rettungsfahrzeug werden basierend auf den detektierten Lichtern identifiziert.The document US 2021/003414914 A1 describes a method for detecting an emergency vehicle, wherein a plurality of images captured from the perspective of an autonomous vehicle are received. One or more gates are created in the images, each gate corresponding to a region of interest at a respective distance from the vehicle. Lights within the gates are then detected, and candidates for an emergency vehicle are identified based on the detected lights.

Darknet-19 ist ein Merkmalsextraktor für Bilder, der in der VeröffentlichungJ. Redmon et. al.: „YOLO9000: Better, Faster, Stronger“ (arXiv:1612.08242v1) beschrieben ist.Darknet-19 is a feature extractor for images, which is described in the publication J. Redmon et. al.: “YOLO9000: Better, Faster, Stronger” (arXiv:1612.08242v1 ) is described.

Bekannte Objekterkennungsalgorithmen können in Szenarios mit schwacher Beleuchtung, insbesondere bei Nacht, oder bei widrigen Wetterverhältnissen eine geringe Zuverlässigkeit haben.Known object detection algorithms can have low reliability in low-light scenarios, especially at night, or in adverse weather conditions.

Es ist ein Ziel der vorliegenden Erfindung, Rettungsfahrzeuge mit gesteigerter Zuverlässigkeit, insbesondere bei Bedingungen mit schwacher Beleuchtung, zu detektieren.It is an object of the present invention to detect emergency vehicles with increased reliability, particularly in low light conditions.

Dieses Ziel wird durch den Gegenstand des unabhängigen Anspruchs erreicht. Weitere Implementierungen und bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.This object is achieved by the subject matter of the independent claim. Further implementations and preferred embodiments are subject matter of the dependent claims.

Die Erfindung beruht auf dem Gedanken, von einem faltenden neuronalen Netzwerk, CNN (englisch: convolutional neural network), extrahierte Merkmale eines Wärmebilds und von einem weiteren CNN extrahierte Merkmale von Spektrogrammen von Audio-Datensätzen von zumindest zwei Mikrophonen zu fusionieren und eine Position eines Rettungsfahrzeugs basierend auf den fusionierten Merkmalen zu bestimmen.The invention is based on the idea of fusing features of a thermal image extracted by a convolutional neural network (CNN) and features of spectrograms of audio data sets from at least two microphones extracted by another CNN and determining a position of an emergency vehicle based on the fused features.

Gemäß einem Aspekt der Erfindung wird ein computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs in einer Umgebung eines Kraftfahrzeugs bereitgestellt. Dabei wird ein Wärmebild, das die Umgebung abbildet, von einer Wärmekamera empfangen, die an dem Kraftfahrzeug montiert ist, und das Wärmebild wird vorverarbeitet. Jeweilige Audio-Datensätze werden von zumindest zwei Mikrophonen empfangen, die an unterschiedlichen Positionen an dem Kraftfahrzeug montiert sind, und ein jeweiliges Spektrogramm wird für jeden der Audio-Datensätze erzeugt. Zumindest eine erste Merkmalskarte (englisch: feature map) wird erzeugt, wobei das Erzeugen der zumindest einen ersten Merkmalskarte ein Anwenden eines ersten faltenden neuronalen Netzwerkmoduls, CNN-Moduls, eines trainierten künstlichen neuronalen Netzwerks, ANN, auf das vorverarbeitete Wärmebild beinhaltet. Zumindest eine zweite Merkmalskarte wird erzeugt, wobei das Erzeugen der zumindest einen zweiten Merkmalskarte ein Anwenden eines zweiten CNN-Moduls des ANN auf die Spektrogramme beinhaltet. Fusionierte Merkmale werden durch Fusionieren der zumindest einen ersten Merkmalskarte und der zumindest einen zweiten Merkmalskarte erzeugt. Abhängig von den fusionierten Merkmalen wird eine Position des Rettungsfahrzeugs unter Verwendung eines DecoderModuls des ANN bestimmt.According to one aspect of the invention, a computer-implemented method for detecting an emergency vehicle in the environment of a motor vehicle is provided. A thermal image depicting the environment is received from a thermal camera mounted on the motor vehicle, and the thermal image is preprocessed. Respective audio data sets are received from at least two microphones mounted at different positions on the motor vehicle, and a respective spectrogram is generated for each of the audio data sets. At least one first feature map is generated, wherein generating the at least one first feature map includes applying a first convolutional neural network (CNN) module of a trained artificial neural network (ANN) to the preprocessed thermal image. At least one second feature map is generated, wherein generating the at least one second feature map includes applying a second CNN module of the ANN to the spectrograms. Fused features are generated by fusing the at least one first feature map and the at least one second feature map. Depending on the fused features, a position of the rescue vehicle is determined using a decoder module of the ANN.

Soweit nicht anders angegeben, können alle Schritte des computerimplementierten Verfahrens von einem Datenverarbeitungsgerät, das zumindest eine Recheneinheit aufweist, insbesondere einem Datenverarbeitungsgerät des Kraftfahrzeugs, durchgeführt werden. Insbesondere ist die zumindest eine Recheneinheit dazu eingerichtet oder angepasst, die Schritte des computerimplementierten Verfahrens durchzuführen. Hierzu kann die zumindest eine Recheneinheit zum Beispiel ein Computerprogrammprodukt speichern, das Befehle beinhaltet, die, wenn sie von der zumindest einen Recheneinheit ausgeführt werden, die zumindest eine Recheneinheit dazu veranlassen, das computerimplementierte Verfahren durchzuführen.Unless otherwise stated, all steps of the computer-implemented method can be carried out by a data processing device having at least one computing unit, in particular a data processor processing device of the motor vehicle. In particular, the at least one computing unit is configured or adapted to perform the steps of the computer-implemented method. For this purpose, the at least one computing unit can, for example, store a computer program product containing instructions which, when executed by the at least one computing unit, cause the at least one computing unit to perform the computer-implemented method.

Alle Recheneinheiten der zumindest einen Recheneinheit können von dem Kraftfahrzeug beinhaltet sein. Es ist allerdings auch möglich, dass alle Recheneinheiten der zumindest einen Recheneinheit Teil eines externen Rechensystems extern zum Kraftfahrzeug sind, zum Beispiel ein Backend-Server oder ein Cloud-Rechensystem. Es ist auch möglich, dass die zumindest eine Recheneinheit zumindest eine Fahrzeugrecheneinheit des Kraftfahrzeugs sowie zumindest eine externe Recheneinheit, die von dem externen Rechensystem beinhaltet ist, aufweist. Die zumindest eine Fahrzeugrecheneinheit kann zum Beispiel von einer oder mehreren elektronischen Steuereinheiten, ECUSs (englisch: electronic control unit), und/oder einer oder mehreren Zonensteuereinheiten, ZCUs (englisch: zone control unit), und/oder einer oder mehreren Domainsteuereinheiten, DCUs (englisch: domain control unit), des Kraftfahrzeugs und/oder von der Wärmekamera beinhaltet sein.All computing units of the at least one computing unit can be contained in the motor vehicle. However, it is also possible for all computing units of the at least one computing unit to be part of an external computing system external to the motor vehicle, for example, a backend server or a cloud computing system. It is also possible for the at least one computing unit to have at least one vehicle computing unit of the motor vehicle and at least one external computing unit contained in the external computing system. The at least one vehicle computing unit can, for example, be contained in one or more electronic control units (ECUSs) and/or one or more zone control units (ZCUs) and/or one or more domain control units (DCUs) of the motor vehicle and/or the thermal camera.

Für jede Ausführung des computerimplementierten Verfahrens werden entsprechende Ausführungen eines Verfahrens, das nicht rein computerimplementiert ist, erhalten, indem Verfahrensschritte des Erzeugens des Wärmebilds durch die Wärmekamera und/oder Verfahrensschritte des Erzeugens der Audio-Datensätze von den zumindest zwei Mikrophonen miteinbezogen werden.For each execution of the computer-implemented method, corresponding executions of a method that is not purely computer-implemented are obtained by including method steps of generating the thermal image by the thermal camera and/or method steps of generating the audio data sets from the at least two microphones.

Insbesondere bildet das Wärmebild das Rettungsfahrzeug ab und die Audio-Datensätze erfassen einen Sirenenton des Rettungsfahrzeugs.In particular, the thermal image depicts the rescue vehicle and the audio data records capture a siren sound from the rescue vehicle.

Die Wärmekamera kann auch als Wärmebildkamera oder thermographische Kamera oder Infrarotkamera bezeichnet werden. Insbesondere enthält die Wärmekamera einen Infrarotdetektor oder einen infrarotempfindlichen Imager, der empfindlich für Infrarotstrahlung ist, die auch als Infrarotlicht bezeichnet werden kann. Zum Beispiel kann der infrarotempfindliche Imager empfindlich für Wellenlängen im Bereich von 750 nm bis 15 µm oder in einem Teilbereich dieses Bereich sein.A thermal camera may also be referred to as a thermal imaging camera, thermographic camera, or infrared camera. Specifically, a thermal camera contains an infrared detector or infrared-sensitive imager that is sensitive to infrared radiation, which may also be referred to as infrared light. For example, an infrared-sensitive imager may be sensitive to wavelengths in the range of 750 nm to 15 µm, or a subset of this range.

Soweit nicht anders angegeben, kann eine Merkmalskarte hier und im Folgenden durch eine Matrix mit Abmessungen HxW dargestellt sein, wobei H ≥ 1 und W ≥ 1, was auch die Sonderfälle von Skalaren und Vektoren beinhaltet. Folglich kann die zumindest eine Merkmalskarte durch einen Tensor mit Abmessungen HxWxC mit H ≥ 1, W ≥ 1 und C ≥ 1 dargestellt werden. Insbesondere schließt das Fälle ein, bei denen H=W=1 und C ≥ 1.Unless otherwise stated, a feature map here and in the following can be represented by a matrix of dimensions HxW, where H ≥ 1 and W ≥ 1, which also includes the special cases of scalars and vectors. Consequently, the at least one feature map can be represented by a tensor of dimensions HxWxC with H ≥ 1, W ≥ 1, and C ≥ 1. In particular, this includes cases where H=W=1 and C ≥ 1.

Die fusionierten Merkmale sind zum Beispiel als zumindest eine fusionierte Merkmalskarte gegeben. Hier und im Folgenden kann das Fusionieren zum Beispiel ein Verketten beinhalten oder daraus bestehen. Das Fusionieren kann jedoch auch ein Summieren, Mitteln oder komplexere Vorgänge zur Merkmalsfusionierung beinhalten.The fused features are given, for example, as at least one fused feature map. Here and in the following, fusion may involve or consist of concatenation, for example. However, fusion may also involve summing, averaging, or more complex feature fusion operations.

Dass die Position des Rettungsfahrzeugs unter Verwendung des Decodermoduls bestimmt wird, kann derart verstanden werden, dass Eingabedaten an das Decodermodul von den fusionierten Merkmalen abhängen. Insbesondere können die Eingabedaten die fusionierten Merkmale beinhalten oder daraus bestehen oder können abhängig von den fusionierten Merkmalen berechnet werden.The fact that the position of the rescue vehicle is determined using the decoder module can be understood in such a way that input data to the decoder module depends on the fused features. In particular, the input data can include or consist of the fused features or can be calculated depending on the fused features.

Das Decodermodul kann zum Beispiel ein Objekterkennungs-Decodermodul sein, dessen Ausgabe jeweilige Begrenzungsboxen für Objekte beinhaltet, die von dem Wärmebild abgebildet werden, einschließlich des Rettungsfahrzeugs. Eine Begrenzungsbox kann zum Beispiel durch eine Begrenzungsboxposition, zum Beispiel eine Position eines Mittelpunkt oder eines Eckpunkts der Begrenzungsbox, und eine Größe der Begrenzungsbox, zum Beispiel eine Länge und eine Breite der Begrenzungsbox, falls es sich um eine rechteckige Begrenzungsbox handelt, spezifiziert sein. Optional kann die Begrenzungsbox auch durch eine Orientierung der Begrenzungsbox spezifiziert sein. Alternativ kann die Orientierung vordefiniert sein. Eine Grundform der Begrenzungsbox ist zum Beispiel ein Polygon, zum Beispiel ein Rechteck. Die Grundform kann vordefiniert sein. Die Position des Rettungsfahrzeugs kann durch die Begrenzungsboxposition der jeweiligen Begrenzungsbox, die von dem Decodermodul für das Rettungsfahrzeug prädiziert ist, gegeben sein. Die Ausgabe des Decodermoduls kann auch eine Objektklasse für jede der Begrenzungsboxen beinhalten. Das Rettungsfahrzeug kann zum Beispiel einem Objekt einer Rettungsfahrzeugklasse entsprechen, die eine von einer oder mehreren vordefinierten Klassen des Decodermoduls ist.The decoder module can, for example, be an object detection decoder module whose output includes respective bounding boxes for objects depicted by the thermal image, including the rescue vehicle. A bounding box can, for example, be specified by a bounding box position, for example, a position of a center point or a corner point of the bounding box, and a bounding box size, for example, a length and a width of the bounding box if it is a rectangular bounding box. Optionally, the bounding box can also be specified by an orientation of the bounding box. Alternatively, the orientation can be predefined. A basic shape of the bounding box is, for example, a polygon, for example, a rectangle. The basic shape can be predefined. The position of the rescue vehicle can be given by the bounding box position of the respective bounding box predicted for the rescue vehicle by the decoder module. The output of the decoder module can also include an object class for each of the bounding boxes. For example, the rescue vehicle may correspond to an object of a rescue vehicle class, which is one of one or more predefined classes of the decoder module.

Das erste CNN-Modul und das zweite CNN-Modul beinhalten jeweils zumindest eine Faltungsschicht (englisch: convolutional layer). Das Decodermodul beinhaltet zum Beispiel zumindest eine Entfaltungsschicht (englisch: de-convolutional layer). Das Decodermodul kann auch eine oder mehrere vollständig verbundene Schichten (englisch: fully connected layers) beinhalten. Das Decodermodul kann auch eine Softmax-Schicht beinhalten, insbesondere als eine finale Schicht.The first CNN module and the second CNN module each contain at least one convolutional layer. The decoder module, for example, contains at least one deconvolutional layer. The decoder module may also contain one or more fully connected layers. The decoder module may also contain a softmax layer, particularly as a final layer.

Die Audio-Datensätze können zum Beispiel vorverarbeitet sein, wobei die Vorverarbeitung eine Filterung, zum Beispiel eine Rauschfilterung, beinhalten kann. Die Spektrogramme können basierend auf den vorverarbeiteten Audio-Datensätzen erzeugt werden. In alternativen Ausführungen können die Spektrogramme jedoch basierend auf den Audio-Datensätzen ohne Vorverarbeitung erzeugt werden.The audio data sets may, for example, be preprocessed, where the preprocessing may include filtering, for example, noise filtering. The spectrograms may be generated based on the preprocessed audio data sets. In alternative embodiments, however, the spectrograms may be generated based on the audio data sets without preprocessing.

Jedes der Spektrogramme wird zum Beispiel von einem der Audio-Datensätze erhalten. Die Spektrogramme stellen das Frequenzspektrum des jeweiligen Audio-Datensatzes als Funktion der Zeit dar. Das Spektrogramm ist somit ein zweidimensionales Array mit Abmessungen Hs x Ws, wobei Hs ≥ 2, Ws ≥ 2 und wobei unterschiedliche Reihen des Array unterschiedlichen Frequenzen entsprechen und unterschiedliche Spalten des Array unterschiedlichen Zeitpunkten entsprechen oder umgekehrt. Die Werte des Array sind die entsprechenden Amplituden in der Frequenzdomäne. Insbesondere kann das Spektrogramm durch Anwenden einer Kurzzeit-Fourier-Transformation, STFT (englisch: short-time Fourier transform) auf die Zeitreihen des jeweiligen Audio-Datensatzes oder der jeweiligen vorverarbeiteten Version des Audio-Datensatzes angewendet werden. Das Ergebnis der STFT kann in manchen Ausführungen auch nachverarbeitet werden, um das Spektrogramm zu erzeugen. Die Nachverarbeitung kann zum Beispiel Skalierungsvorgänge beinhalten, um zum Beispiel die Frequenzen in die Mel-Skala zu übertragen. Die Spektrogramme sind dann dementsprechend Mel-Spektrogramme.Each of the spectrograms is obtained, for example, from one of the audio datasets. The spectrograms represent the frequency spectrum of the respective audio dataset as a function of time. The spectrogram is thus a two-dimensional array with dimensions Hs x Ws , where Hs ≥ 2, Ws ≥ 2 and where different rows of the array correspond to different frequencies and different columns of the array correspond to different times or vice versa. The values of the array are the corresponding amplitudes in the frequency domain. In particular, the spectrogram can be created by applying a short-time Fourier transform (STFT) to the time series of the respective audio dataset or the respective preprocessed version of the audio dataset. In some implementations, the result of the STFT can also be post-processed to generate the spectrogram. The post-processing can, for example, include scaling operations to convert the frequencies to the mel scale. The spectrograms are then accordingly Mel spectrograms.

Aufgrund des zweidimensionalen Formats der Spektrogramme können diese mittels des zweiten CNN-Moduls auf ähnliche Weise wie das Wärmebild oder ein anderes Kamerabild verarbeitet werden. Zum Beispiel können die für die Audio-Datensätze erzeugten Spektrogramme derart gestapelt werden, dass eine Eingabe des zweiten CNN-Moduls Abmessungen Hs x Ws x Cs hat, wobei Cs ≥ 2 die Anzahl gestapelter Spektrogramme ist, insbesondere Cs ≥ 2 die Anzahl von Mikrophonen ist. Die Eingabe an das zweite CNN-Modul enthält deshalb zumindest Stereoinformationen, die die jeweiligen Positionen der Audio-Quellen in der Umgebung einschließlich zum Beispiel einer aktiven Sirene des Rettungsfahrzeugs kodieren.Due to the two-dimensional format of the spectrograms, they can be processed by the second CNN module in a similar way to the thermal image or another camera image. For example, the spectrograms generated for the audio data sets can be stacked such that an input to the second CNN module has dimensions Hs x Ws x Cs , where Cs ≥ 2 is the number of stacked spectrograms, in particular Cs ≥ 2 is the number of microphones. The input to the second CNN module therefore contains at least stereo information encoding the respective positions of the audio sources in the environment, including, for example, an active siren of the emergency vehicle.

Durch Kombinieren der aus dem Wärmebild erhaltenen Merkmale mit den aus den Audio-Datensätzen erhaltenen Merkmalen ist eine zuverlässige Detektion und Verfolgung des Rettungsfahrzeugs möglich, auch in Szenarios mit schwachen Lichtverhältnissen und/oder widrigen Wetterverhältnissen, da beide Sensormodalitäten, die Wärmekamera wie auch die Mikrophone, gegenüber derartigen Bedingungen robust sind. Verglichen mit Ansätzen, die auf Bildgebung mit sichtbarem Licht beruhen, kann Bildgebung im Infrarot- beziehungsweise Wärmeregime eine verbesserte Leistung und Genauigkeit erreichen.By combining the features obtained from the thermal image with those obtained from the audio datasets, reliable detection and tracking of the rescue vehicle is possible, even in low-light and/or adverse weather scenarios, as both sensor modalities, the thermal camera and the microphones, are robust to such conditions. Compared to approaches based on visible-light imaging, imaging in the infrared or thermal regime can achieve improved performance and accuracy.

Gemäß einigen Ausführungen beinhaltet das Vorverarbeiten die Verwendung eines bilateralen Filters.According to some embodiments, preprocessing involves the use of a bilateral filter.

Insbesondere wird der bilaterale Filter auf das Wärmebild angewendet und das erste CNN-Modul wird auf das gefilterte Wärmebild angewendet. Das Vorverarbeiten kann jedoch auch andere Schritte, wie zum Beispiel Rauschfilterung, beinhalten.Specifically, the bilateral filter is applied to the thermal image, and the first CNN module is applied to the filtered thermal image. However, preprocessing may also include other steps, such as noise filtering.

Wärmebilder können inhärente Limitierungen, wie etwa ein niedriges Signal-zu-RauschVerhältnis, einen geringen Kontrast oder eine Abwesenheit von deutlichen Kanten und eindeutigen Formen haben. Das liegt hauptsächlich an den Infrarot-Detektoren, die für die Wärmebilderfassung verwendet werden, und den entsprechenden Ausleseschaltkreisen. Des Weiteren durchläuft die Infrarotstrahlung, die von den Objekten in der Umgebung ausgestrahlt wird, die Umgebungsluft, was die Wärmebildqualität auch verschlechtern kann. Das kann eine Auswirkung auf die Genauigkeit der Detektion haben, da das erste CNN-Modul typischerweise von Bildmerkmalen wie etwa Kanten, Ecken und so weiter abhängt. Andererseits sind Wärmebilder dazu imstande, Objekte auch bei extremen Wetterverhältnissen, bei schwachem Licht und in dunklen Szenarios und auch bei Tageslicht abzubilden, ohne nennenswert durch Sonnenblendung oder Reflexionen beeinträchtigt zu werden. Wärmebilder können auch Objekte mit einem großen Abstand von der Wärmekamera abbilden, was insbesondere günstig für das Detektieren von Rettungsfahrzeugen ist.Thermal images can have inherent limitations, such as a low signal-to-noise ratio, low contrast, or a lack of distinct edges and shapes. This is primarily due to the infrared detectors used for thermal image acquisition and the corresponding readout circuitry. Furthermore, the infrared radiation emitted by surrounding objects passes through the ambient air, which can also degrade the thermal image quality. This can impact detection accuracy, as the first CNN module typically relies on image features such as edges, corners, and so on. On the other hand, thermal images are capable of detecting objects even in extreme weather conditions, low-light and dark scenarios, and even in daylight, without being significantly affected by sun glare or reflections. Thermal images can also detect objects located at a great distance from the thermal camera, which is particularly advantageous for detecting emergency vehicles.

Durch Verwendung des bilateralen Filters kann die Bildqualität deutlich verbessert werden, was wiederum die Objekterkennungsleistung verbessert. Standardfilter, wie etwa Gaußsche Filter, tendieren dazu, das Bild gleichmäßig zu glätten und damit die Kanten aufgrund ihrer linearen und homogenen Wirkung zu verunschärfen. Der bilaterale Filter, der nichtlinear und inhomogen ist, hilft dabei, diese Limitierungen zu überwinden.By using the bilateral filter, the image quality can be significantly improved, which in turn improves object detection performance. Standard filters, such as Gaussian filters, tend to smooth the image evenly, thus reducing the edges due to their linear and homogeneous effect. The bilateral filter, which is nonlinear and inhomogeneous, helps to overcome these limitations.

Der bilaterale Filter ist ein kantenerhaltender Filter, der einem gewichteten Durchschnitt der nahegelegenen Pixel durch Berücksichtigen der Differenz der Pixelwerte mit Bezug auf die benachbarten Pixel entspricht, um Kanten zu erhalten, während eine Glättung des Bilds erreicht wird.The bilateral filter is an edge-preserving filter that corresponds to a weighted average of the nearby pixels by taking into account the difference of the pixel values with respect to the neighboring pixels to preserve edges while achieving smoothing of the image.

Der bilaterale Filter kann definiert sein alsBF[I]p=1WpqSGσs(pq)Gσr(|IpIq|)Iq,wobei Wp ein Normalisierungsfaktor ist, der sicherstellt, dass die Pixelgewichte sich zu eins aufaddieren:Wp=qSGσs(pq)Gσr(|IpIq|).The bilateral filter can be defined asBF[I]p=1WpqSGσs(pq)Gσr(|IpIq|)Iq, where Wp is a normalization factor that ensures that the pixel weights add up to one:Wp=qSGσs(pq)Gσr(|IpIq|).

Dabei ist p die Pixelposition des jeweiligen Ausgabepixels, BF[I]p ist der Pixelwert des gefilterten Bilds bei p, q ist die Position eines benachbarten Pixels in einer vordefinierten Nachbarschaft S der Position p, Iq ist der Pixelwert des Wärmebilds an Position q, Ip ist der Pixelwert des Wärmebilds an Position p, Gσr(.) ist ein Filterkern mit Glättungsstärke σr, zum Beispiel eine Gaußsche Funktion mit einer Standardabweichung von σr, und Gσs(.) ist ein Filterkern mit Glättungsstärke σs, zum Beispiel eine Gaußsche Funktion mit einer Standardabweichung von σs.Where p is the pixel position of the respective output pixel, BF[I]p is the pixel value of the filtered image at p, q is the position of a neighboring pixel in a predefined neighborhood S of position p, Iq is the pixel value of the thermal image at position q, Ip is the pixel value of the thermal image at position p, Gσ r (.) is a filter kernel with smoothing strength σr , for example a Gaussian function with a standard deviation of σr , and Gσ s (.) is a filter kernel with smoothing strength σs , for example a Gaussian function with a standard deviation of σs .

Gemäß einigen Ausführungen wird zumindest eine Zwischen-Merkmalskarte erzeugt, indem zumindest eine Faltungsschicht des zweiten CNN-Moduls auf die Spektrogramme angewendet wird. Zumindest eine weitere Zwischen-Merkmalskarte wird durch Anwenden eines Metadaten-Encodermoduls des ANN auf Kamera-Metadaten erzeugt, wobei die Kamera-Metadaten intrinsische und/oder extrinsische Kalibrierungsdaten der Wärmekamera beinhalten. Das Erzeugen der zumindest einen zweiten Merkmalskarte beinhaltet das Kombinieren, zum Beispiel Verketten, der zumindest einen weiteren Zwischen-Merkmalskarte und der zumindest einen Zwischen-Merkmalskarte.According to some embodiments, at least one intermediate feature map is generated by applying at least one convolutional layer of the second CNN module to the spectrograms. At least one further intermediate feature map is generated by applying a metadata encoder module of the ANN to camera metadata, wherein the camera metadata includes intrinsic and/or extrinsic calibration data of the thermal camera. Generating the at least one second feature map includes combining, e.g., concatenating, the at least one further intermediate feature map and the at least one intermediate feature map.

Zum Beispiel kann die zumindest eine zweite Merkmalskarte aus der Kombination der zumindest einen weiteren Zwischen-Merkmalskarte und der zumindest einen Zwischen-Merkmalskarte bestehen. Die genannte Kombination kann jedoch auch weiterverarbeitet werden, um die zumindest eine zweite Merkmalskarte zu erzeugen. Zum Beispiel kann eine Entfaltungsschicht oder eine Sequenz von Entfaltungsschichten des zweiten CNN-Moduls auf die genannte Kombination angewendet werden, um die zumindest eine zweite Merkmalskarte zu erzeugen. Auf diese Weise kann zum Beispiel erreicht werden, dass die zumindest eine erste Merkmalskarte und die zumindest eine zweite Merkmalskarte dieselben Abmessungen haben.For example, the at least one second feature map can consist of the combination of the at least one further intermediate feature map and the at least one intermediate feature map. However, said combination can also be further processed to generate the at least one second feature map. For example, a deconvolution layer or a sequence of deconvolution layers of the second CNN module can be applied to said combination to generate the at least one second feature map. In this way, it can be achieved, for example, that the at least one first feature map and the at least one second feature map have the same dimensions.

Unter Berücksichtigung der Metadaten wie beschrieben können die Audio-Daten effektiv in das Bezugssystem der Wärmekamera gebracht werden, was die Konsistenz der Merkmale aus den zwei Sensormodalitäten verbessert.By considering the metadata as described, the audio data can be effectively brought into the thermal camera's reference frame, improving the consistency of features from the two sensor modalities.

Gemäß einigen Ausführungen beinhaltet das Metadaten-Encodermodul ein mehrschichtiges Perceptron (englisch: multi-layer perceptron).According to some embodiments, the metadata encoder module includes a multi-layer perceptron.

Gemäß einigen Ausführungen werden die Spektrogramme als Mel-Spektrogramme, insbesondere wie oben beschrieben, erzeugt.According to some embodiments, the spectrograms are generated as Mel spectrograms, in particular as described above.

Auf diese Weise werden die Audio-Datensätze in ein besonders aussagekräftiges Format transformiert, um die Merkmale unter Verwendung des zweiten CNN-Moduls zu extrahieren.In this way, the audio data sets are transformed into a particularly meaningful format in order to extract the features using the second CNN module.

Gemäß einigen Ausführungen wird eine Aufmerksamkeitskarte (englisch: attention map) abhängig von den fusionierten Merkmalen erzeugt und die Position des Rettungswagens wird abhängig von der Aufmerksamkeitskarte bestimmt. Insbesondere wird ein Aufmerksamkeitsmodul (englisch: attention module) des ANN auf die fusionierten Merkmale angewendet, um die Aufmerksamkeitskarte zu erzeugen.According to some embodiments, an attention map is generated based on the fused features, and the position of the ambulance is determined based on the attention map. Specifically, an attention module of the ANN is applied to the fused features to generate the attention map.

Insbesondere wird das Decodermodul auf Eingangsdaten, die von den fusionierten Merkmalen und der Aufmerksamkeitskarte abhängen, angewendet. Insbesondere werden die Eingangsdaten für das Decodermodul erzeugt, indem ein Punktprodukt (englisch: dot product) der Aufmerksamkeitskarte und der fusionierten Merkmale erzeugt werden. Die Position des Rettungsfahrzeugs wird durch Anwenden des Decodermoduls auf die genannten Eingangsdaten bestimmt.In particular, the decoder module is applied to input data that depends on the fused features and the attention map. In particular, the input data for the decoder The decoder module generates a dot product of the attention map and the fused features. The position of the rescue vehicle is determined by applying the decoder module to the input data.

Da Wärmebilder keine visuellen Farbanzeichen liefern, um Blinklichter des Rettungsfahrzeugs zu detektieren, hilft die Aufmerksamkeitskarte dabei, das Rettungsfahrzeug zu lokalisieren.Since thermal images do not provide visual color cues to detect emergency vehicle flashing lights, the attention map helps to locate the emergency vehicle.

Gemäß einigen Ausführungen beinhaltet das Bestimmen der Position des Rettungsfahrzeugs ein Bestimmen der Position der Begrenzungsbox für das Rettungsfahrzeug in dem Wärmebild.According to some embodiments, determining the position of the rescue vehicle includes determining the position of the bounding box for the rescue vehicle in the thermal image.

Gemäß einigen Ausführungen bildet das Wärmebild ein Zielfahrzeug in der Umgebung ab und das Zielfahrzeug wird abhängig von den fusionierten Merkmalen unter Verwendung des Decodermoduls als das Rettungsfahrzeug klassifiziert.According to some embodiments, the thermal image depicts a target vehicle in the environment and the target vehicle is classified as the rescue vehicle depending on the fused features using the decoder module.

Gemäß einem weiteren Aspekt der Erfindung wird ein computerimplementiertes Trainingsverfahren zum Trainieren eines ANN zum Durchführen eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs bereitgestellt. Ein Trainingswärmebild wird empfangen und das Trainingswärmebild wird vorverarbeitet. Wenigstens zwei Trainingsaudiodatensätze werden empfangen und ein jeweiliges Spektrogramm wird für jeden der Trainingsaudiodatensätze erzeugt. Zumindest eine erste Trainingsmerkmalskarte wird erzeugt, wobei das Erzeugen der zumindest einen ersten Trainingsmerkmalskarte ein Anwenden eines ersten CNN-Moduls des ANN auf das vorverarbeitete Trainingswärmebild beinhaltet. Zumindest eine zweite Trainingsmerkmalskarte wird erzeugt, wobei das Erzeugen der zumindest einen zweiten Trainingsmerkmalskarte ein Anwenden eines zweiten CNN-Moduls des ANN auf die Spektrogramme beinhaltet. Fusionierte Trainingsmerkmale werden durch Fusionieren der zumindest einen ersten Trainingsmerkmalskarte und der zumindest einen zweiten Trainingsmerkmalskarte erzeugt. Abhängig von den fusionierten Trainingsmerkmalen wird eine Trainingsposition des Rettungsfahrzeugs unter Verwendung eines Decodermoduls des ANN bestimmt. Netzwerkparameter des ANN werden abhängig von der Trainingsposition und abhängig von entsprechenden Annotationsdaten aktualisiert.According to a further aspect of the invention, a computer-implemented training method for training an ANN for performing a computer-implemented method for detecting an emergency vehicle according to the invention is provided. A training thermal image is received, and the training thermal image is preprocessed. At least two training audio data sets are received, and a respective spectrogram is generated for each of the training audio data sets. At least one first training feature map is generated, wherein generating the at least one first training feature map includes applying a first CNN module of the ANN to the preprocessed training thermal image. At least one second training feature map is generated, wherein generating the at least one second training feature map includes applying a second CNN module of the ANN to the spectrograms. Fused training features are generated by fusing the at least one first training feature map and the at least one second training feature map. Depending on the fused training features, a training position of the emergency vehicle is determined using a decoder module of the ANN. Network parameters of the ANN are updated depending on the training position and corresponding annotation data.

Die Annotationsdaten beinhalten insbesondere eine Ground-Truth-Position des Rettungsfahrzeugs, zum Beispiel in Form einer Ground-Truth-Begrenzungsbox für das Rettungsfahrzeug und der Position der Ground-Truth-Begrenzungsbox in dem Trainingswärmebild. Es ist anzumerken, dass das computerimplementierte Trainingsverfahren nicht notwendigerweise Annotationsdaten für die Trainingsaudiodatensätze benötigt. Stattdessen können insbesondere selbstüberwachte Trainingsverfahren benutzt werden.The annotation data includes, in particular, a ground-truth position of the rescue vehicle, for example, in the form of a ground-truth bounding box for the rescue vehicle and the position of the ground-truth bounding box in the training thermal image. It should be noted that the computer-implemented training method does not necessarily require annotation data for the training audio data sets. Instead, self-supervised training methods can be used.

Die beschriebenen Schritte werden insbesondere mehrmals mit unterschiedlichen Trainingswärmebildern und Trainingsaudiodatensätzen wiederholt, bis ein vordefiniertes Beendigungskriterium beziehungsweise Konvergenzkriterium erfüllt ist.In particular, the described steps are repeated several times with different training thermal images and training audio data sets until a predefined termination criterion or convergence criterion is met.

Die Netzwerkparameter beinhalten zum Beispiel Netzwerkparameter des ersten CNN-Moduls und/oder Netzwerkparameter des zweiten CNN-Moduls und/oder Netzwerkparameter des Decodermoduls. Die Netzwerkparameter können zum Beispiel entsprechende Gewichtungsfaktoren und/oder Bias-Faktoren beinhalten.The network parameters include, for example, network parameters of the first CNN module and/or network parameters of the second CNN module and/or network parameters of the decoder module. The network parameters can include, for example, corresponding weighting factors and/or bias factors.

Gemäß einigen Ausführungen weisen die Netzwerkparameter des ANN Netzwerkparameter des ersten CNN-Moduls, Netzwerkparameter des zweiten CNN-Moduls und Netzwerkparameter des Decodermoduls auf.According to some implementations, the network parameters of the ANN include network parameters of the first CNN module, network parameters of the second CNN module, and network parameters of the decoder module.

Gemäß einigen Ausführungen wird eine vordefinierte erste Verlustfunktion abhängig von der Trainingsposition und den Annotationsdaten ausgewertet und die Netzwerkparameter werden abhängig von einem Ergebnis der Auswertung der ersten Verlustfunktion aktualisiert.According to some embodiments, a predefined first loss function is evaluated depending on the training position and the annotation data, and the network parameters are updated depending on a result of the evaluation of the first loss function.

Mit anderen Worten wird überwachtes Training durch die erste Verlustfunktion implementiert.In other words, supervised training is implemented by the first loss function.

Gemäß einigen Ausführungen wird eine Trainingsaufmerksamkeitskarte abhängig von den fusionierten Trainingsmerkmalen durch ein Aufmerksamkeitsmodul des ANN erzeugt. Die Trainingsposition des Rettungsfahrzeugs wird abhängig von der Trainingsaufmerksamkeitskarte bestimmt. Die Netzwerkparameter des ANN beinhalten Netzwerkparameter des Aufmerksamkeitsmoduls.According to some embodiments, a training attention map is generated by an attention module of the ANN based on the fused training features. The training position of the rescue vehicle is determined based on the training attention map. The network parameters of the ANN include network parameters of the attention module.

Gemäß einigen Ausführungen wird eine vordefinierte zweite Verlustfunktion, die eine Merkmalsähnlichkeitsverlustfunktion ist, abhängig von der zumindest einen ersten Merkmalskarte und der zumindest eine erste Merkmalskarte ausgewertet, und die Netzwerkparameter werden abhängig von einem Ergebnis der Auswertung der zweiten Verlustfunktion aktualisiert.According to some embodiments, a predefined second loss function, which is a feature similarity loss function, is evaluated depending on the at least one first feature map and the at least one first feature map, and the network parameters are updated depending on a result of the evaluation of the second loss function.

Die Ähnlichkeitsverlustfunktion weist ein Ähnlichkeitsmaß auf, das eine Ähnlichkeit oder Unähnlichkeit der zumindest einen ersten Merkmalskarte und der zumindest einen zweiten Merkmalskarte misst. Auf diese Weise wird das selbstüberwachte Trainieren durch die zweite Verlustfunktion implementiert.The similarity loss function has a similarity measure that measures a similarity or dissimilarity of the at least one first feature map and the at least one second feature map. In this way, self-supervised training is implemented by the second loss function.

Zum Beispiel kann das Trainieren in einer Vielzahl von Trainingsepochen ausgeführt werden. Während jeder Trainingsepoche können das Trainieren gemäß der ersten Verlustfunktion und das Trainieren gemäß der zweiten Verlustfunktion getrennt ausgeführt werden.For example, training can be performed in multiple training epochs. During each training epoch, training according to the first loss function and training according to the second loss function can be performed separately.

Weitere Ausführungen des erfindungsgemäßen computerimplementierten Trainingsverfahrens ergeben sich unmittelbar aus den verschiedenen Ausführungsformen des erfindungsgemäßen computerimplementierten Verfahrens und umgekehrt. Insbesondere lassen sich einzelne Merkmale und entsprechende Erläuterungen sowie Vorteile betreffend die verschiedenen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens entsprechend auf jeweilige Ausführungen des erfindungsgemäßen computerimplementierten Trainingsverfahrens übertragen.Further embodiments of the computer-implemented training method according to the invention result directly from the various embodiments of the computer-implemented method according to the invention, and vice versa. In particular, individual features and corresponding explanations as well as advantages relating to the various embodiments of the computer-implemented method according to the invention can be transferred accordingly to respective embodiments of the computer-implemented training method according to the invention.

Gemäß einigen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs wird das ANN unter Verwendung eines erfindungsgemäßen computerimplementierten Trainingsverfahrens trainiert.According to some embodiments of the inventive computer-implemented method for detecting an emergency vehicle, the ANN is trained using a computer-implemented training method according to the invention.

Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs bereitgestellt. Dabei wird ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs durchgeführt, wobei das Wärmebild durch eine Wärmekamera des Kraftfahrzeugs erzeugt wird und die Audio-Datensätze durch zumindest zwei Mikrophone, die an unterschiedlichen Positionen an dem Kraftfahrzeug montiert sind, erzeugt werden. Zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs wird von zumindest einer Recheneinheit, zum Beispiel zumindest einer Recheneinheit des Kraftfahrzeugs, abhängig von der Position des Rettungsfahrzeugs erzeugt und/oder Assistenzinformationen zum Unterstützen eines Fahrers des Kraftfahrzeugs beim Führen des Kraftfahrzeugs werden von der zumindest einen Recheneinheit abhängig von der Position des Rettungsfahrzeugs erzeugt.According to a further aspect of the invention, a method for at least partially automatically driving a motor vehicle is provided. In this case, a computer-implemented method according to the invention for detecting an emergency vehicle is carried out, wherein the thermal image is generated by a thermal camera of the motor vehicle and the audio data sets are generated by at least two microphones mounted at different positions on the motor vehicle. At least one control signal for at least partially automatically driving the motor vehicle is generated by at least one computing unit, for example at least one computing unit of the motor vehicle, depending on the position of the emergency vehicle and/or assistance information for supporting a driver of the motor vehicle in driving the motor vehicle is generated by the at least one computing unit depending on the position of the emergency vehicle.

Das zumindest eine Steuersignal kann zum Beispiel an einen oder mehrere Aktuatoren des Kraftfahrzeugs, einschließlich zum Beispiel eines oder mehrerer Bremsaktuatoren und/der eines oder mehrerer Lenkaktuatoren und/oder eines oder mehrerer Antriebsmotoren des Kraftfahrzeugs, bereitgestellt werden. Der eine oder die mehreren Aktuatoren können eine Längs- und/oder Quersteuerung des Kraftfahrzeugs beeinflussen, um das Kraftfahrzeug zumindest teilweise automatisch zu führen.The at least one control signal can be provided, for example, to one or more actuators of the motor vehicle, including, for example, one or more brake actuators and/or one or more steering actuators and/or one or more drive motors of the motor vehicle. The one or more actuators can influence a longitudinal and/or lateral control of the motor vehicle in order to guide the motor vehicle at least partially automatically.

Die Assistenzinformationen können mittels eines Ausgabegeräts des Kraftfahrzeugs, zum Beispiel einer Anzeige und/oder eines Audio-Ausgabesystems und/oder eines haptischen Ausgabesystems ausgegeben werden.The assistance information can be output by means of an output device of the motor vehicle, for example a display and/or an audio output system and/or a haptic output system.

Gemäß einem weiteren Aspekt der Erfindung wird ein Datenverarbeitungsgerät, das zumindest eine Recheneinheit aufweist, bereitgestellt. Das Datenverarbeitungsgerät ist dazu angepasst, ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs und/oder ein erfindungsgemäßes computerimplementiertes Trainingsverfahren durchzuführen.According to a further aspect of the invention, a data processing device having at least one computing unit is provided. The data processing device is adapted to carry out a computer-implemented method according to the invention for detecting an emergency vehicle and/or a computer-implemented training method according to the invention.

In der vorliegenden Offenbarung kann eine Recheneinheit zum Beispiel als ein Datenverarbeitungsgerät mit Verarbeitungsschaltkreisen verstanden werden. Eine Recheneinheit kann somit Rechenoperationen zur Verarbeitung von Daten durchführen. Die Rechenoperationen können auch indizierter Zugriffe auf eine Datenstruktur, beispielsweise eine Look-Up-Tabelle, LUT, umfassen.In the present disclosure, a computing unit can be understood, for example, as a data processing device with processing circuits. A computing unit can thus perform computing operations for processing data. The computing operations can also include indexed accesses to a data structure, for example, a look-up table (LUT).

Eine Recheneinheit kann insbesondere einen oder mehrere Computer, einen oder mehrere Mikrocontroller und/oder einen oder mehrere integrierte Schaltkreise, beispielsweise eine oder mehrere anwendungsspezifische integrierte Schaltungen, ASIC (englisch: „application-specific integrated circuit“), eines oder mehrere feldprogrammierbare Gate Arrays, FPGA, und/oder eines oder mehrere Einchipsysteme, SoC (englisch: „system on a chip“), enthalten. Die Recheneinheit kann auch einen oder mehrere Prozessoren, zum Beispiel einen oder mehrere Mikroprozessoren, eine oder mehrere zentrale Prozessoreinheiten, CPU (englisch: „central processing unit“), eine oder mehrere Grafikprozessoreinheiten, GPU (englisch: „graphics processing unit“) und/oder einen oder mehrere Signalprozessoren, insbesondere einen oder mehrere digitale Signalprozessoren, DSP, enthalten. Die Recheneinheit kann auch einen physischen oder einen virtuellen Verbund von Computern oder sonstigen der genannten Einheiten beinhalten.A computing unit may, in particular, contain one or more computers, one or more microcontrollers, and/or one or more integrated circuits, for example one or more application-specific integrated circuits (ASICs), one or more field-programmable gate arrays (FPGAs), and/or one or more single-chip systems (SoCs). The computing unit may also contain one or more processors, for example, one or more microprocessors, one or more central processing units (CPU), one or more graphics processing units (GPU), and/or one or more signal processors, in particular one or more digital signal processors (DSP). The computing unit may also include a physical or virtual network of computers or other of the aforementioned units.

Eine Recheneinheit kann auch eine oder mehrere Hardware- und/oder Softwareschnittstellen und/oder eine oder mehrere Speichereinheiten aufweisen. Dabei kann eine Speichereinheit als flüchtiger Datenspeicher, beispielsweise als dynamischer Speicher mit wahlfreiem Zugriff, DRAM (englisch: „dynamic random access memory“) oder statischer Speicher mit wahlfreiem Zugriff, SRAM (englisch: „static random access memory“), oder als nicht-flüchtiger Datenspeicher, beispielsweise als Festwertspeicher, ROM (englisch: „read-only memory“), als programmierbarer Festwertspeicher, PROM (englisch: „programmable read-only memory“), als löschbarer Festwertspeicher, EPROM (englisch: „erasable read-only memory“), als elektrisch löschbarer Festwertspeicher, EEPROM (englisch: „electrically erasable read-only memory“), als Flash-Speicher oder Flash-EEPROM, als ferroelektrischer Speicher mit wahlfreiem Zugriff, FRAM (englisch: „ferroelectric random access memory“), als magnetoresistiver Speicher mit wahlfreiem Zugriff, MRAM (englisch: „magnetoresistive random access memory“) oder als Phasenänderungsspeicher mit wahlfreiem Zugriff, PCRAM (englisch: „phase-change random access memory“), implementiert sein.A computing unit may also have one or more hardware and/or software interfaces and/or one or more memory units. A memory unit can be a volatile data memory, for example a dynamic random access memory (DRAM) or a static random access memory (SRAM), or a non-volatile data memory, for example a read-only memory (ROM), a programmable read-only memory (PROM), an erasable read-only memory (EPROM), an electrically erasable read-only memory (EEPROM), a flash memory or flash EEPROM, a ferroelectric random access memory (FRAM), a magnetoresistive random access memory (MRAM), or a phase-change random access memory (PCRAM). “phase-change random access memory”).

Gemäß einem weiteren Aspekt der Erfindung wird elektronisches Fahrzeugführungssystem für ein Kraftfahrzeug bereitgestellt, wobei das elektronische Fahrzeugführungssystem ein erfindungsgemäßes Datenverarbeitungsgerät beinhaltet. Die zumindest eine Recheneinheit ist dazu eingerichtet, ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs durchzuführen. Die zumindest eine Recheneinheit ist dazu eingerichtet, zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs abhängig von der Position des Rettungsfahrzeugs zu erzeugen und/oder die zumindest eine Recheneinheit ist dazu eingerichtet, Assistenzinformationen zum Unterstützen eines Fahrers des Kraftfahrzeugs beim Führen des Kraftfahrzeugs abhängig von der Position des Rettungsfahrzeugs zu erzeugen.According to a further aspect of the invention, an electronic vehicle guidance system for a motor vehicle is provided, wherein the electronic vehicle guidance system includes a data processing device according to the invention. The at least one computing unit is configured to carry out a computer-implemented method according to the invention for detecting an emergency vehicle. The at least one computing unit is configured to generate at least one control signal for at least partially automatically guiding the motor vehicle depending on the position of the emergency vehicle and/or the at least one computing unit is configured to generate assistance information for supporting a driver of the motor vehicle in guiding the motor vehicle depending on the position of the emergency vehicle.

Ein elektronisches Fahrzeugführungssystem kann als ein elektronisches System verstanden werden, welches dazu eingerichtet ist, ein Fahrzeug vollautomatisch oder vollautonom und insbesondere, ohne dass ein manuelles Eingreifen oder Steuern durch einen Fahrer oder Benutzer des Fahrzeugs notwendig wäre, zu führen. Das Fahrzeug führt alle erforderlichen Funktionen, wie etwa Lenkmanöver, Abbremsmanöver und/oder Beschleunigungsmanöver sowie Überwachung und Aufzeichnung des Straßenverkehrs sowie entsprechende Reaktionen automatisch aus. Insbesondere kann das elektronische Fahrzeugführungssystem einen vollautomatischen oder vollautonomen Fahrmodus gemäß Stufe 5 der SAE J3016 Klassifikation implementieren. Ein elektronisches Fahrzeugführungssystem kann auch als ein Fahrerassistenzsystem, ADAS, implementiert sein, welches einem Fahrer beim teilautomatischen oder teilautonomen Fahren assistiert. Insbesondere kann das elektronische Fahrzeugführungssystem einen teilautomatischen oder teilautonomen Fahrmodus nach den Stufen 1 bis 4 der SAE J3016 Klassifikation implementieren. Hier und im Folgenden bezieht sich SAE J3016 auf den entsprechenden Standard mit Datum vom April 2021.An electronic vehicle guidance system can be understood as an electronic system designed to guide a vehicle fully automatically or autonomously, and in particular without requiring manual intervention or control by a driver or user of the vehicle. The vehicle automatically performs all required functions, such as steering maneuvers, braking maneuvers, and/or acceleration maneuvers, as well as monitoring and recording road traffic and corresponding reactions. In particular, the electronic vehicle guidance system can implement a fully automatic or fully autonomous driving mode according to level 5 of the SAE J3016 classification. An electronic vehicle guidance system can also be implemented as a driver assistance system (ADAS), which assists a driver in semi-automatic or semi-autonomous driving. In particular, the electronic vehicle guidance system can implement a semi-automatic or semi-autonomous driving mode according to levels 1 to 4 of the SAE J3016 classification. Here and below, SAE J3016 refers to the corresponding standard dated April 2021.

Das wenigstens teilweise automatische Führen des Fahrzeugs kann daher ein Führen des Fahrzeugs gemäß einem vollautomatischen oder vollautonomen Fahrmodus nach Stufe 5 der SAE J3016 Klassifikation beinhalten. Das wenigstens teilweise automatische Führen des Fahrzeugs kann auch ein Führen des Fahrzeugs gemäß einem teilautomatischen oder teilautonomen Fahrmodus nach den Stufen 1 bis 4 der SAE J3016 Klassifikation beinhalten.The at least partially automatic driving of the vehicle can therefore include driving the vehicle according to a fully automatic or fully autonomous driving mode according to level 5 of the SAE J3016 classification. The at least partially automatic driving of the vehicle can also include driving the vehicle according to a partially automatic or partially autonomous driving mode according to levels 1 to 4 of the SAE J3016 classification.

Gemäß einigen Ausführungen weist das elektronische Fahrzeugführungssystem die Wärmekamera und/oder die zumindest zwei Mikrophone auf.According to some embodiments, the electronic vehicle guidance system comprises the thermal camera and/or the at least two microphones.

Weitere Ausführungen des erfindungsgemäßen elektronischen Fahrzeugführungssystems ergeben sich unmittelbar aus den verschiedenen Ausführungsformen des erfindungsgemäßen computerimplementierten Verfahrens oder des erfindungsgemäßen Verfahrens zum zumindest teilweise automatischen Führen des Kraftfahrzeugs und umgekehrt. Insbesondere lassen sich einzelne Merkmale und entsprechende Erläuterungen sowie Vorteile betreffend die verschiedenen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens entsprechend auf jeweilige Ausführungen des erfindungsgemäßen elektronischen Fahrzeugführungssystem übertragen. Insbesondere ist das erfindungsgemäße elektronische Fahrzeugführungssystem dazu ausgestaltet oder programmiert, ein computerimplementiertes Verfahren oder ein erfindungsgemäßes Verfahren durchzuführen. Insbesondere führt das erfindungsgemäße elektronische Fahrzeugführungssystem das computerimplementierte Verfahren oder das erfindungsgemäße Verfahren durch.Further embodiments of the electronic vehicle guidance system according to the invention result directly from the various embodiments of the computer-implemented method according to the invention or the method according to the invention for at least partially automatically guiding the motor vehicle and vice versa. In particular, individual features and corresponding explanations as well as advantages relating to the various embodiments of the computer-implemented method according to the invention can be transferred accordingly to respective embodiments of the electronic vehicle guidance system according to the invention. In particular, the electronic vehicle guidance system according to the invention is designed or programmed to carry out a computer-implemented method or a method according to the invention. In particular, the electronic vehicle guidance system carries out the computer-implemented method or the method according to the invention.

Gemäß einem weiteren Aspekt der Erfindung wird ein Befehle beinhaltendes Computerprogramm bereitgestellt. Wenn die Befehle von einem Datenverarbeitungsgerät, insbesondere von einem erfindungsgemäßen Datenverarbeitungsgerät, ausgeführt werden, veranlassen die Befehle das Datenverarbeitungsgerät dazu, ein erfindungsgemäßes computerimplementiertes Verfahren und/oder ein erfindungsgemäßes computerimplementiertes Trainingsverfahren und/oder ein erfindungsgemäßes Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs durchzuführen.According to a further aspect of the invention, a computer program containing instructions is provided. When the instructions are executed by a data processing device, in particular by a data processing device according to the invention, the instructions cause the data processing device to carry out a computer-implemented method according to the invention and/or a computer-implemented training method according to the invention and/or a method according to the invention for at least partially automatically driving a motor vehicle.

Die Befehle können zum Beispiel als Programmcode bereitgestellt werden. Der Programmcode kann zum Beispiel als Binärcode oder Assembler und/oder als Quellcode einer Programmiersprache, zum Beispiel C, und/oder als Programmskript, zum Beispiel Python, bereitgestellt werden.The instructions can be provided, for example, as program code. The program code can be provided, for example, as binary code or assembly code and/or as source code of a programming language, for example, C, and/or as a program script, for example, Python.

Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt, welches ein erfindungsgemäßes Computerprogramm speichert.According to a further aspect of the invention, a computer-readable storage medium is provided which stores a computer program according to the invention.

Das Computerprogramm und das computerlesbare Speichermedium sind jeweilige Computerprogrammprodukte mit Befehlen.The computer program and the computer-readable storage medium are respective computer program products with instructions.

Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren gezeigten Merkmale und Merkmalskombinationen können von der Erfindung nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen umfasst sein. Insbesondere können auch Ausführungsformen und Merkmalskombinationen von der Erfindung umfasst sein, die nicht alle der Merkmale eines ursprünglich formulierten Anspruchs aufweisen. Darüber hinaus können Ausführungsformen und Merkmalskombinationen von der Erfindung umfasst sein, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder davon abweichen.Further features of the invention emerge from the claims, the figures and the description of the figures. The features and combinations of features mentioned above in the description as well as the features and combinations of features mentioned below in the description of the figures and/or shown in the figures can be encompassed by the invention not only in the respectively specified combination, but also in other combinations. In particular, embodiments and combinations of features can also be encompassed by the invention which do not have all of the features of an originally formulated claim. Furthermore, embodiments and combinations of features can be encompassed by the invention which go beyond or deviate from the combinations of features set out in the backreferences of the claims.

Im Folgenden wird die Erfindung anhand spezifischer beispielhafter Ausführungen und jeweiliger schematischer Zeichnungen im Einzelnen erläutert. In den Zeichnungen können identische oder funktionsgleiche Elemente mit denselben Bezugszeichen bezeichnet sein. Die Beschreibung identischer oder funktionsgleicher Elemente wird nicht notwendigerweise in Bezug auf unterschiedliche Figuren wiederholt.The invention is explained in detail below with reference to specific exemplary embodiments and corresponding schematic drawings. In the drawings, identical or functionally equivalent elements may be designated by the same reference numerals. The description of identical or functionally equivalent elements is not necessarily repeated with reference to different figures.

In den Figuren zeigen:

  • 1 schematisch ein Kraftfahrzeug mit einer beispielhaften Ausführung eines erfindungsgemäßen elektronischen Fahrzeugführungssystems;
  • 2 ein schematisches Flussdiagramm einer beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs;
  • 3 ein schematisches Blockdiagramm eines künstlichen neuronalen Netzwerks, ANN, zur Verwendung in einer weiteren beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs;
  • 4 ein schematisches Blockdiagramm eines Teils eines weiteren ANN zur Verwendung in einer weiteren beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs; und
  • 5 ein schematisches Blockdiagramm eines weiteren ANN zur Verwendung in einer weiteren beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs.
The figures show:
  • 1 schematically shows a motor vehicle with an exemplary embodiment of an electronic vehicle guidance system according to the invention;
  • 2 a schematic flow diagram of an exemplary embodiment of a computer-implemented method according to the invention for detecting an emergency vehicle;
  • 3 a schematic block diagram of an artificial neural network, ANN, for use in another exemplary embodiment of a computer-implemented method for detecting an emergency vehicle according to the invention;
  • 4 a schematic block diagram of a portion of another ANN for use in another exemplary embodiment of a computer-implemented method for detecting an emergency vehicle according to the invention; and
  • 5 a schematic block diagram of another ANN for use in another exemplary embodiment of a computer-implemented method according to the invention for detecting an emergency vehicle.

1 zeigt schematisch ein Kraftfahrzeug 1 mit einer beispielhaften Ausführung eines elektronischen Fahrzeugführungssystems 2 gemäß der Erfindung. Das elektronische Fahrzeugführungssystem 2 beinhaltet ein Datenverarbeitungsgerät, das zumindest eine Recheneinheit 5 aufweist. Das Kraftfahrzeug 1, zum Beispiel das elektronische Fahrzeugführungssystem 2, weist eine Wärmekamera 3 auf, die an dem Kraftfahrzeug 1 montiert ist, und zumindest zwei Mikrophone 4, die an unterschiedlichen Positionen des Kraftfahrzeugs 1 montiert sind. Die zumindest eine Recheneinheit 5 kann zum Beispiel eine oder mehrere elektronische Steuereinheiten, ECUs, des Kraftfahrzeugs 1 und/oder eine oder mehrere Recheneinheiten der Wärmekamera 3 beinhalten. Die Wärmekamera 3 ist dazu eingerichtet, ein Wärmebild 7 zu erzeugen, welches eine äußere Umgebung des Kraftfahrzeugs 1 abbildet. Die Mikrophone 4 sind dazu eingerichtet, jeweilige zeitabhängige Audio-Datensätze 10 basierend auf Geräuschen, die die Mikrophone 4 aus der äußeren Umgebung des Kraftfahrzeugs 1 erreicht, zu erzeugen. Die Audio-Datensätze 10 können zum Beispiel eine vordefinierte Länge, zum Beispiel jeweils 1 s, haben.1 schematically shows a motor vehicle 1 with an exemplary embodiment of an electronic vehicle guidance system 2 according to the invention. The electronic vehicle guidance system 2 includes a data processing device having at least one computing unit 5. The motor vehicle 1, for example the electronic vehicle guidance system 2, has a thermal camera 3 mounted on the motor vehicle 1 and at least two microphones 4 mounted at different positions on the motor vehicle 1. The at least one computing unit 5 can, for example, include one or more electronic control units, ECUs, of the motor vehicle 1 and/or one or more computing units of the thermal camera 3. The thermal camera 3 is configured to generate a thermal image 7, which depicts an external environment of the motor vehicle 1. The microphones 4 are configured to generate respective time-dependent audio data sets 10 based on sounds that reach the microphones 4 from the external environment of the motor vehicle 1. The audio data sets 10 can, for example, have a predefined length, for example, 1 s each.

Die zumindest eine Recheneinheit 5 ist dazu angepasst, ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs in der Umgebung des Kraftfahrzeugs 1 abhängig von dem Wärmekamera 7 und den Audio-Datensätzen 10 durchzuführen. Ein schematisches Flussdiagramm eines derartigen computerimplementierten Verfahrens ist in2 gezeigt. Aus dem computerimplementierten Verfahren ergibt sich, dass die zumindest eine Recheneinheit 5 eine Position des Rettungsfahrzeugs in dem Wärmebild 7, zum Beispiel durch Erzeugen einer entsprechenden Begrenzungsbox für das Rettungsfahrzeug, bestimmt.The at least one computing unit 5 is adapted to carry out a computer-implemented method according to the invention for detecting an emergency vehicle in the surroundings of the motor vehicle 1 depending on the thermal camera 7 and the audio data sets 10. A schematic flow diagram of such a computer-implemented method is shown in 2 shown. The computer-implemented method results in the at least one computing unit 5 determining a position of the rescue vehicle in the thermal image 7, for example by generating a corresponding boundary box for the rescue vehicle.

Die zumindest eine Recheneinheit 5 kann zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs 1 abhängig von der Position des Rettungsfahrzeugs erzeugen. Das zumindest eine Steuersignal kann zum Beispiel einem oder mehreren Aktuatoren des Kraftfahrzeugs 1, einschließlich zum Beispiel eines oder mehrerer Bremsaktuatoren und/oder eines oder mehrerer Lenkaktuatoren und/oder eines oder mehrerer Antriebsmotoren des Kraftfahrzeugs 1, bereitgestellt werden. Das eine oder die mehreren Aktuatoren können eine Längs- und/oder Quersteuerung des Kraftfahrzeugs 1 beeinflussen, um das Kraftfahrzeug 1 zumindest teilweise automatisch zu führen.The at least one computing unit 5 can generate at least one control signal for at least partially automatically guiding the motor vehicle 1 depending on the position of the rescue vehicle. The at least one control signal can be provided, for example, to one or more actuators of the motor vehicle 1, including, for example, one or more brake actuators and/or one or more steering actuators and/or one or more drive motors of the motor vehicle 1. The one or more actuators can influence a longitudinal and/or lateral control of the motor vehicle 1 in order to guide the motor vehicle 1 at least partially automatically.

Alternativ oder zusätzlich kann die zumindest eine Recheneinheit 5 Assistenzinformationen zum Unterstützen eines Fahrers des Kraftfahrzeugs 1 beim Führen des Kraftfahrzeugs 1 abhängig von der Position des Rettungsfahrzeugs erzeugen. Die Assistenzinformationen können mittels eines Ausgabegeräts des Kraftfahrzeugs 1, zum Beispiel einem Display und/oder eines Audioausgabesystems und/oder eines haptischen Ausgabesystems, ausgegeben werden.Alternatively or additionally, the at least one computing unit 5 can generate assistance information to support a driver of the motor vehicle 1 in driving the motor vehicle 1 depending on the position of the rescue vehicle. The assistance information can be output via an output device of the motor vehicle 1, for example, a display and/or an audio output system and/or a haptic output system.

In Schritt 200 des computerimplementierten Verfahrens wird das Wärmebild 7 von der Wärmekamera 3 empfangen und das Wärmebild 7 wird vorverarbeitet. In Schritt 210 werden die Audio-Datensätze 10 von den zumindest zwei Mikrophonen 4 empfangen und ein jeweiliges Spektrogramm 23 wird für jeden der Audio-Datensätze 10 erzeugt. In Schritt 220 wird die zumindest eine erste Merkmalskarte 24 erzeugt, wobei das Erzeugen der zumindest einen ersten Merkmalskarte 24 ein Anwenden eines ersten CNN-Moduls 9 eines trainierten ANN 6 auf das vorverarbeitete Wärmebild 7 beinhaltet. In Schritt 230 wird zumindest eine zweite Merkmalskarte 25 erzeugt, wobei das Erzeugen der zumindest einen zweiten Merkmalskarte 25 ein Anwenden eines zweiten CNN-Moduls 12 des ANN 6 auf die Spektrogramme 23 beinhaltet. In Schritt 240 werden fusionierte Merkmale durch Fusionieren der zumindest einen ersten Merkmalskarte 24 und der zumindest einen zweiten Merkmalskarte 25 erzeugt. In Schritt 250 wird die Position des Rettungsfahrzeugs abhängig von den fusionierten Merkmalen unter Verwendung eines Decodermoduls 17 des ANN 6 erzeugt.In step 200 of the computer-implemented method, the thermal image 7 is received by the thermal camera 3, and the thermal image 7 is preprocessed. In step 210, the audio data sets 10 are received by the at least two microphones 4, and a respective spectrogram 23 is generated for each of the audio data sets 10. In step 220, the at least one first feature map 24 is generated, wherein generating the at least one first feature map 24 includes applying a first CNN module 9 of a trained ANN 6 to the preprocessed thermal image 7. In step 230, at least one second feature map 25 is generated, wherein generating the at least one second feature map 25 includes applying a second CNN module 12 of the ANN 6 to the spectrograms 23. In step 240, fused features are generated by fusing the at least one first feature map 24 and the at least one second feature map 25. In step 250, the position of the rescue vehicle is generated depending on the fused features using a decoder module 17 of the ANN 6.

3 zeigt ein schematisches Blockdiagramm eines ANN 6 zur Verwendung in einer weiteren beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs, zum Beispiel einer Ausführung wie anhand von2 beschrieben.3 shows a schematic block diagram of an ANN 6 for use in a further exemplary embodiment of a computer-implemented method according to the invention for detecting an emergency vehicle, for example an embodiment as described with reference to 2 described.

Ein Vorverarbeitungsmodul 8, welches getrennt von dem ANN 6 bereitgestellt sein kann, führt die Vorverarbeitung des Wärmebilds 7 aus, welche zum Beispiel ein Anwenden eines bilateralen Filters auf das Wärmebild 7 oder auf ein von dem Wärmebild 7 abhängiges Bild beinhaltet. In manchen Ausführungen kann das Wärmebild 7 ein Ein-Kanal-Bild sein, das in ein Mehr-Kanal-Bild, zum Beispiel ein Vier-Kanal-Bild, zum Beispiel ein Bild der Abmessungen 416 x 416 x 4 konvertiert werden kann, indem eine Fokusoperation angewendet wird, die räumliche Informationen teilweise in Tiefeninformationen überträgt. Die Fokusoperation kann zum Beispiel nach der Anwendung des bilateralen Filters ausgeführt werden. Das erste CNN-Modul 9, das als ein Merkmalsextraktor in der Wärmebilddomäne fungiert, erzeugt die zumindest eine erste Merkmalskarte 24 basierend auf dem Ausgabebild 7' des ersten vorverarbeiteten Moduls 8.A preprocessing module 8, which may be provided separately from the ANN 6, performs the preprocessing of the thermal image 7, which may include, for example, applying a bilateral filter to the thermal image 7 or to an image dependent on the thermal image 7. In some embodiments, the thermal image 7 may be a single-channel image that can be converted into a multi-channel image, e.g., a four-channel image, e.g., an image of dimensions 416 x 416 x 4, by applying a focus operation that partially translates spatial information into depth information. The focus operation may, for example, be performed after the application of the bilateral filter. The first CNN module 9, which functions as a feature extractor in the thermal image domain, generates the at least one first feature map 24 based on the output image 7' of the first preprocessing module 8.

Das erste CNN-Modul 9 ist in4 genauer gezeigt. Zum Beispiel kann das Darknet-19-Modell als ein Grundmodell 27 für das erste CNN-Modul 9 verwendet werden. Darknet-19 bietet einen guten Kompromiss zwischen Genauigkeit und Ausführungsgeschwindigkeit. Es ist dazu imstande, mehrere Begrenzungsboxen und die entsprechenden Klassenwahrscheinlichkeiten zu prädizieren, indem die volle Bildauflösung in einem einzigen Frame verwendet wird. Das Grundmodell 27 kann 19 Faltungsschichten und fünf maximale Pooling-Schichten aufweisen. Damit sich das Grundmodell 27 angesichts des relativ geringen Kontrasts in dem Wärmebild 7 noch besser zum Detektieren des Rettungsfahrzeugs eignet, kann die letzte Schicht des Darknet-19-Modells durch drei 3 x 3 Faltungsschichten mit 1024 Filtern, gefolgt von einer 1 x 1 vollständig verbundenen Schicht, ersetzt werden. Das erste CNN-Modul 9 kann dazu trainiert sein, die Begrenzungsboxpositionen 19 relativ zu Ankerboxen zu prädizieren, um ein stabiles Modell zu erreichen.The first CNN module 9 is in 4 shown in more detail. For example, the Darknet-19 model can be used as a base model 27 for the first CNN module 9. Darknet-19 offers a good compromise between accuracy and execution speed. It is capable of predicting multiple bounding boxes and the corresponding class probabilities using the full image resolution in a single frame. The base model 27 can have 19 convolutional layers and five max pooling layers. To make the base model 27 even more suitable for detecting the rescue vehicle given the relatively low contrast in the thermal image 7, the last layer of the Darknet-19 model can be replaced by three 3 x 3 convolutional layers with 1024 filters, followed by a 1 x 1 fully connected layer. The first CNN module 9 can be trained to predict the bounding box positions 19 relative to anchor boxes to achieve a stable model.

Die Audio-Datensätze 10 werden von einem Audio-Verarbeitungsmodul 11, welches separat zu dem ANN 6 bereitgestellt sein kann, in die jeweiligen Spektrogramme 23, zum Beispiel Mel-Spektrogramme konvertiert. Das zweite CNN-Modul 10, welches als ein Stereo-Merkmalsextraktor in der Audio-Domäne fungiert, erzeugt die zumindest eine zweite Merkmalskarte 25 basierend auf der Ausgabe des Audioverarbeitungsmoduls 11.The audio data sets 10 are converted into the respective spectrograms 23, for example, mel spectrograms, by an audio processing module 11, which may be provided separately from the ANN 6. The second CNN module 10, which functions as a stereo feature extractor in the audio domain, generates the at least one second feature map 25 based on the output of the audio processing module 11.

Das zweite CNN-Modul 10 ist in4 genauer gezeigt. Das Detektieren des Rettungsfahrzeugs in der Audiodomäne unter Verwendung der Stereosoundinformationen, die von den Spektrogrammen 23 dargestellt werden, wird als ein Regressionsproblem behandelt. Das zweite CNN-Modul 10 kann auf selbstüberwachte Weise unter Verwendung von Ground-Truth-Labels für das Wärmebild 7 trainiert werden, um die Begrenzungsboxpositionen 19 zu regressieren. Um die Audiodaten an das Bezugssystem der Wärmekamera 3 zu übertragen, können die Kamerametadaten 26 als eine zusätzliche Eingabe genutzt werden. Die Metadaten 26 beinhalten intrinsische und extrinsische Kamerakalibrierungsparameter. Die Spektrogramme 23 werden getrennt berechnet und als die Eingabe in das zweite CNN-Modul 10 übereinandergestapelt. Zuerst werden zehn gestufte Faltungsschichten 31 verwendet, um die Frequenzzeitdarstellung der Spektrogramme 23 in das Kamerareferenzsystem zu transformieren. Das zweite CNN-Modul 10 kann des Weiteren eine Batch-Normalisierungsschicht und eine ReLU-Aktivierungsfunktion beinhalten. Die resultierende Ausgabe ist ein komprimiertes Stereosoundsignal als eine 1 x 1 x 1024 Merkmalskarte 32 nach Entfernen der räumlichen Auflösung. Ein mehrschichtiges Perceptron-Netzwerk 29 wird verwendet, um die Kamerametadaten 26 in einen Merkmalsvektor 30 der Abmessungen 1 x 1 x 128 zu kodieren. Die komprimierte Soundmerkmalskarte 32 und die kodierten Metadaten 30 sind zur Bildung einer Merkmalskarte 33 verkettet. Die räumlichen Informationen werden rekonstruiert und die Audio-Informationen werden auf der Kameraansicht abgebildet, indem die Merkmalskarte 33 durch ein Decodermoduls 34 geleitet wird, welches zwei vollständig verbundene Schichten und drei Entfaltungsschichten beinhaltet.The second CNN module 10 is in 4 shown in more detail. Detecting the rescue vehicle in the audio domain using the stereo sound information represented by the spectrograms 23 is treated as a regression problem. The second CNN module 10 can be trained in a self-supervised manner using ground truth labels for the thermal image 7 to regress the bounding box positions 19. To transfer the audio data to the reference frame of the thermal camera 3, the camera metadata 26 can be used as an additional input. The metadata 26 includes intrinsic and extrinsic camera calibration parameters. The spectrograms 23 are computed separately and stacked as the input to the second CNN module 10. First, ten staged convolutional layers 31 are used to transform the frequency-time representation of the spectrograms 23 into the camera reference frame. The second CNN module 10 may further include a batch normalization layer and a ReLU activation function. The resulting output is a compressed stereo sound signal as a 1 x 1 x 1024 feature map 32 after removing the spatial resolution. A multi-layer perceptron network 29 is used to encode the camera metadata 26 into a feature vector 30 of dimensions 1 x 1 x 128. The compressed sound feature map 32 and the encoded metadata 30 are concatenated to form a feature map 33. The spatial information is reconstructed and the audio information is mapped onto the camera view by passing the feature map 33 through a decoder module 34, which includes two fully connected layers and three deconvolution layers.

Die resultierende zumindest eine zweite Merkmalskarte 25 und die zumindest eine erste Merkmalskarte 24 können dann dieselben Abmessungen haben. Diese werden durch ein Fusionsmodul 13 verkettet. Die fusionierten Merkmale werden dann einem Aufmerksamkeitsmodul 14 zugeführt, welches in5 genauer gezeigt ist. Das Aufmerksamkeitsmodul 14 erzeugt eine entsprechende Aufmerksamkeitskarte 15, die dann dazu benutzt wird, ein Punktprodukt mit den fusionierten Merkmalen durch ein Punktproduktmodul 16 zu berechnen. Die resultierenden Merkmale 36 werden dann einem Decodermodul 17 zugeführt, um die Ausgabe 18 einschließlich der Begrenzungsboxpositionen 19, jeweilige Objektklassen 20 und eine Existenzwahrscheinlichkeit 21 für jedes Objekt zu erzeugen.The resulting at least one second feature map 25 and the at least one first feature map 24 can then have the same dimensions. These are concatenated by a fusion module 13. The fused features are then fed to an attention module 14, which 5 shown in more detail. The attention module 14 generates a corresponding attention map 15, which is then used to compute a dot product with the fused features by a dot product module 16. The resulting features 36 are then fed to a decoder module 17 to generate the output 18 including the bounding box positions 19, respective object classes 20, and an existence probability 21 for each object.

Das Aufmerksamkeitsmodul 14 wird basierend auf dem Klassenaktivierungskartenkonzept ausgestaltet. Es verwendet K x 3 x 3 Faltungsschichten 39, globales Durchschnittspooling 47, eine vollständig verbundene Faltungsschicht 46 und eine Softmaxschicht 48 als die letzte Schicht, wobei K die Anzahl von Kategorien ist. Jede Merkmalskarte stellt die Aufmerksamkeitsposition für eine jeweilige Klasse dar. Die Aufmerksamkeitskarte 15 wird durch Multiplizieren der gewichteten Summe der K x 13 x 13 Merkmalskarte mit dem Gewicht der vollständig verbundenen Schicht erzeugt. Eine Batch-Normalisierungsschicht 40 kann bereitgestellt werden. Um die Aufmerksamkeitskarte 15 zu erzeugen, wird eine K x 1 x 1 Faltungsschicht 41 gefolgt von einer ReLU-Aktivierungsfunktion 42 benutzt. Sie gibt eine K x 13 x 13 Merkmalskarte aus, die dann mit einer 1 x 1 x 1 Faltungsschicht 43 gefaltet wird, um die K Merkmalskarten zu aggregieren. Sie erzeugt somit eine Aufmerksamkeitskarte 15 von 1 x 13 x 13, die von einer Sigmoid-Funktion 45 normalisiert wird.The attention module 14 is designed based on the class activation map concept. It uses K × 3 × 3 convolutional layers 39, global average pooling 47, a fully connected convolutional layer 46, and a softmax layer 48 as the final layer, where K is the number of categories. Each feature map represents the attention position for a respective class. The attention map 15 is generated by multiplying the weighted sum of the K × 13 × 13 feature maps by the weight of the fully connected layer. A batch normalization layer 40 may be provided. To generate the attention map 15, a K × 1 × 1 convolutional layer 41 followed by a ReLU activation function 42 is used. It outputs a K × 13 × 13 feature map, which is then convolved with a 1 × 1 × 1 convolutional layer 43 to aggregate the K feature maps. It thus produces an attention map 15 of 1 x 13 x 13, which is normalized by a sigmoid function 45.

Das Punktproduktmodul 16 wirkt wie folgt:gc'(xi)=(1+M(xi))gc(xi),wobei g'c(xi) die Ausgabe des Aufmerksamkeitsmechanismus darstellt, gc(xi) die fusionierten Merkmale darstellt, M(xi) die Aufmerksamkeitskarte 15 darstellt und c den jeweiligen Kanal darstellt. Diese Gleichung hebt den Peak der Aufmerksamkeitskarte 15 hervor, wobei Merkmale, die das Rettungsfahrzeug betreffen, lokalisiert werden, während der niedrigere Wertebereich der Aufmerksamkeitskarte 15 daran gehindert wird, auf Null abzufallen.The dot product module 16 works as follows:gc'(xi)=(1+M(xi))gc(xi), where g'c (xi ) represents the output of the attention mechanism, gc (xi ) represents the fused features, M(xi ) represents the attention map 15, and c represents the respective channel. This equation highlights the peak of the attention map 15, locating features related to the emergency vehicle, while preventing the lower range of values of the attention map 15 from falling to zero.

Das Decodermodul 17 verwendet zwei vollständig verbundene Faltungsschichten 37 als Klassifizierer gefolgt von einer Softmax-Funktion 38, um die Wahrscheinlichkeit jeder Klasse zu erzeugen.The decoder module 17 uses two fully connected convolutional layers 37 as classifiers followed by a softmax function 38 to generate the probability of each class.

Ein Aufmerksamkeitsverlust und ein Wahrnehmungsverlust werden dazu benutzt, die CNN-Module 9, 12 von Ende-zu-Ende zu trainieren. Allerdings wird das zweite CNN-Modul 12 unter Verwendung von Wissenstransfer von der Wärmedomäne zur Audio-Domäne trainiert. Daher wird ein Merkmalsanpassungsverlust zusammen mit dem Aufmerksamkeitsverlust und dem Wahrnehmungsverlust benutzt. Das hilft dabei, das Rettungsfahrzeug in dem gemeinsamen Bezugssystem zu erkennen und zu lokalisieren.An attention loss and a perception loss are used to train CNN modules 9 and 12 end-to-end. However, the second CNN module 12 is trained using knowledge transfer from the thermal domain to the audio domain. Therefore, a feature adaptation loss is used in conjunction with the attention loss and the perception loss. This helps detect and localize the emergency vehicle in the common reference frame.

Zum Beispiel werden für jede Position fünf Begrenzungsboxen mit vier Koordinaten für jede von ihnen als Positionen 19, ein Intersection-over-Union-Wert, loU-Wert 22 und zwei Klassenwahrscheinlichkeiten 20, die in einer Größe H × W × 50 für die Ausgabe des zweiten CNN-Moduls 17 resultieren, prädiziert.For example, for each position, five bounding boxes with four coordinates for each of them as positions 19, an intersection-over-union value, IOU value 22, and two class probabilities 20 are predicted, resulting in a size H × W × 50 for the output of the second CNN module 17.

Die verschiedenen Verlustfunktionen, die benutzt werden können, sind unten aufgelistet. Eine erste Verlustfunktion L1(xi) wird als eine Summe einer Aufmerksamkeitsverlustfunktion Latt und eine Wahrnehmungsverlustfunktion Lper konstruiert. Die Aufmerksamkeitsverlustfunktion wird als Summe einer binären Kreuzentropie-Verlustfunktion und eine loU-Verlustfunktion mit normalisierter Distanz definiert, wobei die letztere in der VeröffentlichungZ. Zheng et al.: „Distance-loU Loss: Faster and Better Learning for Bounding Box Regression“, Proceedings of the AAAI Conference on Artificial Intelligence, Februar 2000, 34(07):12993-13000 beschrieben wird:Latt(xi)=1IoU+d2c2+[t log(P)(1t)log(1P)],und die Wahrnehmungsverlustfunktion ist eine Softmax-Kreuzentropie-VerlustfunktionLper(xi)=log[exp(xi)jexp(xj)].The different loss functions that can be used are listed below. A first loss function L1 (xi ) is constructed as a sum of an attention loss function Latt and a perceptual loss function Lper . The attention loss function is defined as the sum of a binary cross-entropy loss function and a normalized distance I/O loss function, the latter being described in the paper Z. Zheng et al., “Distance-loU Loss: Faster and Better Learning for Bounding Box Regression,” Proceedings of the AAAI Conference on Artificial Intelligence, February 2000, 34(07):12993-13000 is described:Latt(xi)=1IoU+d2c2+[t log(P)(1t)log(1P)], and the perceptual loss function is a softmax cross-entropy loss functionLper(xi)=log[exp(xi)jexp(xj)].

Die erste Verlustfunktion ist somit gegeben durchL1(xi)=1Nk=1N[1IoU+d2c2+[tklog(Pk)(1tk)log(1Pk)]]log[exp(xi)jexp(xj)],wobei das Mittel über N Datenpunkte berücksichtigt wird.The first loss function is thus given byL1(xi)=1Nk=1N[1IoU+d2c2+[tklog(Pk)(1tk)log(1Pk)]]log[exp(xi)jexp(xj)], where the mean over N data points is taken into account.

Zusätzlich wird eine zweite Verlustfunktion L2, die als eine Ähnlichkeitsverlustfunktion oder Anpassungsverlustfunktion bezeichnet werden kann, dazu benutzt, das Netzwerk zu trainieren, um die Audiodaten in dasselbe Bezugssystem wie das Wärmebild 7 zu übertragen. Das deutet an, dass die internen High-Level Darstellungen der Rettungsfahrzeuge über die Domänen hinweg geteilt werden können, obwohl in den frühen Stadien des Netzwerks die Eingabe jeder Domäne ihre eigenen distinktiven Merkmale hat. Es ist zu erwarten, dass die Merkmale der zwei Domänen unter bestimmten Distanzkriterien nahe genug sind. Berücksichtigt man das, so kann die folgende Rang-Verlustfunktion als die zweite Verlustfunktion betrachtet werden:L2=i=1Njimax{0,ΔΨ(xi,yi)+Ψ(xj,yj)},wobei Δ ein Grenz-Hyperparameter ist, Ψ eine Ähnlichkeitsfunktion ist, j nur über negative Trainingssamples iteriert, während i über alle N Trainingssamples iteriert. (xi,yi) stellt die prädizierte Merkmalsdarstellung des i-ten Audio-Datensatzes 10 von dem zweiten CNN-Modul 12 beziehungsweise die entsprechende Merkmalsdarstellung von dem ersten CNN-Modul 9 dar. Diese Verlustfunktion gewährleistet, dass die Merkmale für paarweise Eingaben angepasst sind. Die Ähnlichkeitsfunktion ψ kann als eine L-2-Distanzfunktion gegeben durchΨ(x,y)=xy2gewählt werden.Additionally, a second loss function L2 , which can be referred to as a similarity loss function or adaptation loss function, is used to train the network to transfer the audio data into the same reference frame as the thermal image 7. This indicates that the internal high-level representations of the emergency vehicles can be shared across domains, although in the early stages of the network, the input of each domain has its own distinctive features. It is expected that the features of the two domains are sufficiently close under certain distance criteria. Taking this into account, the following rank loss function can be considered as the second loss function:L2=i=1Njimax{0,ΔΨ(xi,yi)+Ψ(xj,yj)}, where Δ is a boundary hyperparameter, Ψ is a similarity function, j iterates only over negative training samples, while i iterates over all N training samples. (xi ,yi ) represents the predicted feature representation of the i-th audio dataset 10 from the second CNN module 12 and the corresponding feature representation from the first CNN module 9, respectively. This loss function ensures that the features are adapted for pairwise inputs. The similarity function ψ can be expressed as an L-2 distance function given byΨ(x,y)=xy2 be elected.

Ein autonomes oder teilautonomes Fahrzeug kann nur dann effektiv auf ein Rettungsfahrzeug in der Umgebung reagieren, wenn es das Rettungsfahrzeug in der realen Welt genau detektieren, verfolgen und abbilden kann. Ähnlich wie ein manuell gefahrenes Fahrzeug sollten autonome oder teilautonome Fahrzeuge auch dazu imstande sein, sichere Reaktionsmanöver entsprechend dem detektierten Rettungsfahrzeug durchzuführen. Es hat frühere Arbeiten zur Rettungsfahrzeugdetektion nur auf Basis der visuellen Domäne, nur der Audio-Domäne zum Detektieren von Sirenentönen, und der Fusion von Daten aus der visuellen Domäne und der Audio-Domäne gegeben.An autonomous or semi-autonomous vehicle can only respond effectively to an emergency vehicle in the surrounding area if it can accurately detect, track, and map the emergency vehicle in the real world. Similar to a manually driven vehicle, autonomous or semi-autonomous vehicles should also be able to perform safe response maneuvers according to the detected emergency vehicle. There has been previous work on emergency vehicle detection based solely on the visual domain, solely on the audio domain for detecting siren sounds, and fusion of data from the visual and audio domains.

Im Allgemeinen heben sich Rettungsfahrzeuge aus der Menge von Fahrzeugen aufgrund ihrer Form und Größe, ihrer farbigen Warnblinklichter und ihrer Sirenentönen ab. Aufgrund der großen Intensität der Warnblinklichter können sie Halo-Effekte erzeugen oder blenden, was zu einer Blendung von Sensoren für den sichtbaren Bereich führen kann. Folglich kann die Detektion anderer Fahrzeuge oder Fußgänger beeinträchtigt werden. Eine derartige Methodik kann auch bei schwachen Lichtverhältnissen, starken Lichtverhältnissen oder widrigen Wetterverhältnissen, wie etwa Nebel, Regen, Schnee und so weiter fehlschlagen.Emergency vehicles generally stand out from the crowd due to their shape and size, their colored hazard lights, and their siren sounds. Due to the high intensity of the hazard lights, they can create halo effects or glare, which can blind visible-area sensors. Consequently, the detection of other vehicles or pedestrians can be compromised. Such methods may also fail in low-light conditions, strong light conditions, or adverse weather conditions such as fog, rain, snow, and so on.

Die vorliegende Erfindung kann die genannten Nachteile zumindest teilweise überwinden. Ein Rettungsfahrzeug mit Blinklichtern und/oder aktiver Sirene kann leicht durch einen menschlichen Fahrer unter Verwendung visueller und Audioanzeichen lokalisiert werden und das menschliche Gehirn ist dazu imstande, diese Informationen in ein gemeinsames Bezugssystem zu integrieren. Auf ähnliche Weise stellt die vorliegende Erfindung einen modalitätsübergreifenden Ansatz zum Detektieren und Klassifizieren von Rettungsfahrzeugen unter allen klimatischen und Beleuchtungsverhältnissen, insbesondere in Notsituationen bereit, in denen sie durch Blinklichter und Sirenentöne gekennzeichnet sind.The present invention can at least partially overcome the aforementioned disadvantages. An emergency vehicle with flashing lights and/or an active siren can be easily located by a human driver using visual and audio cues, and the human brain is capable of integrating this information into a common reference system. Similarly, the present invention provides a cross-modality approach for detecting and classifying emergency vehicles under all climatic and lighting conditions, particularly in emergency situations where they are identified by flashing lights and siren sounds.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES CONTAINED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents submitted by the applicant was generated automatically and is included solely for the convenience of the reader. This list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

  • US 2021/003414914 A1 [0003]US 2021/003414914 A1 [0003]

Zitierte Nicht-PatentliteraturCited non-patent literature

  • J. Redmon et. al.: „YOLO9000: Better, Faster, Stronger“ (arXiv:1612.08242v1 [0004]J. Redmon et. al.: “YOLO9000: Better, Faster, Stronger” (arXiv:1612.08242v1 [0004]
  • Z. Zheng et al.: „Distance-loU Loss: Faster and Better Learning for Bounding Box Regression“, Proceedings of the AAAI Conference on Artificial Intelligence, Februar 2000, 34(07):12993-13000 [0090]Z. Zheng et al.: “Distance-loU Loss: Faster and Better Learning for Bounding Box Regression”, Proceedings of the AAAI Conference on Artificial Intelligence, February 2000, 34(07):12993-13000 [0090]

Claims (20)

Translated fromGerman
Computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs in einer Umgebung eines Kraftfahrzeugs (1), wobei- ein Wärmebild (7), welches die Umgebung abbildet, von einer Wärmekamera (3) empfangen wird, die an dem Kraftfahrzeug (1) montiert ist, und das Wärmebild (7) vorverarbeitet wird;- jeweilige Audio-Datensätze (10) von zumindest zwei Mikrophonen (4) empfangen werden, die an unterschiedlichen Positionen an dem Kraftfahrzeug (1) montiert sind, und ein jeweiliges Spektrogramm (23) für jeden der Audio-Datensätze (10) erzeugt wird;- zumindest eine erste Merkmalskarte (24) erzeugt wird, wobei das Erzeugen der zumindest einen ersten Merkmalskarte (24) ein Anwenden eines ersten faltenden neuronalen Netzwerkmoduls, CNN-Moduls, (9) eines trainierten künstlichen neuronalen Netzwerks, ANN, (6) auf das vorverarbeitete Wärmebild (7) beinhaltet;- zumindest eine zweite Merkmalskarte (25) erzeugt wird, wobei das Erzeugen der zumindest einen zweiten Merkmalskarte (25) ein Anwenden eines zweiten CNN-Moduls (12) des ANN (6) auf die Spektrogramme (23) beinhaltet;- fusionierte Merkmale durch Fusionieren der zumindest einen ersten Merkmalskarte (24) und der zumindest einen zweiten Merkmalskarte (25) erzeugt werden; und- abhängig von den fusionierten Merkmalen eine Position des Rettungsfahrzeugs unter Verwendung eines Decodermoduls (17) des ANN (6) bestimmt wird.A computer-implemented method for detecting an emergency vehicle in the surroundings of a motor vehicle (1), wherein:- a thermal image (7) depicting the surroundings is received from a thermal camera (3) mounted on the motor vehicle (1), and the thermal image (7) is preprocessed;- respective audio data sets (10) are received from at least two microphones (4) mounted at different positions on the motor vehicle (1), and a respective spectrogram (23) is generated for each of the audio data sets (10);- at least one first feature map (24) is generated, wherein generating the at least one first feature map (24) includes applying a first convolutional neural network (CNN) module (9) of a trained artificial neural network (ANN) (6) to the preprocessed thermal image (7);- at least one second feature map (25) is generated, wherein generating the at least one second feature map (25) includes applying a second CNN module (12) of the ANN (6) to the spectrograms (23);- fused features are generated by fusing the at least one first feature map (24) and the at least one second feature map (25); and- a position of the rescue vehicle is determined depending on the fused features using a decoder module (17) of the ANN (6).Computerimplementiertes Verfahren nachAnspruch 1, wobei das Vorverarbeiten ein Benutzen eines bilateralen Filters beinhaltet.Computer-implemented method according to Claim 1 , where the preprocessing involves using a bilateral filter.Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei- zumindest eine Zwischen-Merkmalskarte (32) erzeugt wird, indem zumindest eine Faltungsschicht (31) des zweiten CNN-Moduls (12) auf die Spektrogramme (23) angewendet wird;- zumindest eine weitere Zwischen-Merkmalskarte (30) erzeugt wird, indem ein Metadaten-Encodermodul des ANN (6) auf Kamera-Metadaten (26) angewendet wird, wobei die Kamera-Metadaten (26) intrinsische und/oder extrinsische Kalibrierungsdaten der Wärmekamera (3) beinhalten;- das Erzeugen der zumindest einen zweiten Merkmalskarte (25) ein Kombinieren der zumindest einen weiteren Zwischen-Merkmalskarte (30) und der zumindest einen Zwischen-Merkmalskarte (32) beinhaltet.A computer-implemented method according to any one of the preceding claims, wherein:- at least one intermediate feature map (32) is generated by applying at least one convolutional layer (31) of the second CNN module (12) to the spectrograms (23);- at least one further intermediate feature map (30) is generated by applying a metadata encoder module of the ANN (6) to camera metadata (26), wherein the camera metadata (26) includes intrinsic and/or extrinsic calibration data of the thermal camera (3);- generating the at least one second feature map (25) comprises combining the at least one further intermediate feature map (30) and the at least one intermediate feature map (32).Computerimplementiertes Verfahren nachAnspruch 3, wobei das Metadaten-Encodermodul ein Multilayer-Perceptron (29) aufweist.Computer-implemented method according to Claim 3 , wherein the metadata encoder module comprises a multilayer perceptron (29).Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei die Spektrogramme (23) als Mel-Spektrogramme (23) erzeugt werden.Computer-implemented method according to one of the preceding claims, wherein the spectrograms (23) are generated as mel-spectrograms (23).Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei- eine Aufmerksamkeitskarte (15) abhängig von den fusionierten Merkmalen erzeugt wird; und- die Position des Rettungsfahrzeugs abhängig von der Aufmerksamkeitskarte (15) bestimmt wird.A computer-implemented method according to one of the preceding claims, wherein- an attention map (15) is generated depending on the fused features; and- the position of the rescue vehicle is determined depending on the attention map (15).Computerimplementiertes Verfahren nachAnspruch 6, wobei- Eingangsdaten für das Decodermodul (17) erzeugt werden, indem ein PunktProdukt der Aufmerksamkeitskarte (15) mit den fusionierten Merkmale berechnet wird; und- die Position des Rettungsfahrzeugs bestimmt wird, indem das Decodermodul (17) auf die Eingangsdaten angewendet wird.Computer-implemented method according to Claim 6 , wherein - input data for the decoder module (17) is generated by calculating a point product of the attention map (15) with the fused features; and - the position of the rescue vehicle is determined by applying the decoder module (17) to the input data.Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen der Position des Rettungsfahrzeugs ein Bestimmen einer Position (19) einer Begrenzungsbox für das Rettungsfahrzeug in dem Wärmebild (7) beinhaltet.A computer-implemented method according to any one of the preceding claims, wherein determining the position of the rescue vehicle includes determining a position (19) of a bounding box for the rescue vehicle in the thermal image (7).Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei- das Wärmebild (7) ein Zielfahrzeug in der Umgebung abbildet; und- das Zielfahrzeug abhängig von den fusionierten Merkmalen als das Rettungsfahrzeug klassifiziert wird, indem das Decodermodul (17) benutzt wird.A computer-implemented method according to any one of the preceding claims, wherein- the thermal image (7) depicts a target vehicle in the environment; and- the target vehicle is classified as the rescue vehicle depending on the fused features using the decoder module (17).Computerimplementiertes Trainingsverfahren zum Trainieren eines ANN (6) zum Ausführen eines computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs gemäß einem der vorhergehenden Ansprüche, wobei- ein Trainingswärmebild (7), empfangen wird und das Trainingswärmebild (7) vorverarbeitet wird;- wenigstens zwei Trainingsaudiodatensätze (10) empfangen werden und ein jeweiliges Spektrogramm (23) für jeden der Trainingsaudiodatensätze (10) erzeugt wird;- zumindest eine erste Trainingsmerkmalskarte erzeugt wird, wobei das Erzeugen der zumindest einen ersten Trainingsmerkmalskarte ein Anwenden eines ersten CNN-Moduls (9) des ANN (6) auf das vorverarbeitete Trainingswärmebild (7) beinhaltet;- zumindest eine zweite Trainingsmerkmalskarte erzeugt wird, wobei das Erzeugen der zumindest einen zweiten Trainingsmerkmalskarte ein Anwenden eines zweiten CNN-Moduls (12) des ANN (6) auf die Spektrogramme (23) beinhaltet;- fusionierte Trainingsmerkmale erzeugt werden, indem die zumindest eine erste Trainingsmerkmalskarte und die zumindest eine zweite Trainingsmerkmalskarte fusioniert werden;- abhängig von den fusionierten Trainingsmerkmalen eine Trainingsposition des Rettungsfahrzeugs unter Verwendung eines Decodermoduls (17) des ANN (6) bestimmt wird; und- Netzwerkparameter des ANN (6) abhängig von der Trainingsposition und abhängig von entsprechenden Annotationsdaten aktualisiert werden.Computer-implemented training method for training an ANN (6) to execute a computer-implemented method for detecting an emergency vehicle according to one of the previously claims, wherein - a training thermal image (7) is received and the training thermal image (7) is preprocessed; - at least two training audio data sets (10) are received and a respective spectrogram (23) is generated for each of the training audio data sets (10); - at least one first training feature map is generated, wherein generating the at least one first training feature map includes applying a first CNN module (9) of the ANN (6) to the preprocessed training thermal image (7); - at least one second training feature map is generated, wherein generating the at least one second training feature map includes applying a second CNN module (12) of the ANN (6) to the spectrograms (23); - fused training features are generated by fusing the at least one first training feature map and the at least one second training feature map; - depending on the fused training features, a training position of the rescue vehicle is determined using a decoder module (17) of the ANN (6); and - network parameters of the ANN (6) are updated depending on the training position and depending on corresponding annotation data.Computerimplementiertes Trainingsverfahren nachAnspruch 10, wobei die Netzwerkparameter des ANN (6) Netzwerkparameter des ersten CNN-Moduls (9), Netzwerkparameter des zweiten CNN-Moduls (12) und Netzwerkparameter des Decodermoduls (17) beinhalten.Computer-implemented training procedure according to Claim 10 , wherein the network parameters of the ANN (6) include network parameters of the first CNN module (9), network parameters of the second CNN module (12) and network parameters of the decoder module (17).Computerimplementiertes Trainingsverfahren nach einem derAnsprüche 10 oder11, wobei eine vordefinierte Verlustfunktion abhängig von der Trainingsposition und den Annotationsdaten ausgewertet wird, und die Netzwerkparameter abhängig von einem Ergebnis der Auswertung der ersten Verlustfunktion aktualisiert werden.Computer-implemented training procedure according to one of the Claims 10 or 11 , where a predefined loss function is evaluated depending on the training position and the annotation data, and the network parameters are updated depending on a result of the evaluation of the first loss function.Computerimplementiertes Trainingsverfahren nach einem derAnsprüche 10 bis12, wobei - eine Trainingsaufmerksamkeitskarte (15) abhängig von den fusionierten Trainingsmerkmalen von einem Aufmerksamkeitsmodul (14) des ANN (6) erzeugt wird;- die Trainingsposition des Rettungsfahrzeugs abhängig von der Trainingsaufmerksamkeitskarte (15) bestimmt wird; und- die Netzwerkparameter des ANN (6) Netzwerkparameter des Aufmerksamkeitsmoduls (14) beinhalten.Computer-implemented training procedure according to one of the Claims 10 until 12 , wherein - a training attention map (15) is generated by an attention module (14) of the ANN (6) depending on the fused training features; - the training position of the rescue vehicle is determined depending on the training attention map (15); and - the network parameters of the ANN (6) include network parameters of the attention module (14).Computerimplementiertes Trainingsverfahren nach einem derAnsprüche 10 bis13, wobei eine vordefinierte zweite Verlustfunktion, die eine Merkmalsähnlichkeitsverlustfunktion ist, abhängig von der zumindest einen ersten Merkmalskarte (24) ausgewertet wird und die zumindest eine erste Merkmalskarte (24) und die Netzwerkparameter abhängig von einem Ergebnis der Auswertung der zweiten Verlustfunktion aktualisiert werden.Computer-implemented training procedure according to one of the Claims 10 until 13 , wherein a predefined second loss function, which is a feature similarity loss function, is evaluated depending on the at least one first feature map (24) and the at least one first feature map (24) and the network parameters are updated depending on a result of the evaluation of the second loss function.Computerimplementiertes Verfahren nach einem derAnsprüche 1 bis9, wobei das ANN (6) unter Verwendung eines computerimplementierten Trainingsverfahrens nach einem derAnsprüche 10 bis14 trainiert wird.Computer-implemented method according to one of the Claims 1 until 9 , wherein the ANN (6) is trained using a computer-implemented training method according to one of the Claims 10 until 14 is trained.Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs (1), wobei ein computerimplementiertes Verfahren nach einem derAnsprüche 1 bis9 oder15 ausgeführt wird und- zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs (1) abhängig von der Position des Rettungsfahrzeugs erzeugt wird; und/oder- Assistenzinformationen zum Assistieren eines Fahrers des Kraftfahrzeugs (1) beim Führen des Kraftfahrzeugs (1) abhängig von der Position des Rettungsfahrzeugs erzeugt werden.Method for at least partially automatically driving a motor vehicle (1), wherein a computer-implemented method according to one of the Claims 1 until 9 or 15 is carried out and - at least one control signal for at least partially automatically driving the motor vehicle (1) is generated depending on the position of the rescue vehicle; and/or - assistance information for assisting a driver of the motor vehicle (1) in driving the motor vehicle (1) is generated depending on the position of the rescue vehicle.Datenverarbeitungsgerät, welches zumindest eine Recheneinheit (5) aufweist, die dazu angepasst ist, ein computerimplementiertes Verfahren nach einem derAnsprüche 1 bis9 oder15 und/oder ein computerimplementiertes Trainingsverfahren nach einem derAnsprüche 10 bis14 durchzuführen.Data processing device comprising at least one computing unit (5) adapted to carry out a computer-implemented method according to one of the Claims 1 until 9 or 15 and/or a computer-implemented training method according to one of the Claims 10 until 14 to carry out.Elektronisches Fahrzeugführungssystem (2) für ein Kraftfahrzeug (1), welches ein Datenverarbeitungsgerät nachAnspruch 16 aufweist, wobei die zumindest eine Recheneinheit (5) dazu eingerichtet ist, - zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs (1) abhängig von der Position des Rettungsfahrzeugs zu erzeugen; und/oder- Assistenzinformationen zum Assistieren eines Fahrers des Kraftfahrzeugs (1) beim Führen des Kraftfahrzeugs (1) abhängig von der Position des Rettungsfahrzeugs zu erzeugen.Electronic vehicle guidance system (2) for a motor vehicle (1), which comprises a data processing device according to Claim 16 wherein the at least one computing unit (5) is configured to - generate at least one control signal for at least partially automatically driving the motor vehicle (1) depending on the position of the rescue vehicle; and/or - generate assistance information for assisting a driver of the motor vehicle (1) when driving the motor vehicle (1) depending on the position of the rescue vehicle.Elektronisches Fahrzeugführungssystem (2) nachAnspruch 18, welches die Wärmekamera (3) und/oder die zumindest zwei Mikrophone (4) aufweist.Electronic vehicle guidance system (2) according to Claim 18 which has the thermal camera (3) and/or the at least two microphones (4).Computerprogrammprodukt, welches Befehle beinhaltet, die, wenn sie von einem Datenverarbeitungsgerät ausgeführt werden, das Datenverarbeitungsgerät dazu veranlassen, ein computerimplementiertes Verfahren nach einem derAnsprüche 1 bis9 oder15 und/oder ein computerimplementiertes Trainingsverfahren nach einem derAnsprüche 10 bis14 und/oder einem Verfahren nachAnspruch 16 durchzuführen.A computer program product which includes instructions which, when executed by a data processing device, cause the data processing device to carry out a computer-implemented method according to one of the Claims 1 until 9 or 15 and/or a computer-implemented training method according to one of the Claims 10 until 14 and/or a procedure according to Claim 16 to carry out.
DE102024101578.0A2024-01-192024-01-19 Detecting an emergency vehicle in a motor vehicle environmentPendingDE102024101578A1 (en)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
DE102024101578.0ADE102024101578A1 (en)2024-01-192024-01-19 Detecting an emergency vehicle in a motor vehicle environment

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
DE102024101578.0ADE102024101578A1 (en)2024-01-192024-01-19 Detecting an emergency vehicle in a motor vehicle environment

Publications (1)

Publication NumberPublication Date
DE102024101578A1true DE102024101578A1 (en)2025-07-24

Family

ID=96261631

Family Applications (1)

Application NumberTitlePriority DateFiling Date
DE102024101578.0APendingDE102024101578A1 (en)2024-01-192024-01-19 Detecting an emergency vehicle in a motor vehicle environment

Country Status (1)

CountryLink
DE (1)DE102024101578A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
US20190114489A1 (en)*2017-10-172019-04-18Toyota Research Institute, Inc.Systems and methods for identification of objects using audio and sensor data
DE102019202634B3 (en)*2019-02-272020-07-23Zf Friedrichshafen Ag Method, control device for an automated road vehicle, computer program product for recognizing objects in road traffic and automated road vehicle for mobility services
US20210103747A1 (en)*2020-12-172021-04-08Hassnaa MoustafaAudio-visual and cooperative recognition of vehicles
US20210406560A1 (en)*2020-06-252021-12-30Nvidia CorporationSensor fusion for autonomous machine applications using machine learning
US20220157165A1 (en)*2020-11-182022-05-19Nvidia CorporationEmergency Response Vehicle Detection for Autonomous Driving Applications
US20220219736A1 (en)*2021-01-142022-07-14Baidu Usa LlcEmergency vehicle audio and visual detection post fusion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
US20190114489A1 (en)*2017-10-172019-04-18Toyota Research Institute, Inc.Systems and methods for identification of objects using audio and sensor data
DE102019202634B3 (en)*2019-02-272020-07-23Zf Friedrichshafen Ag Method, control device for an automated road vehicle, computer program product for recognizing objects in road traffic and automated road vehicle for mobility services
US20210406560A1 (en)*2020-06-252021-12-30Nvidia CorporationSensor fusion for autonomous machine applications using machine learning
US20220157165A1 (en)*2020-11-182022-05-19Nvidia CorporationEmergency Response Vehicle Detection for Autonomous Driving Applications
US20210103747A1 (en)*2020-12-172021-04-08Hassnaa MoustafaAudio-visual and cooperative recognition of vehicles
US20220219736A1 (en)*2021-01-142022-07-14Baidu Usa LlcEmergency vehicle audio and visual detection post fusion

Similar Documents

PublicationPublication DateTitle
DE102018101125A1 (en) Recurrent deep neuronal convolution network for the detection of objects
DE102017203276B4 (en) Method and device for determining a trajectory in off-road scenarios
DE102018116036A1 (en) Training a deep convolutional neural network for individual routes
DE102021128041A1 (en) IMPROVEMENT OF A VEHICLE NEURAL NETWORK
DE102020211280A1 (en) Computer-implemented method for environment recognition for an automated driving system, machine learning method, control unit for an automated driving system and computer program for such a control unit
DE102021201445A1 (en) Computer-implemented method for testing conformance between real and synthetic images for machine learning
DE102022121109A1 (en) Visual perception with a vehicle based on a camera image and an ultrasound map
DE102018206108A1 (en) Generate validation data with generative contradictory networks
DE102021205230A1 (en) HAZARD DETECTION ENSEMBLE ARCHITECTURE SYSTEM AND PROCEDURE
DE102021200568A1 (en) COMPUTER-IMPLEMENTED METHOD OF ANALYZING THE RELEVANCE OF VISUAL PARAMETERS FOR TRAINING A COMPUTER VISION MODEL
DE102013210771A1 (en) DETECTION OF A COMPLEX OBJECT USING A CASCADE OF CLASSIFICATION EQUIPMENT
DE102024101578A1 (en) Detecting an emergency vehicle in a motor vehicle environment
DE102022124384A1 (en) Automatic environment perception based on multimodal sensor data from a vehicle
DE102023205473A1 (en) Improving the performance of neural networks under distribution shifting
DE102022121778A1 (en) Detecting a trailer hitch in the surroundings of a vehicle
DE102022121839A1 (en) Text recognition based on a recorded camera image
DE102022119950A1 (en) IMPROVED OBJECT RECOGNITION
DE102023125727A1 (en) Pursuit of an emergency vehicle
DE102023125732A1 (en) Training an artificial neural network to perform a computer vision task
DE102023132276B4 (en) Method for controlling automatic acceleration and braking of a vehicle and corresponding vehicle control system
DE102024205418A1 (en) TRAINING MACHINE LEARNING PROCESSES FOR AUTONOMOUS DRIVING APPLICATIONS
DE102024102364A1 (en) Training method for training an artificial neural network to perform a computer vision task, method for computer vision and driving a motor vehicle
DE102024132286A1 (en) Device for controlling a vehicle and method therefor
DE102024203530A1 (en) Apparatus for training, inference and methods therefor
DE102024101509A1 (en) Estimation of an intended body movement of a person and driving a motor vehicle

Legal Events

DateCodeTitleDescription
R163Identified publications notified
R012Request for examination validly filed

[8]ページ先頭

©2009-2025 Movatter.jp