Die vorliegende Erfindung ist auf ein computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs (englisch: emergency vehicle) in einer Umgebung eines Kraftfahrzeugs und auf ein entsprechendes computerimplementiertes Trainingsverfahren zum Trainieren eines künstlichen neuronalen Netzwerks, ANN (englisch: artificial neural network), zum Ausführen eines derartigen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs gerichtet. Die Erfindung ist des Weiteren auf ein entsprechendes Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs gerichtet, wobei ein derartiges computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs durchgeführt wird. Die Erfindung ist auch auf ein entsprechendes Datenverarbeitungsgerät gerichtet, welches zumindest eine Recheneinheit aufweist, und auf ein elektronisches Fahrzeugführungssystem, welches ein derartiges Datenverarbeitungsgerät aufweist. Die Erfindung ist des Weiteren auf ein entsprechendes Computerprogrammprodukt gerichtet.The present invention is directed to a computer-implemented method for detecting an emergency vehicle in the environment of a motor vehicle and to a corresponding computer-implemented training method for training an artificial neural network (ANN) to execute such a computer-implemented method for detecting an emergency vehicle. The invention is further directed to a corresponding method for at least partially automatically driving a motor vehicle, wherein such a computer-implemented method for detecting an emergency vehicle is carried out. The invention is also directed to a corresponding data processing device having at least one computing unit, and to an electronic vehicle guidance system having such a data processing device. The invention is further directed to a corresponding computer program product.
Im Zusammenhang von Fahrerassistenzfunktionen oder anderen Funktionen zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs kann das zuverlässige automatische Verfolgen von Rettungsfahrzeugen, zum Beispiel Polizeifahrzeugen, Feuerwehrfahrzeugen oder Ambulanzfahrzeugen, aus Sicherheitsgründen und auch, um einen Weg für das Rettungsfahrzeug freizumachen, wichtig sein.In the context of driver assistance functions or other functions for at least partially automatically driving a motor vehicle, the reliable automatic tracking of emergency vehicles, for example police vehicles, fire engines or ambulances, can be important for safety reasons and also to clear a path for the emergency vehicle.
Das Dokument
Darknet-19 ist ein Merkmalsextraktor für Bilder, der in der Veröffentlichung
Bekannte Objekterkennungsalgorithmen können in Szenarios mit schwacher Beleuchtung, insbesondere bei Nacht, oder bei widrigen Wetterverhältnissen eine geringe Zuverlässigkeit haben.Known object detection algorithms can have low reliability in low-light scenarios, especially at night, or in adverse weather conditions.
Es ist ein Ziel der vorliegenden Erfindung, Rettungsfahrzeuge mit gesteigerter Zuverlässigkeit, insbesondere bei Bedingungen mit schwacher Beleuchtung, zu detektieren.It is an object of the present invention to detect emergency vehicles with increased reliability, particularly in low light conditions.
Dieses Ziel wird durch den Gegenstand des unabhängigen Anspruchs erreicht. Weitere Implementierungen und bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.This object is achieved by the subject matter of the independent claim. Further implementations and preferred embodiments are subject matter of the dependent claims.
Die Erfindung beruht auf dem Gedanken, von einem faltenden neuronalen Netzwerk, CNN (englisch: convolutional neural network), extrahierte Merkmale eines Wärmebilds und von einem weiteren CNN extrahierte Merkmale von Spektrogrammen von Audio-Datensätzen von zumindest zwei Mikrophonen zu fusionieren und eine Position eines Rettungsfahrzeugs basierend auf den fusionierten Merkmalen zu bestimmen.The invention is based on the idea of fusing features of a thermal image extracted by a convolutional neural network (CNN) and features of spectrograms of audio data sets from at least two microphones extracted by another CNN and determining a position of an emergency vehicle based on the fused features.
Gemäß einem Aspekt der Erfindung wird ein computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs in einer Umgebung eines Kraftfahrzeugs bereitgestellt. Dabei wird ein Wärmebild, das die Umgebung abbildet, von einer Wärmekamera empfangen, die an dem Kraftfahrzeug montiert ist, und das Wärmebild wird vorverarbeitet. Jeweilige Audio-Datensätze werden von zumindest zwei Mikrophonen empfangen, die an unterschiedlichen Positionen an dem Kraftfahrzeug montiert sind, und ein jeweiliges Spektrogramm wird für jeden der Audio-Datensätze erzeugt. Zumindest eine erste Merkmalskarte (englisch: feature map) wird erzeugt, wobei das Erzeugen der zumindest einen ersten Merkmalskarte ein Anwenden eines ersten faltenden neuronalen Netzwerkmoduls, CNN-Moduls, eines trainierten künstlichen neuronalen Netzwerks, ANN, auf das vorverarbeitete Wärmebild beinhaltet. Zumindest eine zweite Merkmalskarte wird erzeugt, wobei das Erzeugen der zumindest einen zweiten Merkmalskarte ein Anwenden eines zweiten CNN-Moduls des ANN auf die Spektrogramme beinhaltet. Fusionierte Merkmale werden durch Fusionieren der zumindest einen ersten Merkmalskarte und der zumindest einen zweiten Merkmalskarte erzeugt. Abhängig von den fusionierten Merkmalen wird eine Position des Rettungsfahrzeugs unter Verwendung eines DecoderModuls des ANN bestimmt.According to one aspect of the invention, a computer-implemented method for detecting an emergency vehicle in the environment of a motor vehicle is provided. A thermal image depicting the environment is received from a thermal camera mounted on the motor vehicle, and the thermal image is preprocessed. Respective audio data sets are received from at least two microphones mounted at different positions on the motor vehicle, and a respective spectrogram is generated for each of the audio data sets. At least one first feature map is generated, wherein generating the at least one first feature map includes applying a first convolutional neural network (CNN) module of a trained artificial neural network (ANN) to the preprocessed thermal image. At least one second feature map is generated, wherein generating the at least one second feature map includes applying a second CNN module of the ANN to the spectrograms. Fused features are generated by fusing the at least one first feature map and the at least one second feature map. Depending on the fused features, a position of the rescue vehicle is determined using a decoder module of the ANN.
Soweit nicht anders angegeben, können alle Schritte des computerimplementierten Verfahrens von einem Datenverarbeitungsgerät, das zumindest eine Recheneinheit aufweist, insbesondere einem Datenverarbeitungsgerät des Kraftfahrzeugs, durchgeführt werden. Insbesondere ist die zumindest eine Recheneinheit dazu eingerichtet oder angepasst, die Schritte des computerimplementierten Verfahrens durchzuführen. Hierzu kann die zumindest eine Recheneinheit zum Beispiel ein Computerprogrammprodukt speichern, das Befehle beinhaltet, die, wenn sie von der zumindest einen Recheneinheit ausgeführt werden, die zumindest eine Recheneinheit dazu veranlassen, das computerimplementierte Verfahren durchzuführen.Unless otherwise stated, all steps of the computer-implemented method can be carried out by a data processing device having at least one computing unit, in particular a data processor processing device of the motor vehicle. In particular, the at least one computing unit is configured or adapted to perform the steps of the computer-implemented method. For this purpose, the at least one computing unit can, for example, store a computer program product containing instructions which, when executed by the at least one computing unit, cause the at least one computing unit to perform the computer-implemented method.
Alle Recheneinheiten der zumindest einen Recheneinheit können von dem Kraftfahrzeug beinhaltet sein. Es ist allerdings auch möglich, dass alle Recheneinheiten der zumindest einen Recheneinheit Teil eines externen Rechensystems extern zum Kraftfahrzeug sind, zum Beispiel ein Backend-Server oder ein Cloud-Rechensystem. Es ist auch möglich, dass die zumindest eine Recheneinheit zumindest eine Fahrzeugrecheneinheit des Kraftfahrzeugs sowie zumindest eine externe Recheneinheit, die von dem externen Rechensystem beinhaltet ist, aufweist. Die zumindest eine Fahrzeugrecheneinheit kann zum Beispiel von einer oder mehreren elektronischen Steuereinheiten, ECUSs (englisch: electronic control unit), und/oder einer oder mehreren Zonensteuereinheiten, ZCUs (englisch: zone control unit), und/oder einer oder mehreren Domainsteuereinheiten, DCUs (englisch: domain control unit), des Kraftfahrzeugs und/oder von der Wärmekamera beinhaltet sein.All computing units of the at least one computing unit can be contained in the motor vehicle. However, it is also possible for all computing units of the at least one computing unit to be part of an external computing system external to the motor vehicle, for example, a backend server or a cloud computing system. It is also possible for the at least one computing unit to have at least one vehicle computing unit of the motor vehicle and at least one external computing unit contained in the external computing system. The at least one vehicle computing unit can, for example, be contained in one or more electronic control units (ECUSs) and/or one or more zone control units (ZCUs) and/or one or more domain control units (DCUs) of the motor vehicle and/or the thermal camera.
Für jede Ausführung des computerimplementierten Verfahrens werden entsprechende Ausführungen eines Verfahrens, das nicht rein computerimplementiert ist, erhalten, indem Verfahrensschritte des Erzeugens des Wärmebilds durch die Wärmekamera und/oder Verfahrensschritte des Erzeugens der Audio-Datensätze von den zumindest zwei Mikrophonen miteinbezogen werden.For each execution of the computer-implemented method, corresponding executions of a method that is not purely computer-implemented are obtained by including method steps of generating the thermal image by the thermal camera and/or method steps of generating the audio data sets from the at least two microphones.
Insbesondere bildet das Wärmebild das Rettungsfahrzeug ab und die Audio-Datensätze erfassen einen Sirenenton des Rettungsfahrzeugs.In particular, the thermal image depicts the rescue vehicle and the audio data records capture a siren sound from the rescue vehicle.
Die Wärmekamera kann auch als Wärmebildkamera oder thermographische Kamera oder Infrarotkamera bezeichnet werden. Insbesondere enthält die Wärmekamera einen Infrarotdetektor oder einen infrarotempfindlichen Imager, der empfindlich für Infrarotstrahlung ist, die auch als Infrarotlicht bezeichnet werden kann. Zum Beispiel kann der infrarotempfindliche Imager empfindlich für Wellenlängen im Bereich von 750 nm bis 15 µm oder in einem Teilbereich dieses Bereich sein.A thermal camera may also be referred to as a thermal imaging camera, thermographic camera, or infrared camera. Specifically, a thermal camera contains an infrared detector or infrared-sensitive imager that is sensitive to infrared radiation, which may also be referred to as infrared light. For example, an infrared-sensitive imager may be sensitive to wavelengths in the range of 750 nm to 15 µm, or a subset of this range.
Soweit nicht anders angegeben, kann eine Merkmalskarte hier und im Folgenden durch eine Matrix mit Abmessungen HxW dargestellt sein, wobei H ≥ 1 und W ≥ 1, was auch die Sonderfälle von Skalaren und Vektoren beinhaltet. Folglich kann die zumindest eine Merkmalskarte durch einen Tensor mit Abmessungen HxWxC mit H ≥ 1, W ≥ 1 und C ≥ 1 dargestellt werden. Insbesondere schließt das Fälle ein, bei denen H=W=1 und C ≥ 1.Unless otherwise stated, a feature map here and in the following can be represented by a matrix of dimensions HxW, where H ≥ 1 and W ≥ 1, which also includes the special cases of scalars and vectors. Consequently, the at least one feature map can be represented by a tensor of dimensions HxWxC with H ≥ 1, W ≥ 1, and C ≥ 1. In particular, this includes cases where H=W=1 and C ≥ 1.
Die fusionierten Merkmale sind zum Beispiel als zumindest eine fusionierte Merkmalskarte gegeben. Hier und im Folgenden kann das Fusionieren zum Beispiel ein Verketten beinhalten oder daraus bestehen. Das Fusionieren kann jedoch auch ein Summieren, Mitteln oder komplexere Vorgänge zur Merkmalsfusionierung beinhalten.The fused features are given, for example, as at least one fused feature map. Here and in the following, fusion may involve or consist of concatenation, for example. However, fusion may also involve summing, averaging, or more complex feature fusion operations.
Dass die Position des Rettungsfahrzeugs unter Verwendung des Decodermoduls bestimmt wird, kann derart verstanden werden, dass Eingabedaten an das Decodermodul von den fusionierten Merkmalen abhängen. Insbesondere können die Eingabedaten die fusionierten Merkmale beinhalten oder daraus bestehen oder können abhängig von den fusionierten Merkmalen berechnet werden.The fact that the position of the rescue vehicle is determined using the decoder module can be understood in such a way that input data to the decoder module depends on the fused features. In particular, the input data can include or consist of the fused features or can be calculated depending on the fused features.
Das Decodermodul kann zum Beispiel ein Objekterkennungs-Decodermodul sein, dessen Ausgabe jeweilige Begrenzungsboxen für Objekte beinhaltet, die von dem Wärmebild abgebildet werden, einschließlich des Rettungsfahrzeugs. Eine Begrenzungsbox kann zum Beispiel durch eine Begrenzungsboxposition, zum Beispiel eine Position eines Mittelpunkt oder eines Eckpunkts der Begrenzungsbox, und eine Größe der Begrenzungsbox, zum Beispiel eine Länge und eine Breite der Begrenzungsbox, falls es sich um eine rechteckige Begrenzungsbox handelt, spezifiziert sein. Optional kann die Begrenzungsbox auch durch eine Orientierung der Begrenzungsbox spezifiziert sein. Alternativ kann die Orientierung vordefiniert sein. Eine Grundform der Begrenzungsbox ist zum Beispiel ein Polygon, zum Beispiel ein Rechteck. Die Grundform kann vordefiniert sein. Die Position des Rettungsfahrzeugs kann durch die Begrenzungsboxposition der jeweiligen Begrenzungsbox, die von dem Decodermodul für das Rettungsfahrzeug prädiziert ist, gegeben sein. Die Ausgabe des Decodermoduls kann auch eine Objektklasse für jede der Begrenzungsboxen beinhalten. Das Rettungsfahrzeug kann zum Beispiel einem Objekt einer Rettungsfahrzeugklasse entsprechen, die eine von einer oder mehreren vordefinierten Klassen des Decodermoduls ist.The decoder module can, for example, be an object detection decoder module whose output includes respective bounding boxes for objects depicted by the thermal image, including the rescue vehicle. A bounding box can, for example, be specified by a bounding box position, for example, a position of a center point or a corner point of the bounding box, and a bounding box size, for example, a length and a width of the bounding box if it is a rectangular bounding box. Optionally, the bounding box can also be specified by an orientation of the bounding box. Alternatively, the orientation can be predefined. A basic shape of the bounding box is, for example, a polygon, for example, a rectangle. The basic shape can be predefined. The position of the rescue vehicle can be given by the bounding box position of the respective bounding box predicted for the rescue vehicle by the decoder module. The output of the decoder module can also include an object class for each of the bounding boxes. For example, the rescue vehicle may correspond to an object of a rescue vehicle class, which is one of one or more predefined classes of the decoder module.
Das erste CNN-Modul und das zweite CNN-Modul beinhalten jeweils zumindest eine Faltungsschicht (englisch: convolutional layer). Das Decodermodul beinhaltet zum Beispiel zumindest eine Entfaltungsschicht (englisch: de-convolutional layer). Das Decodermodul kann auch eine oder mehrere vollständig verbundene Schichten (englisch: fully connected layers) beinhalten. Das Decodermodul kann auch eine Softmax-Schicht beinhalten, insbesondere als eine finale Schicht.The first CNN module and the second CNN module each contain at least one convolutional layer. The decoder module, for example, contains at least one deconvolutional layer. The decoder module may also contain one or more fully connected layers. The decoder module may also contain a softmax layer, particularly as a final layer.
Die Audio-Datensätze können zum Beispiel vorverarbeitet sein, wobei die Vorverarbeitung eine Filterung, zum Beispiel eine Rauschfilterung, beinhalten kann. Die Spektrogramme können basierend auf den vorverarbeiteten Audio-Datensätzen erzeugt werden. In alternativen Ausführungen können die Spektrogramme jedoch basierend auf den Audio-Datensätzen ohne Vorverarbeitung erzeugt werden.The audio data sets may, for example, be preprocessed, where the preprocessing may include filtering, for example, noise filtering. The spectrograms may be generated based on the preprocessed audio data sets. In alternative embodiments, however, the spectrograms may be generated based on the audio data sets without preprocessing.
Jedes der Spektrogramme wird zum Beispiel von einem der Audio-Datensätze erhalten. Die Spektrogramme stellen das Frequenzspektrum des jeweiligen Audio-Datensatzes als Funktion der Zeit dar. Das Spektrogramm ist somit ein zweidimensionales Array mit Abmessungen Hs x Ws, wobei Hs ≥ 2, Ws ≥ 2 und wobei unterschiedliche Reihen des Array unterschiedlichen Frequenzen entsprechen und unterschiedliche Spalten des Array unterschiedlichen Zeitpunkten entsprechen oder umgekehrt. Die Werte des Array sind die entsprechenden Amplituden in der Frequenzdomäne. Insbesondere kann das Spektrogramm durch Anwenden einer Kurzzeit-Fourier-Transformation, STFT (englisch: short-time Fourier transform) auf die Zeitreihen des jeweiligen Audio-Datensatzes oder der jeweiligen vorverarbeiteten Version des Audio-Datensatzes angewendet werden. Das Ergebnis der STFT kann in manchen Ausführungen auch nachverarbeitet werden, um das Spektrogramm zu erzeugen. Die Nachverarbeitung kann zum Beispiel Skalierungsvorgänge beinhalten, um zum Beispiel die Frequenzen in die Mel-Skala zu übertragen. Die Spektrogramme sind dann dementsprechend Mel-Spektrogramme.Each of the spectrograms is obtained, for example, from one of the audio datasets. The spectrograms represent the frequency spectrum of the respective audio dataset as a function of time. The spectrogram is thus a two-dimensional array with dimensions Hs x Ws , where Hs ≥ 2, Ws ≥ 2 and where different rows of the array correspond to different frequencies and different columns of the array correspond to different times or vice versa. The values of the array are the corresponding amplitudes in the frequency domain. In particular, the spectrogram can be created by applying a short-time Fourier transform (STFT) to the time series of the respective audio dataset or the respective preprocessed version of the audio dataset. In some implementations, the result of the STFT can also be post-processed to generate the spectrogram. The post-processing can, for example, include scaling operations to convert the frequencies to the mel scale. The spectrograms are then accordingly Mel spectrograms.
Aufgrund des zweidimensionalen Formats der Spektrogramme können diese mittels des zweiten CNN-Moduls auf ähnliche Weise wie das Wärmebild oder ein anderes Kamerabild verarbeitet werden. Zum Beispiel können die für die Audio-Datensätze erzeugten Spektrogramme derart gestapelt werden, dass eine Eingabe des zweiten CNN-Moduls Abmessungen Hs x Ws x Cs hat, wobei Cs ≥ 2 die Anzahl gestapelter Spektrogramme ist, insbesondere Cs ≥ 2 die Anzahl von Mikrophonen ist. Die Eingabe an das zweite CNN-Modul enthält deshalb zumindest Stereoinformationen, die die jeweiligen Positionen der Audio-Quellen in der Umgebung einschließlich zum Beispiel einer aktiven Sirene des Rettungsfahrzeugs kodieren.Due to the two-dimensional format of the spectrograms, they can be processed by the second CNN module in a similar way to the thermal image or another camera image. For example, the spectrograms generated for the audio data sets can be stacked such that an input to the second CNN module has dimensions Hs x Ws x Cs , where Cs ≥ 2 is the number of stacked spectrograms, in particular Cs ≥ 2 is the number of microphones. The input to the second CNN module therefore contains at least stereo information encoding the respective positions of the audio sources in the environment, including, for example, an active siren of the emergency vehicle.
Durch Kombinieren der aus dem Wärmebild erhaltenen Merkmale mit den aus den Audio-Datensätzen erhaltenen Merkmalen ist eine zuverlässige Detektion und Verfolgung des Rettungsfahrzeugs möglich, auch in Szenarios mit schwachen Lichtverhältnissen und/oder widrigen Wetterverhältnissen, da beide Sensormodalitäten, die Wärmekamera wie auch die Mikrophone, gegenüber derartigen Bedingungen robust sind. Verglichen mit Ansätzen, die auf Bildgebung mit sichtbarem Licht beruhen, kann Bildgebung im Infrarot- beziehungsweise Wärmeregime eine verbesserte Leistung und Genauigkeit erreichen.By combining the features obtained from the thermal image with those obtained from the audio datasets, reliable detection and tracking of the rescue vehicle is possible, even in low-light and/or adverse weather scenarios, as both sensor modalities, the thermal camera and the microphones, are robust to such conditions. Compared to approaches based on visible-light imaging, imaging in the infrared or thermal regime can achieve improved performance and accuracy.
Gemäß einigen Ausführungen beinhaltet das Vorverarbeiten die Verwendung eines bilateralen Filters.According to some embodiments, preprocessing involves the use of a bilateral filter.
Insbesondere wird der bilaterale Filter auf das Wärmebild angewendet und das erste CNN-Modul wird auf das gefilterte Wärmebild angewendet. Das Vorverarbeiten kann jedoch auch andere Schritte, wie zum Beispiel Rauschfilterung, beinhalten.Specifically, the bilateral filter is applied to the thermal image, and the first CNN module is applied to the filtered thermal image. However, preprocessing may also include other steps, such as noise filtering.
Wärmebilder können inhärente Limitierungen, wie etwa ein niedriges Signal-zu-RauschVerhältnis, einen geringen Kontrast oder eine Abwesenheit von deutlichen Kanten und eindeutigen Formen haben. Das liegt hauptsächlich an den Infrarot-Detektoren, die für die Wärmebilderfassung verwendet werden, und den entsprechenden Ausleseschaltkreisen. Des Weiteren durchläuft die Infrarotstrahlung, die von den Objekten in der Umgebung ausgestrahlt wird, die Umgebungsluft, was die Wärmebildqualität auch verschlechtern kann. Das kann eine Auswirkung auf die Genauigkeit der Detektion haben, da das erste CNN-Modul typischerweise von Bildmerkmalen wie etwa Kanten, Ecken und so weiter abhängt. Andererseits sind Wärmebilder dazu imstande, Objekte auch bei extremen Wetterverhältnissen, bei schwachem Licht und in dunklen Szenarios und auch bei Tageslicht abzubilden, ohne nennenswert durch Sonnenblendung oder Reflexionen beeinträchtigt zu werden. Wärmebilder können auch Objekte mit einem großen Abstand von der Wärmekamera abbilden, was insbesondere günstig für das Detektieren von Rettungsfahrzeugen ist.Thermal images can have inherent limitations, such as a low signal-to-noise ratio, low contrast, or a lack of distinct edges and shapes. This is primarily due to the infrared detectors used for thermal image acquisition and the corresponding readout circuitry. Furthermore, the infrared radiation emitted by surrounding objects passes through the ambient air, which can also degrade the thermal image quality. This can impact detection accuracy, as the first CNN module typically relies on image features such as edges, corners, and so on. On the other hand, thermal images are capable of detecting objects even in extreme weather conditions, low-light and dark scenarios, and even in daylight, without being significantly affected by sun glare or reflections. Thermal images can also detect objects located at a great distance from the thermal camera, which is particularly advantageous for detecting emergency vehicles.
Durch Verwendung des bilateralen Filters kann die Bildqualität deutlich verbessert werden, was wiederum die Objekterkennungsleistung verbessert. Standardfilter, wie etwa Gaußsche Filter, tendieren dazu, das Bild gleichmäßig zu glätten und damit die Kanten aufgrund ihrer linearen und homogenen Wirkung zu verunschärfen. Der bilaterale Filter, der nichtlinear und inhomogen ist, hilft dabei, diese Limitierungen zu überwinden.By using the bilateral filter, the image quality can be significantly improved, which in turn improves object detection performance. Standard filters, such as Gaussian filters, tend to smooth the image evenly, thus reducing the edges due to their linear and homogeneous effect. The bilateral filter, which is nonlinear and inhomogeneous, helps to overcome these limitations.
Der bilaterale Filter ist ein kantenerhaltender Filter, der einem gewichteten Durchschnitt der nahegelegenen Pixel durch Berücksichtigen der Differenz der Pixelwerte mit Bezug auf die benachbarten Pixel entspricht, um Kanten zu erhalten, während eine Glättung des Bilds erreicht wird.The bilateral filter is an edge-preserving filter that corresponds to a weighted average of the nearby pixels by taking into account the difference of the pixel values with respect to the neighboring pixels to preserve edges while achieving smoothing of the image.
Der bilaterale Filter kann definiert sein als
Dabei ist p die Pixelposition des jeweiligen Ausgabepixels, BF[I]p ist der Pixelwert des gefilterten Bilds bei p, q ist die Position eines benachbarten Pixels in einer vordefinierten Nachbarschaft S der Position p, Iq ist der Pixelwert des Wärmebilds an Position q, Ip ist der Pixelwert des Wärmebilds an Position p, Gσ
Gemäß einigen Ausführungen wird zumindest eine Zwischen-Merkmalskarte erzeugt, indem zumindest eine Faltungsschicht des zweiten CNN-Moduls auf die Spektrogramme angewendet wird. Zumindest eine weitere Zwischen-Merkmalskarte wird durch Anwenden eines Metadaten-Encodermoduls des ANN auf Kamera-Metadaten erzeugt, wobei die Kamera-Metadaten intrinsische und/oder extrinsische Kalibrierungsdaten der Wärmekamera beinhalten. Das Erzeugen der zumindest einen zweiten Merkmalskarte beinhaltet das Kombinieren, zum Beispiel Verketten, der zumindest einen weiteren Zwischen-Merkmalskarte und der zumindest einen Zwischen-Merkmalskarte.According to some embodiments, at least one intermediate feature map is generated by applying at least one convolutional layer of the second CNN module to the spectrograms. At least one further intermediate feature map is generated by applying a metadata encoder module of the ANN to camera metadata, wherein the camera metadata includes intrinsic and/or extrinsic calibration data of the thermal camera. Generating the at least one second feature map includes combining, e.g., concatenating, the at least one further intermediate feature map and the at least one intermediate feature map.
Zum Beispiel kann die zumindest eine zweite Merkmalskarte aus der Kombination der zumindest einen weiteren Zwischen-Merkmalskarte und der zumindest einen Zwischen-Merkmalskarte bestehen. Die genannte Kombination kann jedoch auch weiterverarbeitet werden, um die zumindest eine zweite Merkmalskarte zu erzeugen. Zum Beispiel kann eine Entfaltungsschicht oder eine Sequenz von Entfaltungsschichten des zweiten CNN-Moduls auf die genannte Kombination angewendet werden, um die zumindest eine zweite Merkmalskarte zu erzeugen. Auf diese Weise kann zum Beispiel erreicht werden, dass die zumindest eine erste Merkmalskarte und die zumindest eine zweite Merkmalskarte dieselben Abmessungen haben.For example, the at least one second feature map can consist of the combination of the at least one further intermediate feature map and the at least one intermediate feature map. However, said combination can also be further processed to generate the at least one second feature map. For example, a deconvolution layer or a sequence of deconvolution layers of the second CNN module can be applied to said combination to generate the at least one second feature map. In this way, it can be achieved, for example, that the at least one first feature map and the at least one second feature map have the same dimensions.
Unter Berücksichtigung der Metadaten wie beschrieben können die Audio-Daten effektiv in das Bezugssystem der Wärmekamera gebracht werden, was die Konsistenz der Merkmale aus den zwei Sensormodalitäten verbessert.By considering the metadata as described, the audio data can be effectively brought into the thermal camera's reference frame, improving the consistency of features from the two sensor modalities.
Gemäß einigen Ausführungen beinhaltet das Metadaten-Encodermodul ein mehrschichtiges Perceptron (englisch: multi-layer perceptron).According to some embodiments, the metadata encoder module includes a multi-layer perceptron.
Gemäß einigen Ausführungen werden die Spektrogramme als Mel-Spektrogramme, insbesondere wie oben beschrieben, erzeugt.According to some embodiments, the spectrograms are generated as Mel spectrograms, in particular as described above.
Auf diese Weise werden die Audio-Datensätze in ein besonders aussagekräftiges Format transformiert, um die Merkmale unter Verwendung des zweiten CNN-Moduls zu extrahieren.In this way, the audio data sets are transformed into a particularly meaningful format in order to extract the features using the second CNN module.
Gemäß einigen Ausführungen wird eine Aufmerksamkeitskarte (englisch: attention map) abhängig von den fusionierten Merkmalen erzeugt und die Position des Rettungswagens wird abhängig von der Aufmerksamkeitskarte bestimmt. Insbesondere wird ein Aufmerksamkeitsmodul (englisch: attention module) des ANN auf die fusionierten Merkmale angewendet, um die Aufmerksamkeitskarte zu erzeugen.According to some embodiments, an attention map is generated based on the fused features, and the position of the ambulance is determined based on the attention map. Specifically, an attention module of the ANN is applied to the fused features to generate the attention map.
Insbesondere wird das Decodermodul auf Eingangsdaten, die von den fusionierten Merkmalen und der Aufmerksamkeitskarte abhängen, angewendet. Insbesondere werden die Eingangsdaten für das Decodermodul erzeugt, indem ein Punktprodukt (englisch: dot product) der Aufmerksamkeitskarte und der fusionierten Merkmale erzeugt werden. Die Position des Rettungsfahrzeugs wird durch Anwenden des Decodermoduls auf die genannten Eingangsdaten bestimmt.In particular, the decoder module is applied to input data that depends on the fused features and the attention map. In particular, the input data for the decoder The decoder module generates a dot product of the attention map and the fused features. The position of the rescue vehicle is determined by applying the decoder module to the input data.
Da Wärmebilder keine visuellen Farbanzeichen liefern, um Blinklichter des Rettungsfahrzeugs zu detektieren, hilft die Aufmerksamkeitskarte dabei, das Rettungsfahrzeug zu lokalisieren.Since thermal images do not provide visual color cues to detect emergency vehicle flashing lights, the attention map helps to locate the emergency vehicle.
Gemäß einigen Ausführungen beinhaltet das Bestimmen der Position des Rettungsfahrzeugs ein Bestimmen der Position der Begrenzungsbox für das Rettungsfahrzeug in dem Wärmebild.According to some embodiments, determining the position of the rescue vehicle includes determining the position of the bounding box for the rescue vehicle in the thermal image.
Gemäß einigen Ausführungen bildet das Wärmebild ein Zielfahrzeug in der Umgebung ab und das Zielfahrzeug wird abhängig von den fusionierten Merkmalen unter Verwendung des Decodermoduls als das Rettungsfahrzeug klassifiziert.According to some embodiments, the thermal image depicts a target vehicle in the environment and the target vehicle is classified as the rescue vehicle depending on the fused features using the decoder module.
Gemäß einem weiteren Aspekt der Erfindung wird ein computerimplementiertes Trainingsverfahren zum Trainieren eines ANN zum Durchführen eines erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs bereitgestellt. Ein Trainingswärmebild wird empfangen und das Trainingswärmebild wird vorverarbeitet. Wenigstens zwei Trainingsaudiodatensätze werden empfangen und ein jeweiliges Spektrogramm wird für jeden der Trainingsaudiodatensätze erzeugt. Zumindest eine erste Trainingsmerkmalskarte wird erzeugt, wobei das Erzeugen der zumindest einen ersten Trainingsmerkmalskarte ein Anwenden eines ersten CNN-Moduls des ANN auf das vorverarbeitete Trainingswärmebild beinhaltet. Zumindest eine zweite Trainingsmerkmalskarte wird erzeugt, wobei das Erzeugen der zumindest einen zweiten Trainingsmerkmalskarte ein Anwenden eines zweiten CNN-Moduls des ANN auf die Spektrogramme beinhaltet. Fusionierte Trainingsmerkmale werden durch Fusionieren der zumindest einen ersten Trainingsmerkmalskarte und der zumindest einen zweiten Trainingsmerkmalskarte erzeugt. Abhängig von den fusionierten Trainingsmerkmalen wird eine Trainingsposition des Rettungsfahrzeugs unter Verwendung eines Decodermoduls des ANN bestimmt. Netzwerkparameter des ANN werden abhängig von der Trainingsposition und abhängig von entsprechenden Annotationsdaten aktualisiert.According to a further aspect of the invention, a computer-implemented training method for training an ANN for performing a computer-implemented method for detecting an emergency vehicle according to the invention is provided. A training thermal image is received, and the training thermal image is preprocessed. At least two training audio data sets are received, and a respective spectrogram is generated for each of the training audio data sets. At least one first training feature map is generated, wherein generating the at least one first training feature map includes applying a first CNN module of the ANN to the preprocessed training thermal image. At least one second training feature map is generated, wherein generating the at least one second training feature map includes applying a second CNN module of the ANN to the spectrograms. Fused training features are generated by fusing the at least one first training feature map and the at least one second training feature map. Depending on the fused training features, a training position of the emergency vehicle is determined using a decoder module of the ANN. Network parameters of the ANN are updated depending on the training position and corresponding annotation data.
Die Annotationsdaten beinhalten insbesondere eine Ground-Truth-Position des Rettungsfahrzeugs, zum Beispiel in Form einer Ground-Truth-Begrenzungsbox für das Rettungsfahrzeug und der Position der Ground-Truth-Begrenzungsbox in dem Trainingswärmebild. Es ist anzumerken, dass das computerimplementierte Trainingsverfahren nicht notwendigerweise Annotationsdaten für die Trainingsaudiodatensätze benötigt. Stattdessen können insbesondere selbstüberwachte Trainingsverfahren benutzt werden.The annotation data includes, in particular, a ground-truth position of the rescue vehicle, for example, in the form of a ground-truth bounding box for the rescue vehicle and the position of the ground-truth bounding box in the training thermal image. It should be noted that the computer-implemented training method does not necessarily require annotation data for the training audio data sets. Instead, self-supervised training methods can be used.
Die beschriebenen Schritte werden insbesondere mehrmals mit unterschiedlichen Trainingswärmebildern und Trainingsaudiodatensätzen wiederholt, bis ein vordefiniertes Beendigungskriterium beziehungsweise Konvergenzkriterium erfüllt ist.In particular, the described steps are repeated several times with different training thermal images and training audio data sets until a predefined termination criterion or convergence criterion is met.
Die Netzwerkparameter beinhalten zum Beispiel Netzwerkparameter des ersten CNN-Moduls und/oder Netzwerkparameter des zweiten CNN-Moduls und/oder Netzwerkparameter des Decodermoduls. Die Netzwerkparameter können zum Beispiel entsprechende Gewichtungsfaktoren und/oder Bias-Faktoren beinhalten.The network parameters include, for example, network parameters of the first CNN module and/or network parameters of the second CNN module and/or network parameters of the decoder module. The network parameters can include, for example, corresponding weighting factors and/or bias factors.
Gemäß einigen Ausführungen weisen die Netzwerkparameter des ANN Netzwerkparameter des ersten CNN-Moduls, Netzwerkparameter des zweiten CNN-Moduls und Netzwerkparameter des Decodermoduls auf.According to some implementations, the network parameters of the ANN include network parameters of the first CNN module, network parameters of the second CNN module, and network parameters of the decoder module.
Gemäß einigen Ausführungen wird eine vordefinierte erste Verlustfunktion abhängig von der Trainingsposition und den Annotationsdaten ausgewertet und die Netzwerkparameter werden abhängig von einem Ergebnis der Auswertung der ersten Verlustfunktion aktualisiert.According to some embodiments, a predefined first loss function is evaluated depending on the training position and the annotation data, and the network parameters are updated depending on a result of the evaluation of the first loss function.
Mit anderen Worten wird überwachtes Training durch die erste Verlustfunktion implementiert.In other words, supervised training is implemented by the first loss function.
Gemäß einigen Ausführungen wird eine Trainingsaufmerksamkeitskarte abhängig von den fusionierten Trainingsmerkmalen durch ein Aufmerksamkeitsmodul des ANN erzeugt. Die Trainingsposition des Rettungsfahrzeugs wird abhängig von der Trainingsaufmerksamkeitskarte bestimmt. Die Netzwerkparameter des ANN beinhalten Netzwerkparameter des Aufmerksamkeitsmoduls.According to some embodiments, a training attention map is generated by an attention module of the ANN based on the fused training features. The training position of the rescue vehicle is determined based on the training attention map. The network parameters of the ANN include network parameters of the attention module.
Gemäß einigen Ausführungen wird eine vordefinierte zweite Verlustfunktion, die eine Merkmalsähnlichkeitsverlustfunktion ist, abhängig von der zumindest einen ersten Merkmalskarte und der zumindest eine erste Merkmalskarte ausgewertet, und die Netzwerkparameter werden abhängig von einem Ergebnis der Auswertung der zweiten Verlustfunktion aktualisiert.According to some embodiments, a predefined second loss function, which is a feature similarity loss function, is evaluated depending on the at least one first feature map and the at least one first feature map, and the network parameters are updated depending on a result of the evaluation of the second loss function.
Die Ähnlichkeitsverlustfunktion weist ein Ähnlichkeitsmaß auf, das eine Ähnlichkeit oder Unähnlichkeit der zumindest einen ersten Merkmalskarte und der zumindest einen zweiten Merkmalskarte misst. Auf diese Weise wird das selbstüberwachte Trainieren durch die zweite Verlustfunktion implementiert.The similarity loss function has a similarity measure that measures a similarity or dissimilarity of the at least one first feature map and the at least one second feature map. In this way, self-supervised training is implemented by the second loss function.
Zum Beispiel kann das Trainieren in einer Vielzahl von Trainingsepochen ausgeführt werden. Während jeder Trainingsepoche können das Trainieren gemäß der ersten Verlustfunktion und das Trainieren gemäß der zweiten Verlustfunktion getrennt ausgeführt werden.For example, training can be performed in multiple training epochs. During each training epoch, training according to the first loss function and training according to the second loss function can be performed separately.
Weitere Ausführungen des erfindungsgemäßen computerimplementierten Trainingsverfahrens ergeben sich unmittelbar aus den verschiedenen Ausführungsformen des erfindungsgemäßen computerimplementierten Verfahrens und umgekehrt. Insbesondere lassen sich einzelne Merkmale und entsprechende Erläuterungen sowie Vorteile betreffend die verschiedenen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens entsprechend auf jeweilige Ausführungen des erfindungsgemäßen computerimplementierten Trainingsverfahrens übertragen.Further embodiments of the computer-implemented training method according to the invention result directly from the various embodiments of the computer-implemented method according to the invention, and vice versa. In particular, individual features and corresponding explanations as well as advantages relating to the various embodiments of the computer-implemented method according to the invention can be transferred accordingly to respective embodiments of the computer-implemented training method according to the invention.
Gemäß einigen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens zum Detektieren eines Rettungsfahrzeugs wird das ANN unter Verwendung eines erfindungsgemäßen computerimplementierten Trainingsverfahrens trainiert.According to some embodiments of the inventive computer-implemented method for detecting an emergency vehicle, the ANN is trained using a computer-implemented training method according to the invention.
Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs bereitgestellt. Dabei wird ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs durchgeführt, wobei das Wärmebild durch eine Wärmekamera des Kraftfahrzeugs erzeugt wird und die Audio-Datensätze durch zumindest zwei Mikrophone, die an unterschiedlichen Positionen an dem Kraftfahrzeug montiert sind, erzeugt werden. Zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs wird von zumindest einer Recheneinheit, zum Beispiel zumindest einer Recheneinheit des Kraftfahrzeugs, abhängig von der Position des Rettungsfahrzeugs erzeugt und/oder Assistenzinformationen zum Unterstützen eines Fahrers des Kraftfahrzeugs beim Führen des Kraftfahrzeugs werden von der zumindest einen Recheneinheit abhängig von der Position des Rettungsfahrzeugs erzeugt.According to a further aspect of the invention, a method for at least partially automatically driving a motor vehicle is provided. In this case, a computer-implemented method according to the invention for detecting an emergency vehicle is carried out, wherein the thermal image is generated by a thermal camera of the motor vehicle and the audio data sets are generated by at least two microphones mounted at different positions on the motor vehicle. At least one control signal for at least partially automatically driving the motor vehicle is generated by at least one computing unit, for example at least one computing unit of the motor vehicle, depending on the position of the emergency vehicle and/or assistance information for supporting a driver of the motor vehicle in driving the motor vehicle is generated by the at least one computing unit depending on the position of the emergency vehicle.
Das zumindest eine Steuersignal kann zum Beispiel an einen oder mehrere Aktuatoren des Kraftfahrzeugs, einschließlich zum Beispiel eines oder mehrerer Bremsaktuatoren und/der eines oder mehrerer Lenkaktuatoren und/oder eines oder mehrerer Antriebsmotoren des Kraftfahrzeugs, bereitgestellt werden. Der eine oder die mehreren Aktuatoren können eine Längs- und/oder Quersteuerung des Kraftfahrzeugs beeinflussen, um das Kraftfahrzeug zumindest teilweise automatisch zu führen.The at least one control signal can be provided, for example, to one or more actuators of the motor vehicle, including, for example, one or more brake actuators and/or one or more steering actuators and/or one or more drive motors of the motor vehicle. The one or more actuators can influence a longitudinal and/or lateral control of the motor vehicle in order to guide the motor vehicle at least partially automatically.
Die Assistenzinformationen können mittels eines Ausgabegeräts des Kraftfahrzeugs, zum Beispiel einer Anzeige und/oder eines Audio-Ausgabesystems und/oder eines haptischen Ausgabesystems ausgegeben werden.The assistance information can be output by means of an output device of the motor vehicle, for example a display and/or an audio output system and/or a haptic output system.
Gemäß einem weiteren Aspekt der Erfindung wird ein Datenverarbeitungsgerät, das zumindest eine Recheneinheit aufweist, bereitgestellt. Das Datenverarbeitungsgerät ist dazu angepasst, ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs und/oder ein erfindungsgemäßes computerimplementiertes Trainingsverfahren durchzuführen.According to a further aspect of the invention, a data processing device having at least one computing unit is provided. The data processing device is adapted to carry out a computer-implemented method according to the invention for detecting an emergency vehicle and/or a computer-implemented training method according to the invention.
In der vorliegenden Offenbarung kann eine Recheneinheit zum Beispiel als ein Datenverarbeitungsgerät mit Verarbeitungsschaltkreisen verstanden werden. Eine Recheneinheit kann somit Rechenoperationen zur Verarbeitung von Daten durchführen. Die Rechenoperationen können auch indizierter Zugriffe auf eine Datenstruktur, beispielsweise eine Look-Up-Tabelle, LUT, umfassen.In the present disclosure, a computing unit can be understood, for example, as a data processing device with processing circuits. A computing unit can thus perform computing operations for processing data. The computing operations can also include indexed accesses to a data structure, for example, a look-up table (LUT).
Eine Recheneinheit kann insbesondere einen oder mehrere Computer, einen oder mehrere Mikrocontroller und/oder einen oder mehrere integrierte Schaltkreise, beispielsweise eine oder mehrere anwendungsspezifische integrierte Schaltungen, ASIC (englisch: „application-specific integrated circuit“), eines oder mehrere feldprogrammierbare Gate Arrays, FPGA, und/oder eines oder mehrere Einchipsysteme, SoC (englisch: „system on a chip“), enthalten. Die Recheneinheit kann auch einen oder mehrere Prozessoren, zum Beispiel einen oder mehrere Mikroprozessoren, eine oder mehrere zentrale Prozessoreinheiten, CPU (englisch: „central processing unit“), eine oder mehrere Grafikprozessoreinheiten, GPU (englisch: „graphics processing unit“) und/oder einen oder mehrere Signalprozessoren, insbesondere einen oder mehrere digitale Signalprozessoren, DSP, enthalten. Die Recheneinheit kann auch einen physischen oder einen virtuellen Verbund von Computern oder sonstigen der genannten Einheiten beinhalten.A computing unit may, in particular, contain one or more computers, one or more microcontrollers, and/or one or more integrated circuits, for example one or more application-specific integrated circuits (ASICs), one or more field-programmable gate arrays (FPGAs), and/or one or more single-chip systems (SoCs). The computing unit may also contain one or more processors, for example, one or more microprocessors, one or more central processing units (CPU), one or more graphics processing units (GPU), and/or one or more signal processors, in particular one or more digital signal processors (DSP). The computing unit may also include a physical or virtual network of computers or other of the aforementioned units.
Eine Recheneinheit kann auch eine oder mehrere Hardware- und/oder Softwareschnittstellen und/oder eine oder mehrere Speichereinheiten aufweisen. Dabei kann eine Speichereinheit als flüchtiger Datenspeicher, beispielsweise als dynamischer Speicher mit wahlfreiem Zugriff, DRAM (englisch: „dynamic random access memory“) oder statischer Speicher mit wahlfreiem Zugriff, SRAM (englisch: „static random access memory“), oder als nicht-flüchtiger Datenspeicher, beispielsweise als Festwertspeicher, ROM (englisch: „read-only memory“), als programmierbarer Festwertspeicher, PROM (englisch: „programmable read-only memory“), als löschbarer Festwertspeicher, EPROM (englisch: „erasable read-only memory“), als elektrisch löschbarer Festwertspeicher, EEPROM (englisch: „electrically erasable read-only memory“), als Flash-Speicher oder Flash-EEPROM, als ferroelektrischer Speicher mit wahlfreiem Zugriff, FRAM (englisch: „ferroelectric random access memory“), als magnetoresistiver Speicher mit wahlfreiem Zugriff, MRAM (englisch: „magnetoresistive random access memory“) oder als Phasenänderungsspeicher mit wahlfreiem Zugriff, PCRAM (englisch: „phase-change random access memory“), implementiert sein.A computing unit may also have one or more hardware and/or software interfaces and/or one or more memory units. A memory unit can be a volatile data memory, for example a dynamic random access memory (DRAM) or a static random access memory (SRAM), or a non-volatile data memory, for example a read-only memory (ROM), a programmable read-only memory (PROM), an erasable read-only memory (EPROM), an electrically erasable read-only memory (EEPROM), a flash memory or flash EEPROM, a ferroelectric random access memory (FRAM), a magnetoresistive random access memory (MRAM), or a phase-change random access memory (PCRAM). “phase-change random access memory”).
Gemäß einem weiteren Aspekt der Erfindung wird elektronisches Fahrzeugführungssystem für ein Kraftfahrzeug bereitgestellt, wobei das elektronische Fahrzeugführungssystem ein erfindungsgemäßes Datenverarbeitungsgerät beinhaltet. Die zumindest eine Recheneinheit ist dazu eingerichtet, ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs durchzuführen. Die zumindest eine Recheneinheit ist dazu eingerichtet, zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs abhängig von der Position des Rettungsfahrzeugs zu erzeugen und/oder die zumindest eine Recheneinheit ist dazu eingerichtet, Assistenzinformationen zum Unterstützen eines Fahrers des Kraftfahrzeugs beim Führen des Kraftfahrzeugs abhängig von der Position des Rettungsfahrzeugs zu erzeugen.According to a further aspect of the invention, an electronic vehicle guidance system for a motor vehicle is provided, wherein the electronic vehicle guidance system includes a data processing device according to the invention. The at least one computing unit is configured to carry out a computer-implemented method according to the invention for detecting an emergency vehicle. The at least one computing unit is configured to generate at least one control signal for at least partially automatically guiding the motor vehicle depending on the position of the emergency vehicle and/or the at least one computing unit is configured to generate assistance information for supporting a driver of the motor vehicle in guiding the motor vehicle depending on the position of the emergency vehicle.
Ein elektronisches Fahrzeugführungssystem kann als ein elektronisches System verstanden werden, welches dazu eingerichtet ist, ein Fahrzeug vollautomatisch oder vollautonom und insbesondere, ohne dass ein manuelles Eingreifen oder Steuern durch einen Fahrer oder Benutzer des Fahrzeugs notwendig wäre, zu führen. Das Fahrzeug führt alle erforderlichen Funktionen, wie etwa Lenkmanöver, Abbremsmanöver und/oder Beschleunigungsmanöver sowie Überwachung und Aufzeichnung des Straßenverkehrs sowie entsprechende Reaktionen automatisch aus. Insbesondere kann das elektronische Fahrzeugführungssystem einen vollautomatischen oder vollautonomen Fahrmodus gemäß Stufe 5 der SAE J3016 Klassifikation implementieren. Ein elektronisches Fahrzeugführungssystem kann auch als ein Fahrerassistenzsystem, ADAS, implementiert sein, welches einem Fahrer beim teilautomatischen oder teilautonomen Fahren assistiert. Insbesondere kann das elektronische Fahrzeugführungssystem einen teilautomatischen oder teilautonomen Fahrmodus nach den Stufen 1 bis 4 der SAE J3016 Klassifikation implementieren. Hier und im Folgenden bezieht sich SAE J3016 auf den entsprechenden Standard mit Datum vom April 2021.An electronic vehicle guidance system can be understood as an electronic system designed to guide a vehicle fully automatically or autonomously, and in particular without requiring manual intervention or control by a driver or user of the vehicle. The vehicle automatically performs all required functions, such as steering maneuvers, braking maneuvers, and/or acceleration maneuvers, as well as monitoring and recording road traffic and corresponding reactions. In particular, the electronic vehicle guidance system can implement a fully automatic or fully autonomous driving mode according to level 5 of the SAE J3016 classification. An electronic vehicle guidance system can also be implemented as a driver assistance system (ADAS), which assists a driver in semi-automatic or semi-autonomous driving. In particular, the electronic vehicle guidance system can implement a semi-automatic or semi-autonomous driving mode according to levels 1 to 4 of the SAE J3016 classification. Here and below, SAE J3016 refers to the corresponding standard dated April 2021.
Das wenigstens teilweise automatische Führen des Fahrzeugs kann daher ein Führen des Fahrzeugs gemäß einem vollautomatischen oder vollautonomen Fahrmodus nach Stufe 5 der SAE J3016 Klassifikation beinhalten. Das wenigstens teilweise automatische Führen des Fahrzeugs kann auch ein Führen des Fahrzeugs gemäß einem teilautomatischen oder teilautonomen Fahrmodus nach den Stufen 1 bis 4 der SAE J3016 Klassifikation beinhalten.The at least partially automatic driving of the vehicle can therefore include driving the vehicle according to a fully automatic or fully autonomous driving mode according to level 5 of the SAE J3016 classification. The at least partially automatic driving of the vehicle can also include driving the vehicle according to a partially automatic or partially autonomous driving mode according to levels 1 to 4 of the SAE J3016 classification.
Gemäß einigen Ausführungen weist das elektronische Fahrzeugführungssystem die Wärmekamera und/oder die zumindest zwei Mikrophone auf.According to some embodiments, the electronic vehicle guidance system comprises the thermal camera and/or the at least two microphones.
Weitere Ausführungen des erfindungsgemäßen elektronischen Fahrzeugführungssystems ergeben sich unmittelbar aus den verschiedenen Ausführungsformen des erfindungsgemäßen computerimplementierten Verfahrens oder des erfindungsgemäßen Verfahrens zum zumindest teilweise automatischen Führen des Kraftfahrzeugs und umgekehrt. Insbesondere lassen sich einzelne Merkmale und entsprechende Erläuterungen sowie Vorteile betreffend die verschiedenen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens entsprechend auf jeweilige Ausführungen des erfindungsgemäßen elektronischen Fahrzeugführungssystem übertragen. Insbesondere ist das erfindungsgemäße elektronische Fahrzeugführungssystem dazu ausgestaltet oder programmiert, ein computerimplementiertes Verfahren oder ein erfindungsgemäßes Verfahren durchzuführen. Insbesondere führt das erfindungsgemäße elektronische Fahrzeugführungssystem das computerimplementierte Verfahren oder das erfindungsgemäße Verfahren durch.Further embodiments of the electronic vehicle guidance system according to the invention result directly from the various embodiments of the computer-implemented method according to the invention or the method according to the invention for at least partially automatically guiding the motor vehicle and vice versa. In particular, individual features and corresponding explanations as well as advantages relating to the various embodiments of the computer-implemented method according to the invention can be transferred accordingly to respective embodiments of the electronic vehicle guidance system according to the invention. In particular, the electronic vehicle guidance system according to the invention is designed or programmed to carry out a computer-implemented method or a method according to the invention. In particular, the electronic vehicle guidance system carries out the computer-implemented method or the method according to the invention.
Gemäß einem weiteren Aspekt der Erfindung wird ein Befehle beinhaltendes Computerprogramm bereitgestellt. Wenn die Befehle von einem Datenverarbeitungsgerät, insbesondere von einem erfindungsgemäßen Datenverarbeitungsgerät, ausgeführt werden, veranlassen die Befehle das Datenverarbeitungsgerät dazu, ein erfindungsgemäßes computerimplementiertes Verfahren und/oder ein erfindungsgemäßes computerimplementiertes Trainingsverfahren und/oder ein erfindungsgemäßes Verfahren zum zumindest teilweise automatischen Führen eines Kraftfahrzeugs durchzuführen.According to a further aspect of the invention, a computer program containing instructions is provided. When the instructions are executed by a data processing device, in particular by a data processing device according to the invention, the instructions cause the data processing device to carry out a computer-implemented method according to the invention and/or a computer-implemented training method according to the invention and/or a method according to the invention for at least partially automatically driving a motor vehicle.
Die Befehle können zum Beispiel als Programmcode bereitgestellt werden. Der Programmcode kann zum Beispiel als Binärcode oder Assembler und/oder als Quellcode einer Programmiersprache, zum Beispiel C, und/oder als Programmskript, zum Beispiel Python, bereitgestellt werden.The instructions can be provided, for example, as program code. The program code can be provided, for example, as binary code or assembly code and/or as source code of a programming language, for example, C, and/or as a program script, for example, Python.
Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt, welches ein erfindungsgemäßes Computerprogramm speichert.According to a further aspect of the invention, a computer-readable storage medium is provided which stores a computer program according to the invention.
Das Computerprogramm und das computerlesbare Speichermedium sind jeweilige Computerprogrammprodukte mit Befehlen.The computer program and the computer-readable storage medium are respective computer program products with instructions.
Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren gezeigten Merkmale und Merkmalskombinationen können von der Erfindung nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen umfasst sein. Insbesondere können auch Ausführungsformen und Merkmalskombinationen von der Erfindung umfasst sein, die nicht alle der Merkmale eines ursprünglich formulierten Anspruchs aufweisen. Darüber hinaus können Ausführungsformen und Merkmalskombinationen von der Erfindung umfasst sein, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder davon abweichen.Further features of the invention emerge from the claims, the figures and the description of the figures. The features and combinations of features mentioned above in the description as well as the features and combinations of features mentioned below in the description of the figures and/or shown in the figures can be encompassed by the invention not only in the respectively specified combination, but also in other combinations. In particular, embodiments and combinations of features can also be encompassed by the invention which do not have all of the features of an originally formulated claim. Furthermore, embodiments and combinations of features can be encompassed by the invention which go beyond or deviate from the combinations of features set out in the backreferences of the claims.
Im Folgenden wird die Erfindung anhand spezifischer beispielhafter Ausführungen und jeweiliger schematischer Zeichnungen im Einzelnen erläutert. In den Zeichnungen können identische oder funktionsgleiche Elemente mit denselben Bezugszeichen bezeichnet sein. Die Beschreibung identischer oder funktionsgleicher Elemente wird nicht notwendigerweise in Bezug auf unterschiedliche Figuren wiederholt.The invention is explained in detail below with reference to specific exemplary embodiments and corresponding schematic drawings. In the drawings, identical or functionally equivalent elements may be designated by the same reference numerals. The description of identical or functionally equivalent elements is not necessarily repeated with reference to different figures.
In den Figuren zeigen:
Die zumindest eine Recheneinheit 5 ist dazu angepasst, ein erfindungsgemäßes computerimplementiertes Verfahren zum Detektieren eines Rettungsfahrzeugs in der Umgebung des Kraftfahrzeugs 1 abhängig von dem Wärmekamera 7 und den Audio-Datensätzen 10 durchzuführen. Ein schematisches Flussdiagramm eines derartigen computerimplementierten Verfahrens ist in
Die zumindest eine Recheneinheit 5 kann zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Kraftfahrzeugs 1 abhängig von der Position des Rettungsfahrzeugs erzeugen. Das zumindest eine Steuersignal kann zum Beispiel einem oder mehreren Aktuatoren des Kraftfahrzeugs 1, einschließlich zum Beispiel eines oder mehrerer Bremsaktuatoren und/oder eines oder mehrerer Lenkaktuatoren und/oder eines oder mehrerer Antriebsmotoren des Kraftfahrzeugs 1, bereitgestellt werden. Das eine oder die mehreren Aktuatoren können eine Längs- und/oder Quersteuerung des Kraftfahrzeugs 1 beeinflussen, um das Kraftfahrzeug 1 zumindest teilweise automatisch zu führen.The at least one computing unit 5 can generate at least one control signal for at least partially automatically guiding the motor vehicle 1 depending on the position of the rescue vehicle. The at least one control signal can be provided, for example, to one or more actuators of the motor vehicle 1, including, for example, one or more brake actuators and/or one or more steering actuators and/or one or more drive motors of the motor vehicle 1. The one or more actuators can influence a longitudinal and/or lateral control of the motor vehicle 1 in order to guide the motor vehicle 1 at least partially automatically.
Alternativ oder zusätzlich kann die zumindest eine Recheneinheit 5 Assistenzinformationen zum Unterstützen eines Fahrers des Kraftfahrzeugs 1 beim Führen des Kraftfahrzeugs 1 abhängig von der Position des Rettungsfahrzeugs erzeugen. Die Assistenzinformationen können mittels eines Ausgabegeräts des Kraftfahrzeugs 1, zum Beispiel einem Display und/oder eines Audioausgabesystems und/oder eines haptischen Ausgabesystems, ausgegeben werden.Alternatively or additionally, the at least one computing unit 5 can generate assistance information to support a driver of the motor vehicle 1 in driving the motor vehicle 1 depending on the position of the rescue vehicle. The assistance information can be output via an output device of the motor vehicle 1, for example, a display and/or an audio output system and/or a haptic output system.
In Schritt 200 des computerimplementierten Verfahrens wird das Wärmebild 7 von der Wärmekamera 3 empfangen und das Wärmebild 7 wird vorverarbeitet. In Schritt 210 werden die Audio-Datensätze 10 von den zumindest zwei Mikrophonen 4 empfangen und ein jeweiliges Spektrogramm 23 wird für jeden der Audio-Datensätze 10 erzeugt. In Schritt 220 wird die zumindest eine erste Merkmalskarte 24 erzeugt, wobei das Erzeugen der zumindest einen ersten Merkmalskarte 24 ein Anwenden eines ersten CNN-Moduls 9 eines trainierten ANN 6 auf das vorverarbeitete Wärmebild 7 beinhaltet. In Schritt 230 wird zumindest eine zweite Merkmalskarte 25 erzeugt, wobei das Erzeugen der zumindest einen zweiten Merkmalskarte 25 ein Anwenden eines zweiten CNN-Moduls 12 des ANN 6 auf die Spektrogramme 23 beinhaltet. In Schritt 240 werden fusionierte Merkmale durch Fusionieren der zumindest einen ersten Merkmalskarte 24 und der zumindest einen zweiten Merkmalskarte 25 erzeugt. In Schritt 250 wird die Position des Rettungsfahrzeugs abhängig von den fusionierten Merkmalen unter Verwendung eines Decodermoduls 17 des ANN 6 erzeugt.In step 200 of the computer-implemented method, the thermal image 7 is received by the thermal camera 3, and the thermal image 7 is preprocessed. In step 210, the audio data sets 10 are received by the at least two microphones 4, and a respective spectrogram 23 is generated for each of the audio data sets 10. In step 220, the at least one first feature map 24 is generated, wherein generating the at least one first feature map 24 includes applying a first CNN module 9 of a trained ANN 6 to the preprocessed thermal image 7. In step 230, at least one second feature map 25 is generated, wherein generating the at least one second feature map 25 includes applying a second CNN module 12 of the ANN 6 to the spectrograms 23. In step 240, fused features are generated by fusing the at least one first feature map 24 and the at least one second feature map 25. In step 250, the position of the rescue vehicle is generated depending on the fused features using a decoder module 17 of the ANN 6.
Ein Vorverarbeitungsmodul 8, welches getrennt von dem ANN 6 bereitgestellt sein kann, führt die Vorverarbeitung des Wärmebilds 7 aus, welche zum Beispiel ein Anwenden eines bilateralen Filters auf das Wärmebild 7 oder auf ein von dem Wärmebild 7 abhängiges Bild beinhaltet. In manchen Ausführungen kann das Wärmebild 7 ein Ein-Kanal-Bild sein, das in ein Mehr-Kanal-Bild, zum Beispiel ein Vier-Kanal-Bild, zum Beispiel ein Bild der Abmessungen 416 x 416 x 4 konvertiert werden kann, indem eine Fokusoperation angewendet wird, die räumliche Informationen teilweise in Tiefeninformationen überträgt. Die Fokusoperation kann zum Beispiel nach der Anwendung des bilateralen Filters ausgeführt werden. Das erste CNN-Modul 9, das als ein Merkmalsextraktor in der Wärmebilddomäne fungiert, erzeugt die zumindest eine erste Merkmalskarte 24 basierend auf dem Ausgabebild 7' des ersten vorverarbeiteten Moduls 8.A preprocessing module 8, which may be provided separately from the ANN 6, performs the preprocessing of the thermal image 7, which may include, for example, applying a bilateral filter to the thermal image 7 or to an image dependent on the thermal image 7. In some embodiments, the thermal image 7 may be a single-channel image that can be converted into a multi-channel image, e.g., a four-channel image, e.g., an image of dimensions 416 x 416 x 4, by applying a focus operation that partially translates spatial information into depth information. The focus operation may, for example, be performed after the application of the bilateral filter. The first CNN module 9, which functions as a feature extractor in the thermal image domain, generates the at least one first feature map 24 based on the output image 7' of the first preprocessing module 8.
Das erste CNN-Modul 9 ist in
Die Audio-Datensätze 10 werden von einem Audio-Verarbeitungsmodul 11, welches separat zu dem ANN 6 bereitgestellt sein kann, in die jeweiligen Spektrogramme 23, zum Beispiel Mel-Spektrogramme konvertiert. Das zweite CNN-Modul 10, welches als ein Stereo-Merkmalsextraktor in der Audio-Domäne fungiert, erzeugt die zumindest eine zweite Merkmalskarte 25 basierend auf der Ausgabe des Audioverarbeitungsmoduls 11.The audio data sets 10 are converted into the respective spectrograms 23, for example, mel spectrograms, by an audio processing module 11, which may be provided separately from the ANN 6. The second CNN module 10, which functions as a stereo feature extractor in the audio domain, generates the at least one second feature map 25 based on the output of the audio processing module 11.
Das zweite CNN-Modul 10 ist in
Die resultierende zumindest eine zweite Merkmalskarte 25 und die zumindest eine erste Merkmalskarte 24 können dann dieselben Abmessungen haben. Diese werden durch ein Fusionsmodul 13 verkettet. Die fusionierten Merkmale werden dann einem Aufmerksamkeitsmodul 14 zugeführt, welches in
Das Aufmerksamkeitsmodul 14 wird basierend auf dem Klassenaktivierungskartenkonzept ausgestaltet. Es verwendet K x 3 x 3 Faltungsschichten 39, globales Durchschnittspooling 47, eine vollständig verbundene Faltungsschicht 46 und eine Softmaxschicht 48 als die letzte Schicht, wobei K die Anzahl von Kategorien ist. Jede Merkmalskarte stellt die Aufmerksamkeitsposition für eine jeweilige Klasse dar. Die Aufmerksamkeitskarte 15 wird durch Multiplizieren der gewichteten Summe der K x 13 x 13 Merkmalskarte mit dem Gewicht der vollständig verbundenen Schicht erzeugt. Eine Batch-Normalisierungsschicht 40 kann bereitgestellt werden. Um die Aufmerksamkeitskarte 15 zu erzeugen, wird eine K x 1 x 1 Faltungsschicht 41 gefolgt von einer ReLU-Aktivierungsfunktion 42 benutzt. Sie gibt eine K x 13 x 13 Merkmalskarte aus, die dann mit einer 1 x 1 x 1 Faltungsschicht 43 gefaltet wird, um die K Merkmalskarten zu aggregieren. Sie erzeugt somit eine Aufmerksamkeitskarte 15 von 1 x 13 x 13, die von einer Sigmoid-Funktion 45 normalisiert wird.The attention module 14 is designed based on the class activation map concept. It uses K × 3 × 3 convolutional layers 39, global average pooling 47, a fully connected convolutional layer 46, and a softmax layer 48 as the final layer, where K is the number of categories. Each feature map represents the attention position for a respective class. The attention map 15 is generated by multiplying the weighted sum of the K × 13 × 13 feature maps by the weight of the fully connected layer. A batch normalization layer 40 may be provided. To generate the attention map 15, a K × 1 × 1 convolutional layer 41 followed by a ReLU activation function 42 is used. It outputs a K × 13 × 13 feature map, which is then convolved with a 1 × 1 × 1 convolutional layer 43 to aggregate the K feature maps. It thus produces an attention map 15 of 1 x 13 x 13, which is normalized by a sigmoid function 45.
Das Punktproduktmodul 16 wirkt wie folgt:
Das Decodermodul 17 verwendet zwei vollständig verbundene Faltungsschichten 37 als Klassifizierer gefolgt von einer Softmax-Funktion 38, um die Wahrscheinlichkeit jeder Klasse zu erzeugen.The decoder module 17 uses two fully connected convolutional layers 37 as classifiers followed by a softmax function 38 to generate the probability of each class.
Ein Aufmerksamkeitsverlust und ein Wahrnehmungsverlust werden dazu benutzt, die CNN-Module 9, 12 von Ende-zu-Ende zu trainieren. Allerdings wird das zweite CNN-Modul 12 unter Verwendung von Wissenstransfer von der Wärmedomäne zur Audio-Domäne trainiert. Daher wird ein Merkmalsanpassungsverlust zusammen mit dem Aufmerksamkeitsverlust und dem Wahrnehmungsverlust benutzt. Das hilft dabei, das Rettungsfahrzeug in dem gemeinsamen Bezugssystem zu erkennen und zu lokalisieren.An attention loss and a perception loss are used to train CNN modules 9 and 12 end-to-end. However, the second CNN module 12 is trained using knowledge transfer from the thermal domain to the audio domain. Therefore, a feature adaptation loss is used in conjunction with the attention loss and the perception loss. This helps detect and localize the emergency vehicle in the common reference frame.
Zum Beispiel werden für jede Position fünf Begrenzungsboxen mit vier Koordinaten für jede von ihnen als Positionen 19, ein Intersection-over-Union-Wert, loU-Wert 22 und zwei Klassenwahrscheinlichkeiten 20, die in einer Größe H × W × 50 für die Ausgabe des zweiten CNN-Moduls 17 resultieren, prädiziert.For example, for each position, five bounding boxes with four coordinates for each of them as positions 19, an intersection-over-union value, IOU value 22, and two class probabilities 20 are predicted, resulting in a size H × W × 50 for the output of the second CNN module 17.
Die verschiedenen Verlustfunktionen, die benutzt werden können, sind unten aufgelistet. Eine erste Verlustfunktion L1(xi) wird als eine Summe einer Aufmerksamkeitsverlustfunktion Latt und eine Wahrnehmungsverlustfunktion Lper konstruiert. Die Aufmerksamkeitsverlustfunktion wird als Summe einer binären Kreuzentropie-Verlustfunktion und eine loU-Verlustfunktion mit normalisierter Distanz definiert, wobei die letztere in der Veröffentlichung
Die erste Verlustfunktion ist somit gegeben durch
Zusätzlich wird eine zweite Verlustfunktion L2, die als eine Ähnlichkeitsverlustfunktion oder Anpassungsverlustfunktion bezeichnet werden kann, dazu benutzt, das Netzwerk zu trainieren, um die Audiodaten in dasselbe Bezugssystem wie das Wärmebild 7 zu übertragen. Das deutet an, dass die internen High-Level Darstellungen der Rettungsfahrzeuge über die Domänen hinweg geteilt werden können, obwohl in den frühen Stadien des Netzwerks die Eingabe jeder Domäne ihre eigenen distinktiven Merkmale hat. Es ist zu erwarten, dass die Merkmale der zwei Domänen unter bestimmten Distanzkriterien nahe genug sind. Berücksichtigt man das, so kann die folgende Rang-Verlustfunktion als die zweite Verlustfunktion betrachtet werden:
Ein autonomes oder teilautonomes Fahrzeug kann nur dann effektiv auf ein Rettungsfahrzeug in der Umgebung reagieren, wenn es das Rettungsfahrzeug in der realen Welt genau detektieren, verfolgen und abbilden kann. Ähnlich wie ein manuell gefahrenes Fahrzeug sollten autonome oder teilautonome Fahrzeuge auch dazu imstande sein, sichere Reaktionsmanöver entsprechend dem detektierten Rettungsfahrzeug durchzuführen. Es hat frühere Arbeiten zur Rettungsfahrzeugdetektion nur auf Basis der visuellen Domäne, nur der Audio-Domäne zum Detektieren von Sirenentönen, und der Fusion von Daten aus der visuellen Domäne und der Audio-Domäne gegeben.An autonomous or semi-autonomous vehicle can only respond effectively to an emergency vehicle in the surrounding area if it can accurately detect, track, and map the emergency vehicle in the real world. Similar to a manually driven vehicle, autonomous or semi-autonomous vehicles should also be able to perform safe response maneuvers according to the detected emergency vehicle. There has been previous work on emergency vehicle detection based solely on the visual domain, solely on the audio domain for detecting siren sounds, and fusion of data from the visual and audio domains.
Im Allgemeinen heben sich Rettungsfahrzeuge aus der Menge von Fahrzeugen aufgrund ihrer Form und Größe, ihrer farbigen Warnblinklichter und ihrer Sirenentönen ab. Aufgrund der großen Intensität der Warnblinklichter können sie Halo-Effekte erzeugen oder blenden, was zu einer Blendung von Sensoren für den sichtbaren Bereich führen kann. Folglich kann die Detektion anderer Fahrzeuge oder Fußgänger beeinträchtigt werden. Eine derartige Methodik kann auch bei schwachen Lichtverhältnissen, starken Lichtverhältnissen oder widrigen Wetterverhältnissen, wie etwa Nebel, Regen, Schnee und so weiter fehlschlagen.Emergency vehicles generally stand out from the crowd due to their shape and size, their colored hazard lights, and their siren sounds. Due to the high intensity of the hazard lights, they can create halo effects or glare, which can blind visible-area sensors. Consequently, the detection of other vehicles or pedestrians can be compromised. Such methods may also fail in low-light conditions, strong light conditions, or adverse weather conditions such as fog, rain, snow, and so on.
Die vorliegende Erfindung kann die genannten Nachteile zumindest teilweise überwinden. Ein Rettungsfahrzeug mit Blinklichtern und/oder aktiver Sirene kann leicht durch einen menschlichen Fahrer unter Verwendung visueller und Audioanzeichen lokalisiert werden und das menschliche Gehirn ist dazu imstande, diese Informationen in ein gemeinsames Bezugssystem zu integrieren. Auf ähnliche Weise stellt die vorliegende Erfindung einen modalitätsübergreifenden Ansatz zum Detektieren und Klassifizieren von Rettungsfahrzeugen unter allen klimatischen und Beleuchtungsverhältnissen, insbesondere in Notsituationen bereit, in denen sie durch Blinklichter und Sirenentöne gekennzeichnet sind.The present invention can at least partially overcome the aforementioned disadvantages. An emergency vehicle with flashing lights and/or an active siren can be easily located by a human driver using visual and audio cues, and the human brain is capable of integrating this information into a common reference system. Similarly, the present invention provides a cross-modality approach for detecting and classifying emergency vehicles under all climatic and lighting conditions, particularly in emergency situations where they are identified by flashing lights and siren sounds.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES CONTAINED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents submitted by the applicant was generated automatically and is included solely for the convenience of the reader. This list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
Zitierte Nicht-PatentliteraturCited non-patent literature
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| DE102024101578.0ADE102024101578A1 (en) | 2024-01-19 | 2024-01-19 | Detecting an emergency vehicle in a motor vehicle environment | 
| Application Number | Priority Date | Filing Date | Title | 
|---|---|---|---|
| DE102024101578.0ADE102024101578A1 (en) | 2024-01-19 | 2024-01-19 | Detecting an emergency vehicle in a motor vehicle environment | 
| Publication Number | Publication Date | 
|---|---|
| DE102024101578A1true DE102024101578A1 (en) | 2025-07-24 | 
| Application Number | Title | Priority Date | Filing Date | 
|---|---|---|---|
| DE102024101578.0APendingDE102024101578A1 (en) | 2024-01-19 | 2024-01-19 | Detecting an emergency vehicle in a motor vehicle environment | 
| Country | Link | 
|---|---|
| DE (1) | DE102024101578A1 (en) | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| US20190114489A1 (en)* | 2017-10-17 | 2019-04-18 | Toyota Research Institute, Inc. | Systems and methods for identification of objects using audio and sensor data | 
| DE102019202634B3 (en)* | 2019-02-27 | 2020-07-23 | Zf Friedrichshafen Ag | Method, control device for an automated road vehicle, computer program product for recognizing objects in road traffic and automated road vehicle for mobility services | 
| US20210103747A1 (en)* | 2020-12-17 | 2021-04-08 | Hassnaa Moustafa | Audio-visual and cooperative recognition of vehicles | 
| US20210406560A1 (en)* | 2020-06-25 | 2021-12-30 | Nvidia Corporation | Sensor fusion for autonomous machine applications using machine learning | 
| US20220157165A1 (en)* | 2020-11-18 | 2022-05-19 | Nvidia Corporation | Emergency Response Vehicle Detection for Autonomous Driving Applications | 
| US20220219736A1 (en)* | 2021-01-14 | 2022-07-14 | Baidu Usa Llc | Emergency vehicle audio and visual detection post fusion | 
| Publication number | Priority date | Publication date | Assignee | Title | 
|---|---|---|---|---|
| US20190114489A1 (en)* | 2017-10-17 | 2019-04-18 | Toyota Research Institute, Inc. | Systems and methods for identification of objects using audio and sensor data | 
| DE102019202634B3 (en)* | 2019-02-27 | 2020-07-23 | Zf Friedrichshafen Ag | Method, control device for an automated road vehicle, computer program product for recognizing objects in road traffic and automated road vehicle for mobility services | 
| US20210406560A1 (en)* | 2020-06-25 | 2021-12-30 | Nvidia Corporation | Sensor fusion for autonomous machine applications using machine learning | 
| US20220157165A1 (en)* | 2020-11-18 | 2022-05-19 | Nvidia Corporation | Emergency Response Vehicle Detection for Autonomous Driving Applications | 
| US20210103747A1 (en)* | 2020-12-17 | 2021-04-08 | Hassnaa Moustafa | Audio-visual and cooperative recognition of vehicles | 
| US20220219736A1 (en)* | 2021-01-14 | 2022-07-14 | Baidu Usa Llc | Emergency vehicle audio and visual detection post fusion | 
| Publication | Publication Date | Title | 
|---|---|---|
| DE102018101125A1 (en) | Recurrent deep neuronal convolution network for the detection of objects | |
| DE102017203276B4 (en) | Method and device for determining a trajectory in off-road scenarios | |
| DE102018116036A1 (en) | Training a deep convolutional neural network for individual routes | |
| DE102021128041A1 (en) | IMPROVEMENT OF A VEHICLE NEURAL NETWORK | |
| DE102020211280A1 (en) | Computer-implemented method for environment recognition for an automated driving system, machine learning method, control unit for an automated driving system and computer program for such a control unit | |
| DE102021201445A1 (en) | Computer-implemented method for testing conformance between real and synthetic images for machine learning | |
| DE102022121109A1 (en) | Visual perception with a vehicle based on a camera image and an ultrasound map | |
| DE102018206108A1 (en) | Generate validation data with generative contradictory networks | |
| DE102021205230A1 (en) | HAZARD DETECTION ENSEMBLE ARCHITECTURE SYSTEM AND PROCEDURE | |
| DE102021200568A1 (en) | COMPUTER-IMPLEMENTED METHOD OF ANALYZING THE RELEVANCE OF VISUAL PARAMETERS FOR TRAINING A COMPUTER VISION MODEL | |
| DE102013210771A1 (en) | DETECTION OF A COMPLEX OBJECT USING A CASCADE OF CLASSIFICATION EQUIPMENT | |
| DE102024101578A1 (en) | Detecting an emergency vehicle in a motor vehicle environment | |
| DE102022124384A1 (en) | Automatic environment perception based on multimodal sensor data from a vehicle | |
| DE102023205473A1 (en) | Improving the performance of neural networks under distribution shifting | |
| DE102022121778A1 (en) | Detecting a trailer hitch in the surroundings of a vehicle | |
| DE102022121839A1 (en) | Text recognition based on a recorded camera image | |
| DE102022119950A1 (en) | IMPROVED OBJECT RECOGNITION | |
| DE102023125727A1 (en) | Pursuit of an emergency vehicle | |
| DE102023125732A1 (en) | Training an artificial neural network to perform a computer vision task | |
| DE102023132276B4 (en) | Method for controlling automatic acceleration and braking of a vehicle and corresponding vehicle control system | |
| DE102024205418A1 (en) | TRAINING MACHINE LEARNING PROCESSES FOR AUTONOMOUS DRIVING APPLICATIONS | |
| DE102024102364A1 (en) | Training method for training an artificial neural network to perform a computer vision task, method for computer vision and driving a motor vehicle | |
| DE102024132286A1 (en) | Device for controlling a vehicle and method therefor | |
| DE102024203530A1 (en) | Apparatus for training, inference and methods therefor | |
| DE102024101509A1 (en) | Estimation of an intended body movement of a person and driving a motor vehicle | 
| Date | Code | Title | Description | 
|---|---|---|---|
| R163 | Identified publications notified | ||
| R012 | Request for examination validly filed |