ДИАГНОСТИКА РЕСПИРАТОРНОЙ ИНФЕКЦИИ ПОСРЕДСТВОМ CNN С DIAGNOSTICS OF RESPIRATORY INFECTION USING CNN C
МЕХАНИЗМОМ ВНИМАНИЯMECHANISM OF ATTENTION
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Изобретение относится к области информационных и коммуникационных технологий (ИКТ), специально предназначенных для медицинской диагностики, в частности к способу и системе диагностирования респираторной инфекции на основе анализа акустических данных пациента с помощью методов глубокого обучения.The invention relates to the field of information and communication technologies (ICT), specifically designed for medical diagnostics, in particular to a method and system for diagnosing a respiratory infection based on the analysis of patient acoustic data using deep learning methods.
УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION
Эпидемии инфекционных заболеваний, вызванные респираторными вирусами, стали происходить в мире все чаще. Так, например, мировая эпидемия коронавирусной инфекции COVTD-2019, которая вызвана респираторным вирусом SARS-CoV-2, явилась неожиданным испытанием для общественности. Волнообразное распространение вирусной инфекции приводит к неоднородному росту числа зараженных во времени. Резкое увеличение количества пациентов приводит к многократному утяжелению и усложнению труда медицинских работников, которые стремятся оказать помощь каждому больному. Эпидемия коронавирусной инфекции выявила проблемы в области здравоохранения, связанные с невозможностью быстрого перераспределения материальных и человеческих ресурсов по различным регионам, а также показала необходимость минимизировать контакты с потенциально больными гражданами с помощью выполнения экспресс диагностики состояния их физического здоровья.Epidemics of infectious diseases caused by respiratory viruses have become more frequent in the world. For example, the global epidemic of the coronavirus infection COVTD-2019, which is caused by the respiratory virus SARS-CoV-2, was an unexpected test for the public. The undulating spread of a viral infection leads to a non-uniform increase in the number of infected people over time. A sharp increase in the number of patients leads to multiple aggravation and complication of the work of medical workers who seek to help each patient. The coronavirus infection epidemic has revealed health problems associated with the impossibility of quickly redistributing material and human resources across different regions, and has also shown the need to minimize contacts with potentially sick citizens by performing express diagnostics of their physical health.
Данная проблема в настоящее время решается современными средствами, которые предоставляют методы машинного обучения и алгоритмы глубокого обучения, путем снабжения больниц специальным программным обеспечением, способным помочь доктору в диагностировании заболевания, с одной стороны. С другой стороны, посредством предоставления пациенту мобильного приложения, позволяющего выполнить нужное количество аудиозаписей, и передать их системе, находящейся на сервере, которая выполнит их обработку, после чего выдаст заключение о состоянии физического здоровья в контексте наличия либо отсутствия респираторного заболевания, и отправит его на мобильное устройство пользователя.This problem is currently being solved by modern means, which provide machine learning methods and deep learning algorithms, by supplying hospitals with special software that can help the doctor in diagnosing the disease, on the one hand. On the other hand, by providing the patient with a mobile application that allows you to make the required number of audio recordings, and transfer them to the system located on the server, which will process them, after which it will issue a conclusion on the state of physical health in the context of the presence or absence of a respiratory disease, and send it to user's mobile device.
На сегодняшний день существует несколько подходов, посвященных диагностированию респираторных инфекций. Основная идея большей части из них основана на обработке аудиосигналов человеческого тела: кашля, дыхания, звуков грудной клетки. Помимо обработки звуков тела человека, для диагностирования, например COVID-19, методами глубокого обучения также используются снимки рентгена и компьютерной томографии грудной клетки.To date, there are several approaches to diagnosing respiratory infections. The main idea of most of them is based on the processing of audio signals from the human body: coughing, breathing, chest sounds. In addition to processing sounds from the human body, deep learning also uses X-ray and CT scans of the chest to diagnose COVID-19, for example.
По результатам исследований, проведенным исследовательскими группами, простые бинарные классификаторы данных, в основе которых лежит логистическая регрессия, градиентный бустинг и метод опорных векторов (SVM) дают точность до 82%. Подход, использующий случайный лес, дает точность классификации на тестовых данных, достигающую 66.74%. Некоторые исследователи идут по пути разработки классификатора, представленного тремя ветками и медиатором по аналогии принятия решения на основе независимых мнений нескольких врачей.According to the results of research conducted by research groups, simple binary data classifiers based on logistic regression, gradient boosting and support vector machine (SVM) give an accuracy of up to 82%. The random forest approach gives a classification accuracy of up to 66.74% on test data. Some researchers follow the path of developing a classifier, represented by three branches and a mediator, by analogy with making a decision based on the independent opinions of several doctors.
Наиболее близким аналогом заявляемого изобретения является техническое решение, раскрытое в заявке US 2019088367 А1. Описан способ определения патологии легких по звуковому респираторному сигналу, который включает ввод множества аудиофайлов, содержащих обучающий набор, в искусственную нейронную сеть (ИНС), при этом множество аудиофайлов содержат сеансы с пациентами с известными патологиями известной степени тяжести. Способ дополнительно включает аннотирование множества аудиофайлов метаданными, относящимися к пациентам с известными патологиям, и анализ множества аудиофайлов, при этом анализ включает извлечение спектрограмм для каждого из множества аудиофайлов и множества дескрипторов, связанных с хрипом и влажным хрипом во множестве аудиофайлов. Кроме того, способ включает обучение ИНС с использованием множества аудиофайлов, спектрограмм, метаданных и множества дескрипторов. Наконец, способ включает определение патологии легких, связанной с новой записью звука, введенной в ИНС.The closest analogue of the claimed invention is the technical solution disclosed in the application US 2019088367 A1. A method for determining lung pathology by a sound respiratory signal is described, which includes inputting a plurality of audio files containing a training set into an artificial neural network (ANN), while a plurality of audio files contain sessions with patients with known pathologies of a known severity. The method further includes annotating the plurality of audio files with metadata related to patients with known pathologies, and analyzing a plurality of audio files, the analysis comprising extracting spectrograms for each of the plurality of audio files and a plurality of descriptors associated with wheezing and wheezing in the plurality of audio files. In addition, the method includes training the ANN using a plurality of audio files, spectrograms, metadata, and a plurality of descriptors. Finally, the method includes determining lung pathology associated with the new audio recording entered into the ANN.
В отличие от наиболее близкого аналога, в заявленном решении для диагностирования респираторного заболевания на основе анализа акустических данных пациента используют реализованный в клиент- серверном приложении алгоритм глубокого обучения посредством сверточных нейронных сетей CNN с механизмом внимания (attention). Положительный или отрицательный результат наличия у пациента респираторной инфекции, например COVID-19, ставится только при совпадении диагнозов задачи классификации по трём типам акустических данных кашля, дыхания, речи, получаемых от пациента, что снижает вероятность ошибки.Unlike the closest analogue, the claimed solution for diagnosing a respiratory disease based on the analysis of the patient's acoustic data uses a deep learning algorithm implemented in a client-server application using convolutional neural networks CNN with an attention mechanism (attention). A positive or negative result of a patient having a respiratory infection, for example, COVID-19, is set only if the diagnoses of the classification task match according to the three types of acoustic data of cough, respiration, speech received from the patient, which reduces the likelihood of error.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в разработке способа и системы диагностирования пациента на наличие признаков респираторной инфекции на основе анализа акустических данных пациента - кашля, дыхания и речи, с использованием алгоритма глубокого обучения посредством рекуррентных нейронных сетей CNN с механизмом внимания (attention), и диагноз ставится на основании решений по трём веткам - кашля, дыхания и речи.The technical problem to be solved by the claimed invention is to develop a method and system for diagnosing a patient for signs of a respiratory infection based on the analysis of the patient's acoustic data - cough, breathing and speech, using a deep learning algorithm through CNN recurrent neural networks with an attention mechanism ( attention), and the diagnosis is made on the basis of decisions on three branches - coughing, breathing and speech.
Техническим результатом заявляемого изобретения является обеспечение способа и системы быстрого диагностирования респираторной инфекнии у пациента с большой точностью.The technical result of the claimed invention is to provide a method and system for the rapid diagnosis of a respiratory infection in a patient with great accuracy.
Указанный технический результат достигается за счёт того, что: Способ диагностирования пациента на наличие признаков респираторной инфекции содержит следующие этапы:The specified technical result is achieved due to the fact that: The method for diagnosing a patient for signs of a respiratory infection comprises the following steps:
- получение от пациента аудиозаписей кашля, дыхания, речи;- receiving from the patient audio recordings of coughing, breathing, speech;
- получение трех наборов спектрограмм отдельно для каждой из аудиозаписей кашля, дыхания, речи;- obtaining three sets of spectrograms separately for each of the audio recordings of coughing, breathing, speech;
- для каждого из трех наборов спектрограмм дополнительная сегментация набора спектрограмм на отдельные фрагменты с пересечениями по времени, в результате которой получают сегментированную аудиозапись отдельно для каждой из аудиозаписей кашля, дыхания, речи;- for each of the three sets of spectrograms, additional segmentation of the set of spectrograms into separate fragments with intersections in time, as a result of which a segmented audio recording is obtained separately for each of the audio recordings of cough, breathing, speech;
- для каждой из трех сегментированных аудиозаписей экстракция из сегментированной аудиозаписи признаков путем обработки полученных фрагментов спектрограмм посредством CNN энкодера;- for each of the three segmented audio recordings, extraction of features from the segmented audio recording by processing the obtained fragments of spectrograms using a CNN encoder;
- для каждой ветки кашля, дыхания, речи осуществляют: подачу данных, полученных на выходе с CNN энкодера, на вход первого слоя блока внимания для поиска взаимосвязей между различными частями данных; одновременно указанные данные с выхода CNN энкодера поступают на вход второго слоя блока внимания, где они линейно поэлементно умножаются с выходными данными первого слоя блока внимания, и результат подается на вход слоя сверточной нейронной сети CNN с механизмом внимания для выделения существенных взаимосвязей без изменения размерности, и данные, полученные на выходе слоя сверточной нейронной сети CNN с механизмом внимания, передают в полносвязный слой сверточной нейронной сети CNN с механизмом внимания, и на выходе поучают сформированный вектор признаков;- for each branch of cough, breath, speech, the following is carried out: the data obtained at the output from the encoder CNN is fed to the input of the first layer of the attention block to search for relationships between different parts of the data; at the same time, the specified data from the CNN output of the encoder is fed to the input of the second layer of the attention block, where it is linearly element-wise multiplied with the output of the first layer of the attention block, and the result is fed to the input of the CNN layer with an attention mechanism to highlight significant relationships without changing the dimension, and data obtained at the output of the CNN layer with the attention mechanism is transferred to the fully connected layer of the CNN with the attention mechanism, and the generated feature vector is taught as the output;
- конкатенация векторов признаков, полученных для каждой ветки кашля, дыхания, речи;- concatenation of feature vectors obtained for each branch of cough, breath, speech;
- преобразование полученного в результате конкатенации вектора с применением линейного слоя с гиперболическим тангенсом в качестве его функции активации, в результате которого получают результирующий вектор признаков;- transformation of the vector obtained as a result of concatenation using a linear layer with a hyperbolic tangent as its activation functions, as a result of which the resulting feature vector is obtained;
- формирование заключения о наличии признаков респираторной инфекции у пациента на основании результирующего вектора признаков.- formation of a conclusion about the presence of signs of a respiratory infection in a patient based on the resulting vector of signs.
В способе может быть дополнительно осуществлена нормализация соответствующих требуемым параметрам аудиозаписей кашля, дыхания, речи, в результате которой получают нормализованные аудиозаписи кашля, дыхания, речи.In the method, the normalization of cough, breath, speech audio recordings corresponding to the required parameters can be additionally carried out, as a result of which normalized cough, breath, speech audio recordings are obtained.
В способе может быть осуществлена проверка исходных данных на соответствие требуемым формату данных, частоте дискретизации, битрейту, количеству каналов.The method can be used to check the original data for compliance with the required data format, sampling rate, bit rate, number of channels.
В способе может быть получен набор спектрограмм для аудиозаписи с использованием оконного преобразования Фурье или вейвлет- преобразования.In the method, a set of spectrograms for audio recording can be obtained using a windowed Fourier transform or a wavelet transform.
В способе респираторной инфекцией может являться коронавирусная инфекция (COVID-19).In the method, the respiratory infection may be a coronavirus infection (COVID-19).
В способе полученные данные, на основе которых формируют заключение о наличии признаков коронавирусной инфекции (COVID-19) у пациента, могут быть отображены на шкалу значений от 0 до 1, путем применения к указанным данным функции сигмоиды.In the method, the obtained data, on the basis of which a conclusion is made about the presence of signs of coronavirus infection (COVID-19) in a patient, can be displayed on a scale of values from 0 to 1 by applying the sigmoid function to the specified data.
Дистанционная автоматизированная система оказания медицинской экспресс помощи по диагностике пациента на наличие признаков респираторной инфекции содержит, по крайней мере, следующее:A remote automated system for providing medical express assistance for diagnosing a patient for signs of a respiratory infection contains at least the following:
- клиентский модуль, с помощью которого осуществляют аудиозапись кашля, дыхания, речи пациента, и передают полученные аудиозаписи на сервер;- a client module, with the help of which an audio recording of the patient's cough, breathing, speech is performed, and the resulting audio recordings are transmitted to the server;
- сервер для осуществления обработки полученных аудиозаписей кашля, дыхания, речи пациента, причем- a server for processing the received audio recordings of the patient's cough, breathing, speech, and
- получают три набора спектрограмм отдельно для каждой из аудиозаписей кашля, дыхания, речи; - для каждого из трех наборов спектрограмм осуществляют дополнительную сегментацию набора спектрограмм на отдельные фрагменты с пересечениями по времени, в результате которой получают сегментированную аудиозапись отдельно для каждой из аудиозаписей кашля, дыхания, речи;- receive three sets of spectrograms separately for each of the audio recordings of coughing, breathing, speech; - for each of the three sets of spectrograms, additional segmentation of the set of spectrograms into separate fragments with intersections in time is carried out, as a result of which a segmented audio recording is obtained separately for each of the audio recordings of cough, breathing, speech;
- для каждой из трех сегментированных аудиозаписей проводят экстракцию из сегментированной аудиозаписи признаков путем обработки полученных фрагментов спектрограмм посредством CNN энкодера;- for each of the three segmented audio recordings, features are extracted from the segmented audio recording by processing the obtained fragments of spectrograms using a CNN encoder;
- для каждой ветки кашля, дыхания, речи осуществляют: подачу данных, полученных на выходе с CNN энкодера, на вход первого слоя блока внимания для поиска взаимосвязей между различными частями данных; одновременно указанные данные с выхода CNN энкодера поступают на вход второго слоя блока внимания, где они линейно поэлементно умножаются с выходными данными первого слоя блока внимания, и результат подается на вход слоя сверточной нейронной сети CNN с механизмом внимания для выделения существенных взаимосвязей без изменения размерности, и данные, полученные на выходе слоя сверточной нейронной сети CNN с механизмом внимания, передают в полносвязный слой сверточной нейронной сети CNN с механизмом внимания, и на выходе поучают сформированный вектор признаков;- for each branch of cough, breath, speech, the following is carried out: the data obtained at the output from the encoder CNN is fed to the input of the first layer of the attention block to search for relationships between different parts of the data; at the same time, the specified data from the CNN output of the encoder is fed to the input of the second layer of the attention block, where it is linearly element-wise multiplied with the output of the first layer of the attention block, and the result is fed to the input of the CNN layer with an attention mechanism to highlight significant relationships without changing the dimension, and data obtained at the output of the CNN layer with the attention mechanism is transferred to the fully connected layer of the CNN with the attention mechanism, and the generated feature vector is taught as the output;
- проводят конкатенацию векторов признаков, полученных для каждой ветки кашля, дыхания, речи;- concatenation of feature vectors obtained for each branch of cough, breath, speech;
- преобразуют полученные в результате конкатенации вектора с применением линейного слоя с гиперболическим тангенсом в качестве его функции активации, в результате которого получают результирующий вектор признаков;- converting the vectors obtained as a result of concatenation using a linear layer with a hyperbolic tangent as its activation function, as a result of which the resulting feature vector is obtained;
- формируют заключения о наличии признаков респираторной инфекции у пациента на основании результирующего вектора признаков; - передают сформированное заключение о наличии признаков респираторной инфекции у пациента на клиентский модуль для отображения.- form conclusions about the presence of signs of a respiratory infection in a patient based on the resulting vector of signs; - transmitting the generated conclusion about the presence of signs of a respiratory infection in the patient to the client module for display.
В системе респираторной инфекцией может являться коронавирусная инфекция COVID-19.In the system, a respiratory infection may be a coronavirus infection COVID-19.
В системе клиентский модуль может отображать сформированное заключение о наличии признаков коронавирусной инфекции (COVID-19) у пациента на шкалу значений от 0 до 1 , путем применения к указанным данным функции сигмоиды.In the system, the client module can display the generated conclusion about the presence of signs of coronavirus infection (COVID-19) in a patient on a scale of values from 0 to 1 by applying the sigmoid function to the specified data.
В системе дополнительно может быть осуществлена нормализация соответствующих требуемым параметрам аудиозаписей кашля, дыхания, речи, в результате которой получают нормализованные аудиозаписи кашля, дыхания, речи.In addition, the system can be used to normalize the audio recordings of coughing, breathing, and speech corresponding to the required parameters, as a result of which normalized audio recordings of coughing, breathing, and speech are obtained.
В системе может быть осуществлена проверка исходных данных на соответствие требуемым формату данных, частоте дискретизации, битрейту, количеству каналов.The system can check the source data for compliance with the required data format, sampling rate, bit rate, number of channels.
В системе может быть получен набор спектрограмм для аудиозаписи с использованием оконного преобразования Фурье или вейвлет- преобразования.A set of spectrograms for audio recording can be obtained in the system using the windowed Fourier transform or wavelet transform.
ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF THE DRAWINGS
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения.The implementation of the invention will be described hereinafter in accordance with the accompanying drawings, which are presented to explain the essence of the invention and in no way limit the scope of the invention.
Заявляемое изобретение проиллюстрировано фигурами 1 - 9, на которых изображены:The claimed invention is illustrated by figures 1 - 9, which depict:
Фиг. 1 - общая архитектура системы.Fig. 1 - general architecture of the system.
Фиг. 2 - вейвлет Морле и его первая производная.Fig. 2 - Morlet wavelet and its first derivative.
Фиг. 3 - функция Фабиуса и её первая производная.Fig. 3 - Fabius function and its first derivative.
Фиг. 4 - извлечение признаков с применением оконного преобразования Фурье. Фиг. 5 (а), (б) -извлечение признаков с применением оконного преобразования Фурье, взвешивание.Fig. 4 - feature extraction using the windowed Fourier transform. Fig. 5 (a), (b) - feature extraction using the windowed Fourier transform, weighting.
Фиг. 6 (а), (б) - извлечение признаков с применением оконного преобразования Фурье, разложение единицы.Fig. 6 (a), (b) - feature extraction using the windowed Fourier transform, unit decomposition.
Фиг. 7 - схема извлечения признаков с применением оконного преобразования Фурье.Fig. 7 is a diagram of feature extraction using a windowed Fourier transform.
Фиг. 8 - архитектура блока внимания, реализованного в системе.Fig. 8 shows the architecture of the attention block implemented in the system.
Фиг. 9 - общая схема вычислительного устройства.Fig. 9 is a general diagram of a computing device.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, it will be apparent to one skilled in the art how the present invention can be used, both with and without these implementation details. In other instances, well-known methods, procedures, and components have not been described in detail so as not to unnecessarily obscure the features of the present invention.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.Furthermore, it will be clear from the foregoing that the invention is not limited to the present implementation. Numerous possible modifications, changes, variations and substitutions that retain the spirit and form of the present invention will be apparent to those skilled in the subject area.
Настоящее изобретение направлено на оказание экспресс помощи пациенту в ситуации, когда требуется предварительная диагностика заболевания, удовлетворяющая заданным требованиям точности.The present invention is directed to providing express assistance to a patient in a situation where a preliminary diagnosis of a disease is required that meets the specified accuracy requirements.
Заявленное изобретение представляет собой клиент-серверную систему. Аудиоданные получают на мобильном устройстве пациента или каком-либо ином устройстве сбора аудиоинформации, например, смартфоне, планшете, компьютере, умной колонке и т.д. При этом один пациент передает данные столько раз, сколько это необходимо, и такого типа, который необходим, для анализа системой. Аудиоданные получают на сервере, осуществляют предобработку данных для решения последующей задачи анализа наличия или отсутствия респираторной инфекции. Задачу классификации решают путем применения реализованного в системе алгоритма глубокого обучения посредством рекуррентных нейронных сетей CNN с механизмом внимания (attention). Формируют заключение по конкретному пользователю и передают заключение, сформированное системой, на мобильное устройство пользователя либо иным способом, для предоставления пользователю возможности ознакомиться с предварительным заключением, сформированным системой.The claimed invention is a client-server system. The audio data is received on the patient's mobile device or some other audio information collection device, such as a smartphone, tablet, computer, smart speaker, etc. In this case, one patient transmits data as many times as needed and of the type needed to be parsed by the system. Audio data is received on the server, data is pre-processed to solve the subsequent task of analyzing the presence or absence of a respiratory infection. The classification problem is solved by applying the deep learning algorithm implemented in the system using CNN recurrent neural networks with the attention mechanism. A conclusion is formed on a specific user and the conclusion generated by the system is transmitted to the user's mobile device or in another way to provide the user with the opportunity to familiarize himself with the preliminary conclusion generated by the system.
Общая архитектура метода CNN с блоком внимания представлена на Фиг.1. Система решения задачи классификации представлена ансамблем нейронных сетей, которые реализованы в виде трёх независимых веток дерева принятия решения, с последующей конкретизацией результатов полносвязными слоями.The general architecture of the Attention Block CNN method is shown in Fig.1. The system for solving the classification problem is represented by an ensemble of neural networks, which are implemented as three independent branches of the decision tree, with subsequent specification of the results by fully connected layers.
На вход системы подаются нормализованные аудиозаписи трёх типов: речь, кашель, дыхание. Аудиозапись каждого типа имеет одинаковый процесс как предобработки, так и последующей обработки. Схема процесса обработки каждой записи представлена на Фиг. 1. Каждый тип аудиозаписей параллельно обрабатывается в отдельной ветке дерева принятия решения перед последующим этапом объединения информации для формирования заключения по каждому пациенту [1].Normalized audio recordings of three types are fed into the system: speech, cough, and breathing. Each type of audio recording has the same process for both pre-processing and post-processing. The processing flow for each record is shown in Fig. 1. Each type of audio recording is processed in parallel in a separate branch of the decision tree before the next stage of combining information to form a conclusion for each patient [1].
Последовательность предобработки аудиозаписей включает следующие этапы:The sequence of pre-processing of audio recordings includes the following steps:
- нормализация: проверка и конвертация параметров аудиозаписи по каждому из трёх типов;- normalization: checking and converting audio recording parameters for each of the three types;
- нарезка и извлечение признаков для каждого отдельного окна аудиозаписи; - получение вектора признаков с помощью CNN с механизмом внимания для полной аудиозаписи.- slicing and extracting features for each separate audio recording window; - Obtaining a feature vector using a CNN with an attention mechanism for a complete audio recording.
Проверка и конвертация аудиозаписи.Checking and converting audio recordings.
Аудиозаписи от пользователей поступают в блок обработки. Блок проверяет аудиофайл на соответствие требованиям системы по формату данных, частоте дискретизации, битрейту, количеству каналов. При несовпадении параметров происходит конвертация данных к требуемым параметрам системы.Audio recordings from users are sent to the processing unit. The block checks the audio file for compliance with the system requirements for data format, sampling rate, bit rate, number of channels. If the parameters do not match, the data is converted to the required system parameters.
- перевод аудиодорожки в числовой массив;- translation of the audio track into a numeric array;
- перевод из стерео- в моно- режим;- translation from stereo to mono mode;
- ресемплинг к частоте дискретизации 44.1 кГц.- resampling to a sampling frequency of 44.1 kHz.
При невозможности конвертации к требуемым параметрам блок генерирует ошибку с указанием невалидных параметров аудиофайла.If it is impossible to convert to the required parameters, the block generates an error indicating invalid audio file parameters.
Нарезка и экстракция признаков.Slicing and feature extraction.
На этапе экстракции признаков в аудиофайлах выделяются наиболее значимые признаки, которые выражены в виде числового вектора и получены путем сверток из многомерной матрицы (спектрограммы). Далее, полученные вектора признаков подают в рекуррентную нейронную сеть RNN для извлечения закономерностей и паттернов. Экстракция признаков может быть проведена разными способами, например, такими как интегральные преобразования (оконное преобразование Фурье, вейвлет-преобразование, и другие), извлечение i-векторов, скрытые марковские модели, и другие.At the stage of feature extraction in audio files, the most significant features are identified, which are expressed as a numerical vector and obtained by convolutions from a multidimensional matrix (spectrogram). Further, the obtained feature vectors are fed into the recurrent neural network RNN to extract patterns and regularities. Feature extraction can be carried out in various ways, such as integral transformations (windowed Fourier transform, wavelet transform, and others), i-vector extraction, hidden Markov models, and others.
Непрерывные интегральные преобразования анализа временных сигналов.Continuous integral transformations of the analysis of time signals.
Существуют различные семейства интегральных преобразований нестационарных временных сигналов. Предполагают, что временной сигнал переводится в область частот, где удобнее проводить анализ поведения динамики процесса и проще извлекать числовые характеристики. При этом, существуют различные виды частотно-временных интегральных преобразований, осуществляющих перевод сигнала в частотную область. Помимо преобразования Фурье (FT) в приложениях анализа сигналов применяют также оконное преобразование Фурье (STFT), преобразование Г абора (GT), вейвлет преобразование (WT), функцию распределения Вигнера (WDF), и т.д. [2].There are various families of integral transformations of non-stationary time signals. It is assumed that the time signal is transferred to the frequency range, where it is more convenient to analyze the behavior of the process dynamics and it is easier to extract numerical characteristics. At the same time, there are various types of frequency-time integral transformations that translate the signal into the frequency domain. In addition to the Fourier transform (FT), signal analysis applications also use windowed Fourier transform (STFT), Gabor transform (GT), wavelet transform (WT), Wigner distribution function (WDF), etc. [2].
Оконное преобразование Фурье (STFT).Windowed Fourier Transform (STFT).
По определению, непрерывное оконное преобразование Фурье (1) представимо в виде интеграла: где w(·) —оконная функция, позволяющая выполнять селекцию интересующего отрезка времени, и проводить дополнительную обработку внутри него. В случае, когда в качестве оконной функции выбирают функцию Гаусса, оконное преобразование Фурье (STFT) называют преобразованием Габора (GT).By definition, the continuous windowed Fourier transform (1) can be represented as an integral: where w( ) is a window function that allows you to select the time interval of interest and perform additional processing within it. When a Gaussian function is chosen as the window function, the windowed Fourier transform (STFT) is called the Gabor transform (GT).
Вейвлет преобразование WT.Wavelet transform WT.
Обобщением STFT является вейвлет преобразование. В общем случае, интегральное вейвлет-преобразование (2) записывается в виде: где ядром преобразования является вейвлет функция ф(·), а в самом преобразовании используется её комплексное сопряжение ф*(·). В то время как оконная функция в STFT зависит от одного параметра т, определяющего сдвиг во времени, вейвлет в CWT зависит от двух параметров а, b которые отвечают за масштаб (сжатие или растяжение ядра преобразования) и сдвиг (трансляцию), соответственно. Например, в качестве ядра ф(·) в медицинских приложениях применяют вейвлет Морле (3), то есть функцию вида:A generalization of STFT is the wavelet transform. In the general case, the integral wavelet transform (2) is written as: where the transformation kernel is the wavelet function φ(·), and its complex conjugation φ* (·) is used in the transformation itself. While the window function in STFT depends on one parameter t, which determines the time shift, the wavelet in CWT depends on two parameters a, b, which are responsible for the scale (compression or expansion of the transform kernel) and the shift (translation), respectively. For example, the Morlet wavelet (3) is used as the kernel φ( ) in medical applications, that is, a function of the form:
На Фиг. 2 представлена вейвлет функция Морле и ее первая производная.On FIG. 2 shows the Morlet wavelet function and its first derivative.
Кроме того, вейвлет функция должна удовлетворять следующим свойствам [3]. 1. Конечность энергии oo.In addition, the wavelet function must satisfy the following properties [3]. 1. Finiteness of energy oo.
2. Условие допустимости2. Admissibility condition
3. Для комплексных вейвлет функций преобразование Фурье должно быть действительным и обращаться в нуль для отрицательных частот.3. For complex wavelet functions, the Fourier transform must be real and vanish for negative frequencies.
Отметим, что существуют различные способы построения вейвлет- систем как ортогональных, так и неортогональных. Так, в качестве аппроксимационного базиса для построения различных систем вейвлет функций могут быть использованы бесконечно-дифференцируемые сплайны или атомарные функции [4]. Примеры вычисления количественных характеристик временных сигналов с помощью подобных синтезированных систем вейвлет функций также представлены в [5]. Пример простейшей атомарной функции, совпадающей с функцией Фабиуса на отрезке [0; 2] показан на Фиг. 3.Note that there are various ways to construct wavelet systems, both orthogonal and non-orthogonal. Thus, infinitely differentiable splines or atomic functions can be used as an approximation basis for constructing various systems of wavelet functions [4]. Examples of calculating the quantitative characteristics of time signals using similar synthesized systems of wavelet functions are also presented in [5]. An example of the simplest atomic function coinciding with the Fabius function on the interval [0; 2] is shown in Fig. 3.
Отметим, что существуют библиотека визуализации вейвлет систем на Python [6] и библиотека вейвлет-преобразований на Python [7] .Note that there is a library for visualizing wavelet systems in Python [6] and a library for wavelet transforms in Python [7] .
Дискретные интегральные преобразования анализа временных сигналов.Discrete integral transformations of the analysis of time signals.
В силу дискретности входных данных, возникает необходимость учёта конечности числа отсчётов, и, как следствие, появляются дискретные аналоги непрерывных интегральных преобразований, указанных выше.Due to the discreteness of the input data, it becomes necessary to take into account the finiteness of the number of readings, and, as a result, discrete analogues of the continuous integral transformations indicated above appear.
Дискретный вариант непрерывного оконного преобразования Фурье (DWFT).A discrete version of the continuous windowed Fourier transform (DWFT).
Дискретный вариант непрерывного оконного преобразования Фурье (DWFT) принимает вид: где X(k ) —дискретная частоты временной последовательности х(п), п —временной индекс, к — частотный индекс, N —количество отсчётов, w(n ) —отсчёты оконной функции При этом, оконная функция может быть выбрана различными способами. Так, в практических приложениях используется окно Ханна, которое определяется следующим образом:The discrete version of the continuous windowed Fourier transform (DWFT) takes the form: where X(k) is the discrete frequency of the time sequence x(n), n is the time index, k is the frequency index, N is the number of samples, w(n) are the samples of the window function. In this case, the window function can be chosen in various ways. So, in practical applications, the Hann window is used, which is defined as follows:
(5) w(n ) — ~ (l —cos (2ph/(N — 1))).(5) w(n) - ~ (l - cos (2ph/(N - 1))).
Извлечение i-векторов.Extracting i-vectors.
Метод i-векторов представляет собой метод выделения и использования вспомогательных признаков. На настоящий момент, класс методов i-векторов является сравнительно новым способом решения задач распознавания объектов различной природы. Первоначально метод i-векторов возник для решения задачи распознавания речи. Идея метода основана на представлении моделей выражений гауссовой смеси Я =The i-vector method is a method for extracting and using auxiliary features. At the moment, the class of methods of i-vectors is a relatively new way to solve problems of recognizing objects of various nature. Initially, the i-vector method arose to solve the problem of speech recognition. The idea of the method is based on the representation of models of Gaussian mixture expressions R =
При этом, изображение этого выражения также применяется в качестве вектора признаков в языковом классификаторе [8].At the same time, the image of this expression is also used as a feature vector in the language classifier [8].
Применение оконного преобразования Фурье.Applying the windowed Fourier transform.
Для примера рассмотрим схему извлечения признаков методом дискретного оконного преобразования Фурье. Стандартная схема применения DWFT состоит в следующем. Из полного сигнала с данными выделяется фрагмент (окно) определенной длины для анализа (Фиг. 4).For example, consider a feature extraction scheme using the discrete windowed Fourier transform. The standard DWFT application scheme is as follows. A fragment (window) of a certain length is selected from the complete signal with data for analysis (Fig. 4).
Та часть сигнала, которая попала в область интереса, скалярно умножается на некую оконную функцию, т.е. происходит «взвешивание» (Фиг. 5 (а), (б)).That part of the signal that fell into the region of interest is scalarly multiplied by a certain window function, i.e. “weighing” takes place (Fig. 5 (a), (b)).
При этом, сумма сдвигов оконной функции Ханна (5) обеспечивает разложение единицы (Фиг. 6 (а), (б)). Однако, в качестве оконных функций можно также использовать вейвлеты и атомарные функции, сумма сдвигов которых также удовлетворяет разложению единицы. Описанный подход позволяет получить спектрограмму, после чего она разбивается на фрагменты длительности 1 секунда с шагом 0.5 секунд, которые подаются на вход CNN энкодера, одинакового для каждого фрагмента.In this case, the sum of the shifts of the Hann window function (5) provides a decomposition of unity (Fig. 6 (a), (b)). However, wavelets and atomic functions can also be used as window functions, the sum of their shifts also satisfies the expansion of unity. The described approach makes it possible to obtain a spectrogram, after which it is divided into fragments with a duration of 1 second with a step of 0.5 seconds, which are fed to the input of the CNN encoder, which is the same for each fragment.
При этом, CNN энкодер служит для извлечения (экстракции) репрезентативных (значимых) признаков и уменьшения размерности входных данных в блок внимания. Энкодер состоит из четырех блоков, включающих в себя операцию свертки с ядром фиксированного размера, слой активации с функцией LeakyReLu, метод прореживания с заданной вероятностью исключения нейрона для предотвращения переобучения и батчнормализацию. Энкодер обрабатывает поступившие в качестве входных данных окна спектрограммы и полученные признаки, которые затем подаются на вход блока механизма внимания (Фиг. 7).At the same time, the CNN encoder serves to extract (extract) representative (significant) features and reduce the dimension of the input data to the attention block. The encoder consists of four blocks, including a convolution operation with a fixed size kernel, an activation layer with the LeakyReLu function, a decimation method with a given probability of exclusion of a neuron to prevent overfitting, and batch normalization. The encoder processes the spectrogram windows received as input data and the received features, which are then fed to the input of the attention mechanism block (Fig. 7).
CNN с механизмом вниманияCNN with attention mechanism
Решение задачи классификации представляет собой алгоритм глубокого обучения CNN с механизмом внимания (attention) [9-11], который описан ниже.The solution to the classification problem is a CNN deep learning algorithm with an attention mechanism [9-11], which is described below.
Рекуррентная нейронная сеть CNN с механизмом внимания состоит из CNN энкодера и блока внимания. Каждый отдельный фрагмент аудиозаписи после прохождения через экстракторы признаков попадает в один и тот же энкодер, одинаковый для всех фреймов l_k, k=l, ... ,s , результат работы которого является входом для блока внимания (блок Attention layer).A CNN with an attention mechanism consists of an encoder CNN and an attention block. Each individual audio fragment after passing through the feature extractors falls into the same encoder, the same for all frames l_k, k=l, ..., s , the result of which is the input for the attention block (Attention layer block).
Механизм внимания.attention mechanism.
Схема, описывающая механизм внимания реализованной CNN, представлена на Фиг. 8, на примере одной ветки кашля дерева принятия предварительного решения о наличии либо отсутствии заболевания у пользователя.A diagram describing the attention mechanism of the implemented CNN is shown in FIG. 8, using the example of one branch of the cough tree for making a preliminary decision about the presence or absence of a disease in a user.
Входные данные для блока внимания Attention layer представляют собой скалярный вектор, который поступает одновременно на вход слою Attention тар и слою Direct multiplication для поиска взаимосвязей между различными частями входных данных. Далее, выход слоя Attention тар линейно поэлементно умножается с исходным вектором, и результат подается на вход слою Attentive features , который выделяет существенные взаимосвязи, не изменяя размерности, и передаёт результат в полносвязный слой. При этом механизм внимания реализуют слои Attention тар и Direct multiplication , а CNN с механизмом внимания состоит из CNN энкодера, блока внимания Attention layer , слоя Attentive features и полносвязного слоя FC (Фиг. 8).The input data for the attention block Attention layer is a scalar vector, which is fed simultaneously to the input of the Attention layer and the Direct multiplication layer to search for relationships between different parts of the input. Next, the output of the Attention tar layer is linearly multiplied element-wise with the original vector, and the result is fed into the Attentive features layer, which extracts significant relationships without changing the dimensions, and passes the result to a fully connected layer. At the same time, the attention mechanism is implemented by the Attention tare and Direct multiplication layers, and the CNN with the attention mechanism consists of the encoder CNN, the Attention layer attention block, the Attentive features layer, and the fully connected FC layer (Fig. 8).
Вектор признаков, который получается после прохождения через слои CNN с механизмом внимания, подается на вход полносвязного слоя, который на выходе выдаёт вероятность заражения пациента респираторной инфекцией, например COVID-19, по шкале от 0 до 1, где 0 — это полностью здоров, а 1 — это абсолютно болен.The feature vector, which is obtained after passing through the CNN layers with an attention mechanism, is fed into the input of a fully connected layer, which at the output gives the probability of a patient contracting a respiratory infection, such as COVID-19, on a scale from 0 to 1, where 0 is completely healthy, and 1 is absolutely sick.
Особенности обучения модели.Features of model training.
При обучении модели используется оптимизационный алгоритм adam и происходит снижение скорости обучения алгоритма в 10 раз каждые 100 шагов, а также применяется гладкий косинусный коэффициент скорости обучения.When training the model, the adam optimization algorithm is used and the learning rate of the algorithm is reduced by a factor of 10 every 100 steps, and a smooth cosine learning rate is applied.
Описанный метод может быть реализован с использованием любого устройства, имеющего микрофон и способного использовать его на запись (включая, но не ограничиваясь: диктофон, кнопочный мобильный телефон, смартфон, умные часы, терминал, умная колонка и т.п.). Специализированное программное обеспечение, адаптированное под указанное устройство, помогает пользователю выполнить необходимую последовательность шагов для подготовки и записи звуковых файлов. Записанные в файлы данные передаются на сервер с развернутой на нем системой обработки файлов через любые каналы передачи данных. Система на сервере обрабатывает звуковые файлы в соответствии с методом, описанным выше, и передает результат пользователю (или иному адресату (как человеку, так и другой системе, определенному настройкой системы) с использованием адаптируемых форматов и любых доступных каналов связи. Детальное описание процесса обработки трёх типов аудиозаписей от пациента: кашля, дыхания, речи.The described method can be implemented using any device that has a microphone and can use it for recording (including, but not limited to: a voice recorder, push-button mobile phone, smartphone, smart watch, terminal, smart speaker, etc.). Specialized software, adapted to the specified device, guides the user through the necessary sequence of steps to prepare and record sound files. The data written to the files are transferred to the server with the file processing system deployed on it through any data transmission channels. The system on the server processes the sound files in accordance with the method described above, and transmits the result to the user (or other destination (either a person or another system, determined by the system settings) using adaptable formats and any available communication channels. Detailed description of the process of processing three types of audio recordings from the patient: cough, breathing, speech.
- Конвертирование формата исходных данных в используемый в системе формат для хранения и работы с аудиоданными.- Converting the source data format to the format used in the system for storing and working with audio data.
- Нормализация данных - приведение параметров аудиосигнала к значениям параметров, используемых в системе.- Data normalization - bringing the parameters of the audio signal to the values of the parameters used in the system.
- Запись нормализованных данных, полученных в результате первичной обработки и нормализации.- Recording of normalized data obtained as a result of primary processing and normalization.
- Применение дискретного интегрального преобразования:- Application of discrete integral transformation:
- использование оконного преобразования Фурье (или вейвлет- преобразования) для получения набора спектрограмм нормализованных аудиоданных;- using the windowed Fourier transform (or wavelet transform) to obtain a set of spectrograms of normalized audio data;
- дополнительная сегментация спектрограмм на отдельные фрагменты (окна/фреймы) с пересечениями по времени.- additional segmentation of spectrograms into separate fragments (windows/frames) with intersections in time.
- Экстракция признаков из сегментированных данных:- Feature extraction from segmented data:
- к полученным сегментированным данным применяются свёрточные нейронные сети CNN, в результате получается набор преобразованных спектрограмм, которые подаются на вход блоку с механизмом внимания;- CNN convolutional neural networks are applied to the obtained segmented data, as a result, a set of transformed spectrograms is obtained, which are fed to the input of the block with the attention mechanism;
- на выходе блока с механизмом внимания получается сформированный вектор признаков.- at the output of the block with the attention mechanism, a generated feature vector is obtained.
- Конкатенация (объединение) полученных векторов признаков от трех исходных аудиозаписей от пациента: кашля, дыхания, речи.- Concatenation (union) of the received feature vectors from three initial audio recordings from the patient: cough, breath, speech.
- Преобразование полученного вектора с применением полносвязного слоя, посредством применения гиперболического тангенса в качестве функции активации.- Transformation of the resulting vector using a fully connected layer, by applying the hyperbolic tangent as an activation function.
- Формирование заключения о здоровье пациента:- Formation of a conclusion about the health of the patient:
- однозначное заключение о здоровье пациента производится в бинарном формате (здоров/болен); - полученные данные отображаются на шкалу значений от 0 до 1 , путем применения к данным функции сигмоиды.- an unambiguous conclusion about the patient's health is made in a binary format (healthy / sick); - the received data is displayed on a scale of values from 0 to 1 by applying the sigmoid function to the data.
Система выполняет сбор и анализ аудиоданных пациента, и осуществляет экспресс диагностику по каждому пациенту, не нарушая законов и других нормативных актов, регулирующих обработку персональных данных пациентов, а также обеспечивает конфиденциальность обрабатываемой в системе медицинской и иной информации.The system collects and analyzes the patient's audio data, and performs express diagnostics for each patient, without violating laws and other regulations governing the processing of patients' personal data, and also ensures the confidentiality of medical and other information processed in the system.
На Фиг. 9 представлена общая схема вычислительного устройства (N00), обеспечивающего обработку данных, необходимую для реализации заявленного решения.On FIG. 9 shows a general diagram of a computing device (N00) that provides the data processing necessary to implement the claimed solution.
В общем случае устройство (N00) содержит такие компоненты, как: один или более процессоров (N01), по меньшей мере одну память (N02), средство хранения данных (N03), интерфейсы ввода/вывода (N04), средство В/В (N05), средства сетевого взаимодействия (N06).In general, a device (N00) contains components such as: one or more processors (N01), at least one memory (N02), storage media (N03), I/O interfaces (N04), I/O ( N05), networking tools (N06).
Процессор (N01) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (N00) или функциональности одного или более его компонентов. Процессор (N01) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (N02). Выполнение вычислительных операций может выполняться как на Центральном вычислительном процессоре (ЦПУ), так и на графических ядрах (GPU).The processor (N01) of the device performs the basic computing operations necessary for the operation of the device (N00) or the functionality of one or more of its components. The processor (N01) executes the necessary machine-readable instructions contained in the main memory (N02). The execution of computing operations can be performed both on the Central Computing Processing Unit (CPU) and on graphics cores (GPU).
Память (N02), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.Memory (N02), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.
Средство хранения данных (N03) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue -Ray дисков) и т.п. Средство (N03) позволяет выполнять долгосрочное хранение различного вида информации. Интерфейсы (N04) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.The data storage medium (N03) can be implemented in the form of HDD, SSD disks, raid array, network storage, flash memory, optical storage media (CD, DVD, MD, Blue-Ray disks), etc. The tool (N03) allows you to perform long-term storage of various types of information. Interfaces (N04) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc.
Выбор интерфейсов (N04) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces (N04) depends on the specific version of the device (N00), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
В качестве средств В/В данных (N05) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB -портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.The keyboard shall be used as the data I/O (N05) means in any implementation of the system. The keyboard hardware can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server, or other computer device. In this case, the connection can be either wired, in which the keyboard connection cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, the following I/O devices can also be used: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
Средства сетевого взаимодействия (N06) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (N05) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G. Компоненты устройства (N00) сопряжены посредством общей шины передачи данных (N10).Network interaction means (N06) are selected from devices that provide network data reception and transmission, for example, an Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. With the help of tools (N05) the organization of data exchange over a wired or wireless data transmission channel, for example, WAN, PAN, LAN (LAN), Intranet, Internet, WLAN, WMAN or GSM, 3G, 4G, 5G, is provided. The device components (N00) are connected via a common data bus (N10).
В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.The present application materials provide a preferred disclosure of the implementation of the claimed technical solution, which should not be used as limiting other, private embodiments of its implementation, which do not go beyond the scope of the requested legal protection and are obvious to specialists in the relevant field of technology.
Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения.It should be clear to a person skilled in the art that various variations of the proposed method and system do not change the essence of the invention, but only determine its specific embodiments and applications.
ИсточникиSources
[1] С. Deshpande et. al. Audio, Speech, Language, & Signal Processing for COVID-19: A Comprehensive Overview. 2020. arXiv:2011.14445vl[1] C. Deshpande et. al. Audio, Speech, Language, & Signal Processing for COVID-19: A Comprehensive Overview. 2020.arXiv:2011.14445vl
[2] Al-Khassaweneh M., Abdelrahman B. A signal processing approach for the diagnosis of asthma from cough sounds. J Med Eng Technol, 2013; 37(3): 165 - 171.[2] Al-Khassaweneh M., Abdelrahman B. A signal processing approach for the diagnosis of asthma from cough sounds. J Med Eng Technol, 2013; 37(3): 165-171.
DOI: 10.3109/03091902.2012.758322DOI: 10.3109/03091902.2012.758322
[3] Jin Y., Angelini E., Laine A. 2005. Wavelets in medical image processing: denoising, segmentation, and registration. Springer, Boston.[3] Jin Y., Angelini E., Laine A. 2005. Wavelets in medical image processing: denoising, segmentation, and registration. Springer, Boston.
DOI: 10.1007/0-306-48551-6_6DOI: 10.1007/0-306-48551-6_6
[4] Cooklev T., Berbecel G.I., Venetsanopoulos A.N. Wavelets and Differential-Dilation Equations. IEEE Transactions on signal processing, 2000; 48(8): 2258-2268.[4] Cooklev T., Berbecel G.I., Venetsanopoulos A.N. Wavelets and Differential-Dilation Equations. IEEE Transactions on Signal Processing, 2000; 48(8): 2258-2268.
DOI: 10.1109/78.852007DOI: 10.1109/78.852007
[5] Kravchenko V.F., Perez-Meana H.M., Ponomaryov V.I. 2009. Adaptive digital processing of multidimensional signals with applications. Fizmatlit, Moscow.[5] Kravchenko V.F., Perez-Meana H.M., Ponomaryov V.I. 2009. Adaptive digital processing of multidimensional signals with applications. Fizmatlit, Moscow.
URL: https://www.elibrary.m/item.asp?id 19594648URL: https://www.elibrary.m/item.asp?id 19594648
[6] Визуализатор вейвлетов на Python http://wavelets.pybytes.com/ [7] Библиотека вейвлетов на Python https://pywavelets.readthedocs.io/[6] Python wavelet renderer http://wavelets.pybytes.com/ [7] Python wavelet library https://pywavelets.readthedocs.io/
[8] Tomashenko N.A., Khokhlov Yu.Yu., Larchera A., Esteve Ya., Matveev Yu.N. Gaussian mixture models for adaptation of deep neural network acoustic models in automatic speech recognition systems. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2016; 16(6): 1063-1072.[8] Tomashenko N.A., Khokhlov Yu.Yu., Larchera A., Esteve Ya., Matveev Yu.N. Gaussian mixture models for adaptation of deep neural network acoustic models in automatic speech recognition systems. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2016; 16(6): 1063-1072.
DOT 10.17586/2226-1494-2016-16-6-1063-1072DOT 10.17586/2226-1494-2016-16-6-1063-1072
[9] M. Pahar et. al. COVID-19 Cough Classification using Machine Learning and Global Smartphone Recordings. 2020. arXiv:2012.01926vl[9] M. Pahar et. al. COVID-19 Cough Classification using Machine Learning and Global Smartphone Recordings. 2020.arXiv:2012.01926vl
[10] A. Imran et. al. AI4COVID-19: AI Enabled Preliminary Diagnosis for COVID-19 from Cough Samples via an App. 2020. arXiv: 2004.01275 v6[10] A. Imran et. al. AI4COVID-19: AI Enabled Preliminary Diagnosis for COVID-19 from Cough Samples via an App. 2020.arXiv: 2004.01275v6
[11] J. Amoh et. al. Deep Neural Networks For Identifying Cough Sounds. 2016. 10(5), 1003-1011.[11] J. Amoh et. al. Deep Neural Networks For Identifying Cough Sounds. 2016. 10(5), 1003-1011.
DOT 10.1109/TBCAS.2016.2598794DOT 10.1109/TBCAS.2016.2598794
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2021105412ARU2758648C1 (en) | 2021-03-03 | 2021-03-03 | Method for diagnosing a patient for signs of respiratory infection by means of cnn with an attention mechanism and a system for its implementation |
| RU2021105412 | 2021-03-03 |
| Publication Number | Publication Date |
|---|---|
| WO2022186727A1true WO2022186727A1 (en) | 2022-09-09 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/RU2022/050051CeasedWO2022186727A1 (en) | 2021-03-03 | 2022-02-15 | Diagnosing respiratory infection using a cnn with an attention mechanism |
| Country | Link |
|---|---|
| RU (1) | RU2758648C1 (en) |
| WO (1) | WO2022186727A1 (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115497502A (en)* | 2022-11-07 | 2022-12-20 | 图灵人工智能研究院(南京)有限公司 | Method and system for distinguishing new crown infection based on human body representation |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070118054A1 (en)* | 2005-11-01 | 2007-05-24 | Earlysense Ltd. | Methods and systems for monitoring patients for clinical episodes |
| US20100179438A1 (en)* | 2006-11-01 | 2010-07-15 | Biancamed Limited | System and method for monitoring cardiorespiratory parameters |
| US20190088367A1 (en)* | 2012-06-18 | 2019-03-21 | Breathresearch Inc. | Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology |
| TW201934082A (en)* | 2018-02-06 | 2019-09-01 | 財團法人工業技術研究院 | Lung sound monitoring device and lung sound monitoring method thereof |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070118054A1 (en)* | 2005-11-01 | 2007-05-24 | Earlysense Ltd. | Methods and systems for monitoring patients for clinical episodes |
| US20100179438A1 (en)* | 2006-11-01 | 2010-07-15 | Biancamed Limited | System and method for monitoring cardiorespiratory parameters |
| US20190088367A1 (en)* | 2012-06-18 | 2019-03-21 | Breathresearch Inc. | Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology |
| TW201934082A (en)* | 2018-02-06 | 2019-09-01 | 財團法人工業技術研究院 | Lung sound monitoring device and lung sound monitoring method thereof |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115497502A (en)* | 2022-11-07 | 2022-12-20 | 图灵人工智能研究院(南京)有限公司 | Method and system for distinguishing new crown infection based on human body representation |
| Publication number | Publication date |
|---|---|
| RU2758648C1 (en) | 2021-11-01 |
| Publication | Publication Date | Title |
|---|---|---|
| Lella et al. | Automatic diagnosis of COVID-19 disease using deep convolutional neural network with multi-feature channel from respiratory sound data: cough, voice, and breath | |
| Hamdi et al. | Attention-based hybrid CNN-LSTM and spectral data augmentation for COVID-19 diagnosis from cough sound | |
| Kranthi Kumar et al. | COVID-19 disease diagnosis with light-weight CNN using modified MFCC and enhanced GFCC from human respiratory sounds | |
| Sidhu et al. | MFCC in audio signal processing for voice disorder: a review | |
| Kumar et al. | Ensemble multimodal deep learning for early diagnosis and accurate classification of COVID-19 | |
| Nayak et al. | Machine learning approach for detecting covid-19 from speech signal using mel frequency magnitude coefficient | |
| Kumar et al. | Chest X ray and cough sample based deep learning framework for accurate diagnosis of COVID-19 | |
| Hoyos-Barceló et al. | Efficient computation of image moments for robust cough detection using smartphones | |
| RU2758649C1 (en) | Technology for analyzing acoustic data for signs of covid-19 disease | |
| Campana et al. | Transfer learning for the efficient detection of COVID-19 from smartphone audio data | |
| Yan et al. | Optimizing MFCC parameters for the automatic detection of respiratory diseases | |
| CN117877660A (en) | Medical report acquisition method and system based on voice recognition | |
| Shehab et al. | Deep learning and feature fusion-based lung sound recognition model to diagnoses the respiratory diseases | |
| Dutta et al. | A fine-tuned catboost-based speech disorder detection model | |
| Dong et al. | A multi-branch convolutional neural network for snoring detection based on audio | |
| Bhushan et al. | A Self-Attention Based Hybrid CNN-LSTM Architecture for Respiratory Sound Classification | |
| RU2758648C1 (en) | Method for diagnosing a patient for signs of respiratory infection by means of cnn with an attention mechanism and a system for its implementation | |
| Elhadad et al. | Improved healthcare diagnosis accuracy through the application of deep learning techniques in medical transcription for disease identification | |
| Mukherjee et al. | Lung health analysis: adventitious respiratory sound classification using filterbank energies | |
| Murthy et al. | Deep learning anomaly detection methods to passively detect COVID-19 from audio | |
| CN116664956A (en) | Image recognition method and system based on multi-task automatic encoder | |
| Dhavala et al. | An MFCC features-driven subject-independent convolution neural network for detection of chronic and non-chronic pulmonary diseases | |
| Wu et al. | Respiratory disease classification model based on feature fusion | |
| Imani et al. | A three-branch deep neural network for diagnosing respiratory sounds | |
| Oishee et al. | Leveraging deep edge intelligence for real-time respiratory disease detection |
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | Ref document number:22763675 Country of ref document:EP Kind code of ref document:A1 | |
| NENP | Non-entry into the national phase | Ref country code:DE | |
| 122 | Ep: pct application non-entry in european phase | Ref document number:22763675 Country of ref document:EP Kind code of ref document:A1 | |
| 32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established | Free format text:NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19.02.2024) | |
| 122 | Ep: pct application non-entry in european phase | Ref document number:22763675 Country of ref document:EP Kind code of ref document:A1 |