Статья опубликована в рамках: CXVIII-CXIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 10 ноября 2022 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Тушинская Е.В. ЗАДАЧИ ГЛУБОКО УБУЧЕНИЯ В СФЕРЕ ОБРАБОТКИ АУДИО ИНФОРМАЦИИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXVIII-CXIX междунар. студ. науч.-практ. конф. № 10-11(117). URL: https://sibac.info/archive/technic/10-11(117).pdf (дата обращения: 26.04.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

ЗАДАЧИ ГЛУБОКО УБУЧЕНИЯ В СФЕРЕ ОБРАБОТКИ АУДИО ИНФОРМАЦИИ

Тушинская Екатерина Вадимовна

студент, кафедра информатики, Белорусский Государственный Университет Информатики и Радиоэлектроники,

Беларусь, г. Минск

Жвакина Анна Васильевна

научный руководитель,

канд. техн. наук, доц., Белорусский Государственный Университет Информатики и Радиоэлектроники,

Беларусь, г. Минск

AUDIO PROCESSING IN DEEP LEARNING

Katsiaryna Tushynakaya

student, Department of Informatics, Belarussian State University of Informatics and Radioelectronics,

Belarus, Minsk

Anna Zhvakina

scientific supervisor, candidate of Applied Science, Belarussian State University of Informatics and Radioelectronics,

Belarus, Minsk

АННОТАЦИЯ

В данной статье приведен краткий обзор задач, которыми занимается глубинное обучение в области обработки аудио информации. Рассмотрены типы аудио сигналов и их сравнительная характеристика.

ABSTRACT

This chapter provides an overview of the problems which solved be deep learning algorithms for audio signals. The differences between types of audio information.

Ключевые слова: глубокое обучение; аудио информация; нейронная сеть.

Keywords: deep learning; audio processing; neural network.

Тип аудио информации во многом влияет на специфику обработки и поиск уникальных признаков. В данной статье рассмотрены два основных вида аудио информации: звуки окружающей среды и музыка. Изучение музыки тесно связано с кросс дисциплинарной сферой Music Information Research (MIR)[1]. Данная сфера занимается вопросами анализа музыки, ее обработкой и генерацией нового контента. MIR сочетает в себе подходы и концепции музыкальное теории, компьютерных технологий, физики, когнитивистики и цифровой обработке сигналов. Таким образом, разработки глубокого обучения в музыкальной области решают следующе задачи:

определение музыкального контента на основе анализа ее звукового сигнала. Примерами этого являются оценка различных звуков, аккордов, ритма, идентификация инструментов, используемых в музыке, присвоение «тегов» музыке (таких как жанры, настроение или использование), позволяющих рекомендовать музыку из каталогов;
обнаружение плагиата;
обработка музыкального контента, например, разбиение музыки на составляющие;
создание новых звуковых сигналов или музыкальных произведений или перенос свойств одного сигнала на другой.

Основной задачей обработки звуков окружающей среды является определение и классификация звуковой сцены и событий, происходящих на ней. Недавним примером применения такой технологии, является новая функция устройств компании Apple, которая при попадании владельца телефона в аварию, совершает звонок в службу 911[2]. Для этого устройств руководствуется как данными с акселерометра, так и сканированием звуковой сцены. Основными задачами в этой сфере являются:

классификация акустической сцены;
определение звуковых событий;
размещение звуков в пространстве.

В то время как речевой аудиосигнал обычно содержит один источник звука, музыка и звуки окружающей среды формируются из нескольких одновременных источников. В случае музыки некоторые источники являются полифоническими и могут одновременно воспроизводить несколько тонов. Это делает анализ музыки и звуков окружающей среды особенно сложным. Речь сильно структурирована во времени, можно сказать, что она распределена по оси Х (эта структура возникает из-за использования словаря и грамматики, специфичных для языка), в то время как музыка распределяется и по оси Y (во времени и по различным одновременные звуковые события). Эта структура возникает из правил музыкальной композиции, специфичных для культуры (гармония для западной музыки, лады/рага для восточной/индийской музыки). Звуки же окружающей среды не имеют определенной временной структуры.

Список литературы:

The International Society for Music Information Retrieval // [Электронный ресурс] –– Режим доступа. –– URL: https://ismir.net/resources/educational-materials/ (дата обращения 06.11.2022).
How does it work? Apple car crash detection // The Times of India. [Электронный ресурс] — Режим доступа: — URL: https://timesofindia.indiatimes.com/gadgets-news/explained-apple-iphone-14-car-crash-detection-feature-and-how-it-works/articleshow/94761340.cms (дата обращения 06.11.2022)