Skip to content

umu-art/NoiseReduction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

134 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Noise reduction

Задача:

Создать программу, получающую на вход аудиозапись и возвращающую аудиозапись без постороннего шума.

ссылка на картинку с архитектурой

ссылка на оригинальную ахитектуру

ссылка на статью, использованную при работе

Датасеты и их обработка:

Для чистой речи был использован датасет train-clean-100.tar.gz по ссылке Для шума был использован датасет musan.tar.gz по ссылке. Для тренировки модели выбиралась случайная аудиозапись из датасета с чистой речью, на нее накладывалась случайная аудиозапись из датасета с шумом с определенным коэффицентом наложения

Loss функция и метрика качества:

В качестве Loss функции использовался L1 Для оценки количества шума в аудиозаписи использовали Signal-to-Noise Ratio (SNR), которое можно вычислить по формуле: $$SNR = 10 * \log_{10} \frac{E(clean)}{E(noise)}$$

Формула для расчета энергии звука в дб: $$E(x)_{dB} = 10 * \log _{10} E(x)$$ $$E(x) = \frac{1}{T} \sum _{t=1}^T x_t^2$$

Результаты:

Был создан телеграмм бот, принимающий на вход аудиозапись или видео в кружке, и возвращающий данные, полученные на вход, но уже без постороннего шума Для бота был создан дополнительный функционал: определение числа людей, говорящих в аудиозаписи и разделение их речи по отдельным аудиофайлам. Ссылка на бота. Команда /help для ознакомления с функционалом бота

About

NoiseReduction bot with self-composed ai model

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages