Создать программу, получающую на вход аудиозапись и возвращающую аудиозапись без постороннего шума.
ссылка на картинку с архитектурой
ссылка на оригинальную ахитектуру
ссылка на статью, использованную при работе
Для чистой речи был использован датасет train-clean-100.tar.gz по ссылке Для шума был использован датасет musan.tar.gz по ссылке. Для тренировки модели выбиралась случайная аудиозапись из датасета с чистой речью, на нее накладывалась случайная аудиозапись из датасета с шумом с определенным коэффицентом наложения
В качестве Loss функции использовался L1
Для оценки количества шума в аудиозаписи использовали Signal-to-Noise Ratio (SNR), которое можно вычислить по формуле:
Формула для расчета энергии звука в дб:
Был создан телеграмм бот, принимающий на вход аудиозапись или видео в кружке, и возвращающий данные, полученные на вход, но уже без постороннего шума Для бота был создан дополнительный функционал: определение числа людей, говорящих в аудиозаписи и разделение их речи по отдельным аудиофайлам. Ссылка на бота. Команда /help для ознакомления с функционалом бота