Технологии

Повышение качества голоса на записи для распознавания

Несмотря на высокое качество записи с помощью современных технических средств, повышение качества голоса необходимо. Звуковые файлы зачастую требуют дополнительной обработки. На записях могут присутствовать нежелательные шумы или посторонние звуки, громкость голоса может быть неравномерной, а сам голос может звучать неестественно. Поэтому, если вы планируете использовать запись для распознавания голоса, рекомендуется провести обработку звука для улучшения качества и восприятия.

Узнайте больше что такое распознавание речи на записи или транскрибация

Заказать обработку звуковых файлов у профессионалов

Если вам не хватает знаний, времени или желания, то робот фрилансер все сделает для вас за небольшую плату для покупки батареек, напишите.

Программа для обработки звука

Будем использовать программу Audacity — это бесплатная программа для обработки аудиозаписей. Обработка голоса включает в себя редактирование аудиофайлов. Audacity — бесплатный софт. Весьма мощный аудиоредактор, доступный для всех операционных систем и легкий в использовании и освоении его функций и интерфейса.

С чего начать обработку Обработка голоса

Итак, у нас есть аудиозапись в определенном формате. Это может быть видео или аудио файл. Из видеофайла мы легко с помощью ffmpeg извлекаем аудиофайл. Затем, мы открываем файл в программе Audacity. Мы можем сделать это, выбрав пункт Импортировать в меню Файл редактора. Но настоящий робот обычно просто перетаскивает аудиофайл с записью голоса мышкой из папки в окно редактора.

Для демонстрации повышения качества голоса робот взял пример записи продолжительностью пару минут.

Нормировка уровня громкости

Чтобы улучшить качество записи голоса для последующего распознавания, первым шагом необходимо увеличить громкость голоса. Для этого выделяем дорожку двойным щелчком левой кнопки мыши или комбинацией Ctrl+A.

Затем выбираем вкладку Эффекты в меню и кликаем на пункт Нормировка сигнала. После этого откроется меню настройки эффекта.

повышение качества голоса на записи - почистили спектр графическим эквалайзером
повышение качества голоса на записи — почистили спектр графическим эквалайзером

Стандартные параметры, которые мы видим в окне, обычно достаточны. В окне устанавливается значение громкости, соответствующее максимальному уровню звука в вашей записи. Нормировка увеличит уровень громкости, не влияя на качество звука.

В редакторе Audacity для всех инструментов предусмотрена кнопка Предпросмотр, которая воспроизводит первые 5 секунд выделенного участка с применением выбранного эффекта.

Нормировка сигнала это просто его усиление на одинаковую величину. Усиление подбирается так, чтобы места с максимальной громкостью довести до указанного вами значения. При этом усиливается всё — как полезный сигнал так и фоновый шумок.

Удаляем лишние звуки и щелчки

Уровень громкости подрос, но этого не достаточно для повышение качества голоса. Проблема есть в щелчках и тресках. Нужно просто заглушить эти участки. Для этого приближаем масштаб и выделяем нужный участком с щелчком.

Удобно менять масштаб зажимая Ctrl и прокручивая колесиком мыши. Для перемещения по записи влево и вправо крутим колесо и зажимаем Shift.

Робот специально захватил на временную шкалу, чтобы показать, что длительность пика около 0,2 секунды. Для того чтобы заглушить выделенное нажимаем в панели инструментов кнопочку либо комбинацию Ctrl+L

повышение качества голоса на записи - удалить щелчки
повышение качества голоса на записи — удалить щелчки

Редактор моментально сровняет пик с землей в идеально прямую линию нулевой громкости. Можно и удалить это кусочек, нажав на клавиатуре Delete. Но в таком случае выделенная часть дорожки удалится, а общая длительность сократится, что не совсем верно. Если запись готовится для распознавания голоса, удаление участка посредством Delete может привести к сдвигу дорожки.

Удалив щелчок, повторяем Нормировку сигнала и получаем уже более солидный результат.

В Audacity есть удобная комбинация клавиш Ctrl+R, нажатие которой повторяет последний использованный эффект. При этом эффект повторяется с теми же самыми настройками. Так что используйте это сочетание клавиш для многократного повторения операции по удалению щелчков на звукозаписи.

Как удалить шум в записи

Качественная обработка голоса и повышение качества голоса, неминуемо требует удаление шума. Делается это в два этапа. Сначала нужно создать модель шума, для того чтобы программа знала от чего нужно избавляться. Поэтому находим в записи кусочек, где нет полезной информации, а только то, что мы считаем шумом и выделяем этот участок мышкой.

повышение качества голоса на записи - изменение темпа записи
повышение качества голоса на записи — изменение темпа записи

Желательно, чтобы этот участок на записи был как можно длиннее, тогда получится правильно удалить и качественно шум из записи.

Теперь в меню Эффекты выбираем Подавление шума. Вверху открывшегося окошка видим и нажимаем единственную кнопочку — Создать модель шума.

На этом окошко закроется. Модель шума будет создана. Теперь выделяем всю запись, можно нажать Ctrl+A и вновь заходим в меню ЭффектыПодавление шума

Откроется тоже самое окно, но теперь можно перейти к следующему шагу. Настройки по дефолту подойдут для большинства случаев. Хотя с последним ползунком лучше поэкспериментировать. Жмем ОК, повторяем нормировку и любуемся результатом.

Если сравнить с тем как дорожка выглядела до удаления шума, то можно легко заметить, что постоянная составляющая практически полностью исчезла. Все тихие места которые представляли роботу модель шума, стали еще тише, практически исчезли. Да и на слух это звучит хорошо.

Политинформация — подавление на каждые 6дБ это ослабление в 2 раза, а на каждые 3дБ это 1,5 раза.

Если запись очень и очень шумная и в ней присутствуют разные типы шумов, то можно повторить процедуру несколько раз с момента создания модели шума. При этом кусочек который будет выделен как модель шума можно брать каждый раз в другом месте записи.

А в окошко Подавление шума дБ вписать уровни от 3 до 6дБ. Излишнее подавление может внести расплывчатость в звук, что нам не надо вовсе. Так же, зачастую, гораздо эффективнее несколько раз подавить шум по 3дБ, создавая модель шума из разных участков записи, чем один раз сделать коррекцию на 15 дБ.

Используем эквалайзер и выделяем частоты голоса на записи

Так как нас интересует именно речь, ведь мы занимаемся повышением качества голоса на записи, то можно дополнительно выделить ее при помощи эквалайзера. Переходим ЭффектыЭквалайзер.

Речь, как мужская так и женская укладываются в диапазон 200-7000 Гц. Большинство шумов, как правило, лежит выше это диапазона, а гудение — ниже. Поэтому громкость остальных частот стоит снизить ввиду их излишней важности при повышении качества голоса.

повышение качества голоса на записи - проводим анализ спектра на выделенном участке голоса
повышение качества голоса на записи — проводим анализ спектра на выделенном участке голоса

Подобная форма эквалайзера возможно подойдет при быстрой обработке звука голоса. Но все очень сильно зависит от того, как и на что производилась запись. С этим эквалайзером можно поработать подольше.

Компрессия

В процессе обработки голоса на записи, всегда необходимо ровнять уровень громкости в аудио файле. Можно конечно вручную выделять фрагменты и применять к ним эффект Нормировка, что довольно эффективно. Робот описал этот процесс выше, но это занимает много времени. Поэтому был придуман в Audaciti инструмент под названием Компрессор, который значительно упрощает эту задачу.

Для использования компрессора выделяем всю запись и переходим в меню ЭффектыКомпрессор. Стандартные настройки компрессора подойдут для большинства случаев. Компрессор усиливает тихие моменты и ослабляет громкие, тем самым выравнивая уровень громкости. Посмотрим на результат применения компрессора.

повышение качества голоса на записи - на основании спектра выставляем кривую графического эквалайзера по нужным частотам спектра
повышение качества голоса на записи — на основании спектра выставляем кривую графического эквалайзера по нужным частотам спектра

Запись стала более ровной, повышение качества голоса похоже удалось на славу. Если часть записи все еще кажется слишком тихой, можно выделить участок отдельно и применить к нему либо компрессию, либо нормировку — как вам удобно.

Изменение темпа записи

Для того чтоб улучшить восприятие речи на записи, можно уменьшить скорость записи без изменения тона. Это помогает распознать речь, если у корреспондента была нарушена дикция и произношение было искажено. Например речь человека в состоянии алкогольного опьянения.

повышение качества голоса на записи - изменение темпа записи
повышение качества голоса на записи — изменение темпа записи

Экспорт и сохранение

Чтобы сохранить обработанную запись в виде аудиофайла, перейдите в меню Файл и выберите Экспорт или Аудиоданные.

В открывшемся окне укажите название файла и выберите желаемый формат. Робот говорит что экспортировать запись можно в любой популярный аудио формат с указанием качества. Но для нашего случая подойдет формат MP3 с постоянным высоким битрейтом 320 Кбит/с или еще выше.

Заключение

Робот на сам себе сайт может еще долго продолжать экспериментировать с записью в режиме рекурсии. Можно снова убирать шумы, которые могли появиться после компрессии, и применять еще большую компрессию для улучшения качества звука и повышения качества голоса на записи. Однако стоит помнить, что избыточная компрессия может сделать звук слишком сжатым и лишить его динамики, учитесь слушать и услышите.

15