Технологии

Транскрибация записи телефонных разговоров

Поговорим сегодня о давней мечте, транскрибация записи телефонных разговоров, бесплатно и конфиденциально перевести весь архив записей телефонных разговоров в текст. Качественная транскрибация записи телефонного разговора сегодня стала возможна на домашнем ПК и в этой статье мы расскажем как это сделать.

Архив записи телефонных разговоров

За несколько лет, накопился приличный архив записи телефонных разговоров, которые просто занимали место в хранилище.

Были ранее попытки перевести аудиозаписи в текст, но до появления нейросетевых алгоритмов транскрибации, качество распознавания было близким к шлаку. Практически полностью отсутствовала пунктуация, основанная на эмоциональной окраске речи. Грамматические и лексические ошибки и опечатки, делали транскрибацию без емкой редактуры бессмысленной. Проще говоря, переписать текст руками было вероятно быстрее и качественнее. Но объем архива намекал мне отложить это занятие до пенсии.

Архив состоит из аудиозаписей телефонных разговоров в количестве около 10 тысяч файлов. Что с этим необходимо сделать, чтоб за несколько часов перевести все это в текст мемуаров.

Формируем список аудио файлов в папке

Сохранить список названий всех файлов из аудио архива мне понадобится для последующей их сшивке в единый файл. Это нужно сделать потому, что использовать программу транскрибации  для каждого отдельного файла это долго и рутинно.

Сохранить список названий всех файлов

Для этого я использовал Total Commander. Захожу в папку с архивом, выделяю весь список файлов сочетанием клавиш

CTRL + A

Далее заходим в меню Выделение и нажимаем Сохранить выделение в файл. Сохраняем в папку ffmpeg текстовый файл, назовем его calls.txt

Можно скопировать еще так, но после очередного обновления Windows 10 пропал раздел в меню и я не стал разбираться почему, хотя записи в реестре сохранились.

Сшиваем аудио файлы в один файл

Для сшивки файлов будем использовать ffmpeg. Копируем все аудио файлы архива в папку ffmpeg, там где у нас уже лежит файл calls.txt

Для использования команды

ffmpeg -f concat -safe 0 -i calls.txt -c copy outputcalls.mp4

Нам понадобится подредактировать calls.txt, а именно добавить в начало каждой строки file, чтоб привести структуру файла к виду

file [+73491771]_[30-11-2022]_[09-49-55].mp4
file [+73789462]_[25-11-2022]_[17-54-24].mp4
file [+79893234]_[25-11-2022]_[10-27-30].mp4
file [+73492008]_[23-11-2022]_[13-02-39].mp4
file [+73492008]_[23-11-2022]_[12-41-15].mp4
file [+73492008]_[23-11-2022]_[12-19-40].mp4

Для этого я использую Notepad++ в котором открываем calls.txt и сочетанием клавиш открываем окно поиска и замены.

CTRL + H

Для добавления текста в начало строки ищем символ

^

и заменяем на нужный нам file  с пробелом, для того чтоб добавить текст в конец строки используем $, не забываю поставить чек бокс регулярные выражения, нажимаем заменить все

Для добавления текста в начало строки notepad++

Файл готов, открываем cmd, вводим команду на склейку файлов, на выходе получаем один файл outputcalls.mp4, в зависимости от количества файлов его размер может быть достаточно большим. Так у меня получился файл из склейки 6К аудио файлов размеров около 600Мб. Транскрибация записи телефонных разговоров это очень просто.

 Как разрезать файл на части

После того, как я попытался обработать 600Мб файл в Whisper, мой ПК с Win10 i5 4690 32Gb GF1070 8Gb немного подумал и через пару минут решил уйти в игнор, да так что перестал реагировать на reset. Так что было принято решение резать файл на куски. Файл outputcalls.mp4 положили в папку ffmpeg и через cmd запускаем команду.

ffmpeg -i outputcalls.mp4 -c copy -f segment -segment_time 3600 -y outputcalls%03d.mp4

Получились аудиофайлы продолжительностью по одному часу. Вероятно можно было резать и на более крупные куски и древнее железо могло их прожевать, но что сделано то сделано.

Скармливаем полученные файлы в Whisper

Мы уже ранее рассказывали как установить Whisper на Windows 10 и используя ресурсы вашего GPU, эффектно производить транскрибацию записи телефонных разговоров. На выходе получаем текстовые файлы, которые все же нуждаются в небольшой редактуре, но их качество иногда впечатляет. Очень необычное ощущение при чтении текста, который был проговорен тобой в телефонном разговоре несколько лет назад.

Заключение

Как использовать результат транскрибации, речь в текст, и тексты телефонных разговоров, каждый решает для себя сам. Если у вас появились вопросы, спрашивайте в комментариях. В случае если вы нуждаетесь в дополнительном обучении или помощи при распознавании аудио файлов в текст, напишите нам.

34.7