Как изменить свой голос в Discord и Telegram с помощью нейросети?

Нейросети становятся неотъемлемой частью технического прогресса: некоторые компании используют их для автоматизации тех или иных аспектов своей деятельности, а наиболее известные AI смогли конкретно напрячь художников, предлагая пользователям детализированные арты по любому сформированному запросу.

Однако многие всё ещё используют нейросети исключительно в качестве развлечения. В этом материале от Сybersport.metaratings.ru мы предлагаем вам подробную инструкцию по настройке и использованию AI Voice Changer, которая способна преобразовать ваш голос в Discord, Telegram или другом мессенджере под звучание любого человека, будь то какая-либо медийная личность или ваш знакомый.

AI VC – клиентское ПО, предназначенное для преобразования голоса в реальном времени с использованием следующих ИИ: MMVC, so-vits-svc, RVC и DDSP-SVC.

.
Описание работы программы от разработчиков на оригинальном языке

Программа работает в конфигурации сервер-клиента, поэтому её использование является достаточно ресурсоёмким процессом, требующим наличия мощного ПК. Разработчики утилиты даже советуют запускать её на отдельном компьютере, если ваше основное устройство обрабатывает сразу несколько процессов.

Использовать AI Voice Changer можно на Windows, Mac, Linux и Google Colaboratory.

Скачать программу можно со страницы разработчиков на GitHub.

Для того, чтобы упростить навигацию по сайту, можно использовать встроенный в браузер переводчик. Пролистайте страницу вниз, до пункта «Загрузить», и кликните по гиперссылке «hugging_face».

1
Скачать программу с GitHub

На открывшемся сайте вы увидите список версий ПО, какую именно из них использовать – непринципиально. В описании файлов можно найти текст «_mac_» или «_win_» – это ОС, под которую разработана конкретная версия, выбирайте в соответствии с операционной системой вашего компьютера. Для того, чтобы скачать программу, нажмите на стрелочку.

2
Выбор версии 

После того, как архив скачается, распакуйте его содержимое в отдельно созданную папку. Для того, чтобы запустить программу, найдите файл start_http.bat:

Файл start_http.bat
Файл start_http.bat

Можно создать ярлык этого файла и вынести его на рабочий стол, чтобы в дальнейшем запускать нейросеть за пару кликов.

Запустите bat-файл. Откроется окно интерфейса system 32, выполняющее стартовую настройку программы. Процесс занимает некоторое время, поэтому придётся подождать.

Стартовая настройка AI
Стартовая настройка AI

После того, как все необходимые ресурсы будут скачаны и установлены, запустится отдельное интерфейсное окно. Окошко c настройками system 32 при этом продолжит работать – не закрывайте его! Оно должно оставаться запущенным, поскольку программа выполняет все изменения именно в нём.

Окно программы
Окно программы

По умолчанию в ПО будет встроенно несколько голосов японских VТюберов. Они малоинтересны, поэтому в дальнейшем мы рассмотрим, как загрузить в программу образ любого голоса. Но предварительно необходимо выполнить общую настройку программы. Переключитесь на один из профилей по умолчанию, кликнув на иконку с его изображением вверху – это позволит проводить все необходимые изменения.

Прежде всего установите в поле «F0 Det.» параметр «crepe_tiny» или «rmvpe» – это кодеки, которые будут обрабатывать голос. Два указанных работают с русской речью лучше всего. В дальнейшем вы сможете прослушать себя со стороны и остановиться на том, который подходит вам больше.

Параметр «CHUNK» напрямую зависит от вашей видеокарты – например, объём видеопамяти 6GB гарантирует стабильную работу режима «384 (1024.0 ms, 49152)». Чем меньше выбираемое значение, тем меньше будет задержка в воспроизведении голоса. Но также это будет сильнее нагружать видеокарту, поэтому выбирайте этот параметр исходя из вашего железа.

В поле «EXTRA» выберите значение «16384». Параметр «GPU (dml)» переключите на «gpu0».

«Input» – это вход микрофона, который вы используете, а «output» – выводящее устройство. Для того, чтобы услышать работу программы, можете для начала установить в нём ваши наушники или колонки.

Финальные настройки программы
Финальные настройки программы

Для того, чтобы настройки применились для выбранной модели, нажмите на кнопку «save settings». Во вкладке «ServerIO Analyzer» можно выполнять запись и дальнейшее прослушивание изменённого голоса.

Нажав на кнопку «start», вы уже сможете применить и прослушать голосовые модели по умолчанию. Переключение между моделями также занимает некоторое время.

Для того, чтобы использовать готовые голосовые модели для программы, потребуется предварительно их скачать. В настоящий момент в интернете немало ресурсов, предлагающих образы голосов для ПО. Например, русскоязычный блогер Арбузик Смайл регулярно публикует в своём Telegram-канале созданные эмуляции различных медийных личностей, других блогеров или персонажей игр/фильмов.

Скачанная модель состоит из трёх элементов, два из которых обязательны, а третий опционален. Рth- и index-файлы напрямую устанавливаются в программу, а картинку в формате .png можно использовать для обложки, чтобы было проще узнавать профили в интерфейсе.

Для того, чтобы добавить скачанную модель, необходимо нажать на кнопку «edit» в программе, выбрать свободный слот в открывшемся окне (или заменить уже существующий) и кликнуть на «upload».

5
Загрузка голосовой модели

Откроется дополнительное окно с двумя кнопками «select file». Для параметра «model» нужно выбрать скачанный pth-файл, для «index» – index-файл соответственно. Поле «VoiceChangerType» всегда должно оставаться неизменным – формат RVC.

6
Загрузка голосовой модели

Нажмите «upload», чтобы загрузить модель в программу. Для того, чтобы установить картинку, если она имеется, кликните по полю «BLANK» слева в выборе профилей и загрузите соответствующий png-файл с вашего компьютера.

Готово, модель добавлена. Можете запускать её и тестировать. От того, насколько качественным будет итоговый результат, зависит как изначальная проработка модели, так и ваш тембр голоса. Если в случае с последним наблюдается некорректное звучание, можно произвести дополнительную настройку.

Для этого переключайте ползунки «in», «out», «tune», «index», «S.Thresh.» и следите за изменениями. Так, например, для того, чтобы заставить мужской голос звучать более женственно, нужно установить параметр «tune» на значение от 8 до 10.

Для того, чтобы использовать изменённый голос в любом мессенджере, нужно также скачать дополнительную программу – виртуальный аудиокабель, который позволит перенаправить звук в необходимый сервис.

Одной из наиболее простых в установке и использовании программ такого типа является VB-Cable Virtual Audio Device. На официальном сайте можно найти версии для Windows и Mac.

.
Скачать VB-Cable

После скачивания запустите файл и выполните установку. Затем – обязательно перезагрузите компьютер.

Для того, чтобы проверить работоспособность виртуального кабеля (на примере Windows), нужно зайти в Панель управления – Звук, затем – перейти на вкладку «Запись». Среди всех устройств появится CABLE Input – это и есть необходимый нам инструмент. Если вы хотите, чтобы в каждом мессенджере по умолчанию использовался изменённый нейросетью голос (будет работать только при запущенной программе), то можете установить этот источник в качестве устройства записи по умолчанию.

.
VB-Cable Input

Теперь необходимо вернуться в интерфейс AI Voice Changer и в поле «output» выбрать виртуальный кабель – Cable Input (VB-Audio Virtual Cable). Готово, после загрузки и настройки голосовых моделей вы сможете использовать нейросеть в любом мессенджере.

Этот метод нужно использовать в том случае, если вы хотите оставить обычное устройство записи (ваш микрофон) для системы по умолчанию. Тогда в любой сторонней программе нужно настраивать вывод звука отдельно – рассмотрим на примере Discord'а. В любом другом мессенджере система будет очень похожей.

Перейдите в общие настройки, нажав на шестерёнку в левом нижнем углу (рядом с вашим никнеймом). Теперь – выберите пункт «Голос и видео». В «устройстве вывода» установите Cable Input (VB-Audio Virtual Cable).

2
Настройка в Discord

Настройка завершена. В Discord'е можно проверить изменённый голос с помощью функции «Давайте проверим ваш звук» (синяя кнопка ниже от выбора устройств ввода и вывода).

Помимо использования готовых голосовых моделей ПО позволяет загружать и применять ваши собственные. Это может быть что угодно – вплоть до записи голоса вашего друга.

Данный процесс достаточно сложен, многоступенчат и требует использования сразу нескольких дополнительных программ. На Youtube есть несколько полезных роликов, которые детально описывают технологию записи и создания модели.

Редакция Сybersport.metaratings.ru рекомендует использовать программу исключительно в развлекательных целях: например, для розыгрыша друзей.

Часто задаваемые вопросы

Что такое AI Voice Changer?
Это клиентское ПО, которое использует сразу несколько ИИ для эмулирования голосовых моделей, предзаписанных пользователями. С его помощью можно изменить свой голос в реальном времени.
Можно ли поменять свой голос на персонажа игры, фильма или мультфильма?
Да, AI Voice Changer позволяет изменить ваш голос на любой другой, но для этого необходима записанная модель.
Можно ли добавить в программу свою собственную модель голоса?
Да, это возможно. Однако стоит отметить, что процесс достаточно сложен – чуть выше мы поделились ресурсами, которые помогут вам освоить данную технологию.
Комментарии
Нет комментариев. Будьте первым!