Как повысить тон голоса без увеличения скорости (например, как в приложении Talking Tom Cat)? Наткнулся на приложение Talking Tom Cat — кот на экране Android'а слушает микрофон и, если что-нибудь сказать, то он повторяет эту фразу, но повышает тон голоса. Получается забавный «мультяшный» голос, как у бурундучков. Очевидный способ добиться такого — воспроизвести звук немного быстрее, но тогда увеличится темп, чего не хотелось бы. Вопрос: как добиться такого же эффекта? Интересуют алгоритм(ы), но и готовая библиотека для такого рода фигни будет полезна. Буду рад, если посоветуете литературу/статьи/сайт, где можно подсмотреть решение этой задачи. Что-то слышал про применимость преобразования Фурье. Попытался сделать следующее: применяю прямое преобразование ко всему куску звука, «сдвигаю» результат (data[i — off] = data[i]), заполняя пустоты нулями, делаю обратное преобразование и воспроизвожу вещественную часть (округлив). Получилось что-то похожее, но с кучей искажений. Если применять не к куску, а разделить на несколько непересекающихся и применить по отдельности, результат не лучше.
Для повышения тона голоса без увеличения скорости звука можно использовать технику формантного сдвига. Форманты являются резонансными пиками в спектре звука, которые определяют его тон и тембр. При формантном сдвиге можно изменить частоты этих пиков, что изменит тон голоса.
Для реализации этой техники вам понадобится библиотека для работы с цифровым звуком, такая как Librosa или PyDub. Вот примерный алгоритм действий:
Загрузите звуковой файл с помощью выбранной библиотеки.Примените преобразование Фурье к звуку, чтобы получить спектрограмму.Найдите форманты (резонансные пики) в спектрограмме и измените их частоты на определенный процент.Преобразуйте спектрограмму обратно во временной домен и сохраните измененный звуковой файл.
Это всего лишь общий алгоритм, и для достижения желаемого эффекта вам может потребоваться экспериментировать с параметрами сдвига формант.
Для более подробной информации и примеров кода рекомендуется обратиться к специализированным источникам, таким как книги по цифровой обработке звука или онлайн-ресурсы по программированию звука. Кроме того, может быть полезно изучить работы по цифровой обработке речи для более глубокого понимания процесса изменения тона голоса.
Для повышения тона голоса без увеличения скорости звука можно использовать технику формантного сдвига. Форманты являются резонансными пиками в спектре звука, которые определяют его тон и тембр. При формантном сдвиге можно изменить частоты этих пиков, что изменит тон голоса.
Для реализации этой техники вам понадобится библиотека для работы с цифровым звуком, такая как Librosa или PyDub. Вот примерный алгоритм действий:
Загрузите звуковой файл с помощью выбранной библиотеки.Примените преобразование Фурье к звуку, чтобы получить спектрограмму.Найдите форманты (резонансные пики) в спектрограмме и измените их частоты на определенный процент.Преобразуйте спектрограмму обратно во временной домен и сохраните измененный звуковой файл.Это всего лишь общий алгоритм, и для достижения желаемого эффекта вам может потребоваться экспериментировать с параметрами сдвига формант.
Для более подробной информации и примеров кода рекомендуется обратиться к специализированным источникам, таким как книги по цифровой обработке звука или онлайн-ресурсы по программированию звука. Кроме того, может быть полезно изучить работы по цифровой обработке речи для более глубокого понимания процесса изменения тона голоса.