vocoder

Huggingface Audio
보코더

src: HuggingFace audio


오디오를 생성하는 모델은 로그 멜 스펙트로그램을 출력으로 생성하는 것이 일반적입니다. 따라서 사람이 인지할 수 있는 파형으로 변경하는 신경망인 보코더를 최종 출력단으로 사용합니다. 하지만 Bark와 같은 오디오 딥러닝 모델은 원시 음성 파형을 직접 생성하는 모델들은 별도의 보코더가 필요하지 않습니다.

참조

  1. https://huggingface.co/learn/audio-course/en/chapter6/pre-trained_models