다중 화자 모델 학습 방법이 궁금합니다

#2
by AndyPark - opened

우선 finetuning 모델을 제공해 주셔서 감사합니다.
개인적으로는 sr을 22050hz로 finetuning을 하려다 보니, 본 모델을 활용은 못해 아쉬운 상황입니다

transcript를 speaker id 만 다르게 |0| ~ |70| 까지 증가 시켜서 모델을 학습 시키신 건가요?
학습 시간은 그럼 단일 화자를 만들때보다 70배가 걸리는건가요?

  1. transcript 다 같게 설정한 후, speaker_id만 0부터 69까지 설정하여 모델 학습 시킨 게 맞습니다.

  2. 70배까지 길게 걸리지 않습니다. 싱글스피커보다 학습 시간이 약간 더 걸릴 뿐입니다.

@AndyPark nuwave2 를 이용하여 44100으로 Upsampling이 가능합니다.

명쾌한 답변 감사드립니다!
혹시 해당 모델의 학습은 Lr이 어느 시점일때 종료하셨는지 알수있을까요?
finetuning시에 Lr을 어떻게 가져가야 할지 고민중인데 경험하신 노하우가 있으신지 여쭙니다.

파인튜닝 모델이라고 해서 다르게 설정해 줄 필요 없습니다! 단순히 ‘0.0002’로 설정하시면 됩니다.

Sign up or log in to comment