제공해주신, 모델로 최대 70명의 화자를 지원 한다는건가여?

#1
by Gyubin - opened

안녕하세요,
먼저 모델을 공개해주셔서 감사합니다.

다름이 아니라,
호기심이 생겨 vits 모델을 기반으로 음성을 추론 하려고 합니다.

제공해주신 모델을 사용하면 70명의 목소리로 음성 추론이 가능하다는건가요?
작은 지식으로 추론을 진행하고 있지만, 같은 목소리만 나오는거 같습니다!

혹시 제가 잘못 알고 있는거라면
지적 또는 조언 부탁드립니다!

아! 저는 최종적으로 제 목소리로 음성을 학습을 시키려고합니다

감사합니다!

이 모델은 파인튜닝(Fine-Tuning) 모델입니다. 당연히 데이터 학습없이 추론을 하면 같은 목소리가 나올 수밖에 없죠.

우선, 빠른 답변 감사합니다!

제가 이해한게 맞는지 모르겠습니다.. !!
A
파인튜닝 모델이라는 말씀은 제가 준비해둔 2명의 화자 목소리가 있다면
[0]번지에 제공해주신 화자 목소리
[1]번지에 제가 준비한 a 목소리
[2]번지에 제가 준비한 b 목소리

이렇게 파인튜닝을 할 수 있는 pre-train 모델이라고 보면 되는건가요..??

B
A내용이 아니라면
ORI-Muchim님께서 사전 학습된 모델을 가져오셔서,
파인튜닝을 진행한 모델이라는 말씀이신가요!?

감사합니다

A내용은 아니고, 단순히 제가 만든 사전 학습 모델을 넣어 파인튜닝 진행하시면 됩니다.

답변 감사드립니다.

혹시 파인튜닝 진행시 config.json 관련 질문을 드려도 될까요?

  • "training_files":"/home/fine_train.txt.cleaned",
  • "validation_files":"/home/fine_test.txt.cleaned",
  • "n_speakers": 70 => "n_speakers": 71 로 변경
  • "speakers": ["kss_finetuning"], => "speakers": ["kss_finetuning","fine-test"], 로 변경

위 처럼 변경 완료 후 학습 진행시 오류가 발생하는데,
혹시 제가 더 확인해봐야 할 내용이 있을까요?

오류 메시지 같이 남겨드립니다.
"data_utils.py", line 362, ZeroDivisionError: integer division or modulo by zero"

감사합니다

n_speakers 값은 70 그대로 두시고, zerodivison 오류는 data_utils.py를 약간 수정해야합니다. 제 깃허브에 원클릭 vits 트레이닝 레포에서 data_utils.py 만 교체하여 사용해주시기 바랍니다.

친절한 답변 감사드립니다.

ORI-Muchim님의 깃허브 레파지토리에 잘 정리 해주셔서
해당 코드로 변경해서 진행하고 있습니다.

감사합니다

혹시 추가적으로 질문드려도 될까요..?

ORI-Muchim님의 깃허브를 활용해서 파인튜닝을 할 경우
하나의 모델에서 2가지 화자의 음성을 만들 수 있는걸까요?

네 그렇습니다. 모델 하나에서 제 파인튜닝 모델을 사용할 시 최대 70명, 사전 모델 없이 진행하면 70명 이상 학습이 가능합니다.

친절한 답변 감사합니다.

ORI-Muchim님의 깃허브를 참고해서 현재 학습을 진행중인데,
제가 직접 100문장 정도 녹음해서 하고있습니다.

벌써부터 결과가 어떻게 나올지 기대가 됩니다.

친절히 알려주셔서 감사합니다.
한주도 이제 마무리 되어가는데,
금요일 기분 좋은 하루 되시길 바라겠습니다!

감사합니다

ORI-Muchim changed discussion status to closed

Sign up or log in to comment