京东的宝子们,提一点建议

#3
by tuolaku - opened

首先感谢你们发布JoyAI。经过我2个小时的测试,发现这个模型有一些问题,共享出来,看看是否能更好的优化解决。以下均为I2V测试的问题:

  1. 口型同步问题。
    相比原版LTX2.3模型+蒸馏Lora(8步),无论是FPS=24还是FPS=25,人物对口型无论是中文还是英文,都不是很好,甚至中文口型出现了完全对不上的情况。
  2. 语音完全像生硬的朗读没有任何情绪(像机械动作),尽管我已经在提示词中描述了,小声、胆怯等词语,在原版的LTX2.3模型中表现良好。
  3. 人物面部细节缺失,按照1280x736的分辨率,人物面部光滑,但是可以在放大部分采用detail来解决,但是原版的LTX2.3在第一个阶段已经可以做到面部皮肤细节呈现。
  4. 人物表情生硬,相比原版LTX2.3。
    我的建议,能否放出未蒸馏版的JoyAI,我很乐意帮助你们测试验证。
    我会放上对比,供你们查看。
    首先放上LTX2.3的原版视频,模型采用MXFP8未蒸馏版+蒸馏Lora(权重0.5),分辨率1280X736,10秒:

其次放上JoyAI的视频,模型采用BF16蒸馏版,分辨率1280X736,10秒:

hi你好,这一次的joyai-echo是没有训练i2v的,只针对短视频以及长视频的t2v,i2v版本会在下一版本补上~

JD.com Open Source org

@tuolaku 感谢你的建议

hi你好,这一次的joyai-echo是没有训练i2v的,只针对短视频以及长视频的t2v,i2v版本会在下一版本补上~

原来如此,期待I2V版本的发布。感谢你们的付出。

懂了,需要循环推理。目前Comfy还不支持。

Sign up or log in to comment