Spaces:

ZJYang
/

AniPortrait_official

Running on Zero

App Files Files Community

zejunyang commited on Apr 8, 2024

Commit

ac336de

1 Parent(s): 4f3b622

update

Browse files

Files changed (3) hide show

app.py +6 -25
src/utils/crop_face_single.py +0 -3
src/utils/mp_utils.py +0 -2

app.py CHANGED Viewed

@@ -99,9 +99,7 @@ pipe = pipe.to("cuda", dtype=weight_dtype)
 frame_inter_model = init_frame_interpolation_model()
 @spaces.GPU
-def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, length=60, seed=42):
-    print('=====Start processing======')
     fps = 30
     cfg = 3.5
     fi_step = 3
@@ -121,11 +119,8 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
     while os.path.exists(save_dir):
         save_dir = Path(f"a2v_output/{date_str}/{save_dir_name}_{np.random.randint(10000):04d}")
     save_dir.mkdir(exist_ok=True, parents=True)
-    print('=====1======')
     ref_image_np = cv2.cvtColor(ref_img, cv2.COLOR_RGB2BGR)
-    print('=====1======', ref_img.shape, ref_image_np.shape)
     ref_image_np = crop_face(ref_image_np, lmk_extractor)
     if ref_image_np is None:
         return None, Image.fromarray(ref_img)
@@ -133,22 +128,16 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
     ref_image_np = cv2.resize(ref_image_np, (size, size))
     ref_image_pil = Image.fromarray(cv2.cvtColor(ref_image_np, cv2.COLOR_BGR2RGB))
-    print('=====2======')
     face_result = lmk_extractor(ref_image_np)
     if face_result is None:
         return None, ref_image_pil
-    print('=====3======')
     lmks = face_result['lmks'].astype(np.float32)
     ref_pose = vis.draw_landmarks((ref_image_np.shape[1], ref_image_np.shape[0]), lmks, normed=True)
     sample = prepare_audio_feature(input_audio, wav2vec_model_path=audio_infer_config['a2m_model']['model_path'])
     sample['audio_feature'] = torch.from_numpy(sample['audio_feature']).float().cuda()
     sample['audio_feature'] = sample['audio_feature'].unsqueeze(0)
-    print('=====4======')
     # inference
     pred = a2m_model.infer(sample['audio_feature'], sample['seq_len'])
@@ -156,8 +145,6 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
     pred = pred.reshape(pred.shape[0], -1, 3)
     pred = pred + face_result['lmks3d']
-    print('=====5======')
     if headpose_video is not None:
         pose_seq = get_headpose_temp(headpose_video)
     else:
@@ -172,8 +159,6 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
     for i, verts in enumerate(projected_vertices):
         lmk_img = vis.draw_landmarks((width, height), verts, normed=False)
         pose_images.append(lmk_img)
-    print('=====6======')
     pose_list = []
     # pose_tensor_list = []
@@ -182,7 +167,7 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
     #     [transforms.Resize((height, width)), transforms.ToTensor()]
     # )
     args_L = len(pose_images) if length==0 or length > len(pose_images) else length
-    args_L = min(args_L, 60)
     for pose_image_np in pose_images[: args_L : fi_step]:
         # pose_image_pil = Image.fromarray(cv2.cvtColor(pose_image_np, cv2.COLOR_BGR2RGB))
         # pose_tensor_list.append(pose_transform(pose_image_pil))
@@ -192,8 +177,6 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
     pose_list = np.array(pose_list)
     video_length = len(pose_list)
-    print('=====7======')
     video = pipe(
         ref_image_pil,
@@ -231,8 +214,6 @@ def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, l
 @spaces.GPU
 def video2video(ref_img, source_video, size=512, steps=25, length=60, seed=42):
-    print('=====Start processing======')
     cfg = 3.5
     fi_step = 3
@@ -282,7 +263,7 @@ def video2video(ref_img, source_video, size=512, steps=25, length=60, seed=42):
     verts_list = []
     bs_list = []
     args_L = len(source_images) if length==0 or length*step > len(source_images) else length*step
-    args_L = min(args_L, 60*step)
     for src_image_pil in source_images[: args_L : step*fi_step]:
         src_img_np = cv2.cvtColor(np.array(src_image_pil), cv2.COLOR_RGB2BGR)
         frame_height, frame_width, _ = src_img_np.shape
@@ -408,7 +389,7 @@ with gr.Blocks() as demo:
                     a2v_step_slider = gr.Slider(minimum=5, maximum=20, step=1, value=15, label="Steps (--steps)")
                 with gr.Row():
-                    a2v_length = gr.Slider(minimum=0, maximum=60, step=1, value=30, label="Length (-L)")
                     a2v_seed = gr.Number(value=42, label="Seed (--seed)")
                 a2v_botton = gr.Button("Generate", variant="primary")
@@ -436,7 +417,7 @@ with gr.Blocks() as demo:
                     v2v_step_slider = gr.Slider(minimum=5, maximum=20, step=1, value=15, label="Steps (--steps)")
                 with gr.Row():
-                    v2v_length = gr.Slider(minimum=0, maximum=60, step=1, value=30, label="Length (-L)")
                     v2v_seed = gr.Number(value=42, label="Seed (--seed)")
                 v2v_botton = gr.Button("Generate", variant="primary")

 frame_inter_model = init_frame_interpolation_model()
 @spaces.GPU
+def audio2video(input_audio, ref_img, headpose_video=None, size=512, steps=25, length=60, seed=42):
     fps = 30
     cfg = 3.5
     fi_step = 3
     while os.path.exists(save_dir):
         save_dir = Path(f"a2v_output/{date_str}/{save_dir_name}_{np.random.randint(10000):04d}")
     save_dir.mkdir(exist_ok=True, parents=True)
     ref_image_np = cv2.cvtColor(ref_img, cv2.COLOR_RGB2BGR)
     ref_image_np = crop_face(ref_image_np, lmk_extractor)
     if ref_image_np is None:
         return None, Image.fromarray(ref_img)
     ref_image_np = cv2.resize(ref_image_np, (size, size))
     ref_image_pil = Image.fromarray(cv2.cvtColor(ref_image_np, cv2.COLOR_BGR2RGB))
     face_result = lmk_extractor(ref_image_np)
     if face_result is None:
         return None, ref_image_pil
     lmks = face_result['lmks'].astype(np.float32)
     ref_pose = vis.draw_landmarks((ref_image_np.shape[1], ref_image_np.shape[0]), lmks, normed=True)
     sample = prepare_audio_feature(input_audio, wav2vec_model_path=audio_infer_config['a2m_model']['model_path'])
     sample['audio_feature'] = torch.from_numpy(sample['audio_feature']).float().cuda()
     sample['audio_feature'] = sample['audio_feature'].unsqueeze(0)
     # inference
     pred = a2m_model.infer(sample['audio_feature'], sample['seq_len'])
     pred = pred.reshape(pred.shape[0], -1, 3)
     pred = pred + face_result['lmks3d']
     if headpose_video is not None:
         pose_seq = get_headpose_temp(headpose_video)
     else:
     for i, verts in enumerate(projected_vertices):
         lmk_img = vis.draw_landmarks((width, height), verts, normed=False)
         pose_images.append(lmk_img)
     pose_list = []
     # pose_tensor_list = []
     #     [transforms.Resize((height, width)), transforms.ToTensor()]
     # )
     args_L = len(pose_images) if length==0 or length > len(pose_images) else length
+    args_L = min(args_L, 90)
     for pose_image_np in pose_images[: args_L : fi_step]:
         # pose_image_pil = Image.fromarray(cv2.cvtColor(pose_image_np, cv2.COLOR_BGR2RGB))
         # pose_tensor_list.append(pose_transform(pose_image_pil))
     pose_list = np.array(pose_list)
     video_length = len(pose_list)
     video = pipe(
         ref_image_pil,
 @spaces.GPU
 def video2video(ref_img, source_video, size=512, steps=25, length=60, seed=42):
     cfg = 3.5
     fi_step = 3
     verts_list = []
     bs_list = []
     args_L = len(source_images) if length==0 or length*step > len(source_images) else length*step
+    args_L = min(args_L, 90*step)
     for src_image_pil in source_images[: args_L : step*fi_step]:
         src_img_np = cv2.cvtColor(np.array(src_image_pil), cv2.COLOR_RGB2BGR)
         frame_height, frame_width, _ = src_img_np.shape
                     a2v_step_slider = gr.Slider(minimum=5, maximum=20, step=1, value=15, label="Steps (--steps)")
                 with gr.Row():
+                    a2v_length = gr.Slider(minimum=0, maximum=90, step=1, value=30, label="Length (-L)")
                     a2v_seed = gr.Number(value=42, label="Seed (--seed)")
                 a2v_botton = gr.Button("Generate", variant="primary")
                     v2v_step_slider = gr.Slider(minimum=5, maximum=20, step=1, value=15, label="Steps (--steps)")
                 with gr.Row():
+                    v2v_length = gr.Slider(minimum=0, maximum=90, step=1, value=30, label="Length (-L)")
                     v2v_seed = gr.Number(value=42, label="Seed (--seed)")
                 v2v_botton = gr.Button("Generate", variant="primary")

src/utils/crop_face_single.py CHANGED Viewed

@@ -3,10 +3,7 @@ import cv2
 def crop_face(img, lmk_extractor, expand=1.5):
-    print('****=====1======')
     result = lmk_extractor(img)  # cv2 BGR
-    print('****=====2======')
     if result is None:
         return None

 def crop_face(img, lmk_extractor, expand=1.5):
     result = lmk_extractor(img)  # cv2 BGR
     if result is None:
         return None

src/utils/mp_utils.py CHANGED Viewed

@@ -38,7 +38,6 @@ class LMKExtractor():
     def __call__(self, img):
-        print('///=====1======')
         frame = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
         image = mp.Image(image_format=mp.ImageFormat.SRGB, data=frame)
         # t0 = time.time()
@@ -61,7 +60,6 @@ class LMKExtractor():
         except:
             return None
-        print('///=====2======')
         bs_list = detection_result.face_blendshapes
         if len(bs_list) == 1:
             bs = bs_list[0]

     def __call__(self, img):
         frame = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
         image = mp.Image(image_format=mp.ImageFormat.SRGB, data=frame)
         # t0 = time.time()
         except:
             return None
         bs_list = detection_result.face_blendshapes
         if len(bs_list) == 1:
             bs = bs_list[0]