THUDM
/

cogvlm2-video-llama3-chat

@@ -404,7 +404,6 @@ class CogVLMVideoModel(CogVLMPreTrainedModel):
                 images_features = self.encode_images(images)
                 images_features = rearrange(images_features, 'b n d -> (b n) d')
                 images_features = images_features.to(dtype=inputs_embeds.dtype, device=inputs_embeds.device)
                 inputs_embeds = inputs_embeds.index_put([token_type_ids == VISION_TOKEN_TYPE], images_features)
             else:  # single-modality
                 if token_type_ids is None:
@@ -580,62 +579,6 @@ def _history_to_prompt(signal_type, history, query):
     prompt += 'Question: {} {}'.format(query, answer_format)
     return prompt
-def load_video(video_path):
-    mp4_stream = None
-    decord.bridge.set_bridge('torch')
-    with open(video_path, 'rb') as f:
-        mp4_stream = f.read()
-    clip_end_sec = 60 # clip video to <= 1 minute
-    clip_start_sec = 0
-    num_frames = 24
-    # decord.bridge.set_bridge('torch')
-    if mp4_stream is not None:
-        decord_vr = VideoReader(io.BytesIO(mp4_stream), ctx=cpu(0))
-    else:
-        decord_vr = VideoReader(video_path, ctx=cpu(0))
-    duration = len(decord_vr) # duration in terms of frames
-    start_frame = int(clip_start_sec * decord_vr.get_avg_fps())
-    end_frame = min(duration, int(clip_end_sec*decord_vr.get_avg_fps())) if \
-        clip_end_sec is not None else duration
-    frame_id_list = np.linspace(start_frame, end_frame-1, num_frames, dtype=int)
-    # frame_id_list = np.linspace(0, duration-1, num_frames, dtype=int)
-    video_data = decord_vr.get_batch(frame_id_list)
-    video_data = video_data.permute(3, 0, 1, 2)  # (T, H, W, C) -> (C, T, H, W)
-    # video_outputs = transform(video_data)
-    return video_data
-def load_video_1fps(video_path):
-    mp4_stream = None
-    decord.bridge.set_bridge('torch')
-    with open(video_path, 'rb') as f:
-        mp4_stream = f.read()
-    num_frames = 24
-    # decord.bridge.set_bridge('torch')
-    if mp4_stream is not None:
-        decord_vr = VideoReader(io.BytesIO(mp4_stream), ctx=cpu(0))
-    else:
-        decord_vr = VideoReader(video_path, ctx=cpu(0))
-    total_frames = len(decord_vr)
-    timestamps = decord_vr.get_frame_timestamp(np.arange(total_frames))
-    timestamps = [i[0] for i in timestamps]
-    max_second = round(max(timestamps)) + 1
-    frame_id_list = []
-    for second in range(max_second):
-        closest_num = min(timestamps, key=lambda x: abs(x - second))
-        index = timestamps.index(closest_num)
-        frame_id_list.append(index)
-        if len(frame_id_list) > num_frames:
-            break
-    video_data = decord_vr.get_batch(frame_id_list)
-    video_data = video_data.permute(3, 0, 1, 2)  # (T, H, W, C) -> (C, T, H, W)
-    # video_outputs = transform(video_data)
-    return video_data
 class CogVLMVideoForCausalLM(CogVLMPreTrainedModel):
     _auto_class = "AutoModelForCausalLM"

                 images_features = self.encode_images(images)
                 images_features = rearrange(images_features, 'b n d -> (b n) d')
                 images_features = images_features.to(dtype=inputs_embeds.dtype, device=inputs_embeds.device)
                 inputs_embeds = inputs_embeds.index_put([token_type_ids == VISION_TOKEN_TYPE], images_features)
             else:  # single-modality
                 if token_type_ids is None:
     prompt += 'Question: {} {}'.format(query, answer_format)
     return prompt
 class CogVLMVideoForCausalLM(CogVLMPreTrainedModel):
     _auto_class = "AutoModelForCausalLM"