File size: 1,758 Bytes

9a900e5
 
 
 
 
7092ebc
fd22feb
9a900e5
 
66b5125
 
 
 
 
1b3423e
 
 
fd22feb
1b3423e
 
 
fd22feb
12916d7
4276f13
 
fd22feb
4276f13
fd22feb
4276f13
 
6255548
 
 
3a6db82
6255548
 
 
9a900e5

import numpy as np
import torch
from torchvision import transforms
import av
import logging
import base64

logging.basicConfig(filename='/mnt/data/uploads/logfile-video.log', level=logging.INFO)






def get_video_file(video_base64, video_path):
    # Base64 decoding
    video_bytes = base64.b64decode(video_base64)
    
    # load video file    
    with open(video_path, "wb") as video_file:
        video_file.write(video_bytes)


def read_video(file_path, num_frames=24, target_size=(224, 224)):
    # video_path = "input_video.mp4"
    
    # get_video_file(video_base64, video_path)

    logging.info(f"Reading video from: {file_path}")
    container = av.open(file_path)
    frames = []
    for frame in container.decode(video=0):
        frames.append(frame.to_ndarray(format="rgb24").astype(np.uint8))
    
    sampled_frames = sample_frames(frames, num_frames)
    processed_frames = preprocess_frames(sampled_frames, target_size)
    return processed_frames

def sample_frames(frames, num_frames):
    total_frames = len(frames)
    if total_frames <= num_frames:
        if total_frames < num_frames:
            padding = [np.zeros_like(frames[0]) for _ in range(num_frames - total_frames)]
            frames.extend(padding)
    else:
        indices = np.linspace(0, total_frames - 1, num=num_frames, dtype=int)
        frames = [frames[i] for i in indices]
    return np.array(frames)

def preprocess_frames(frames, target_size):
    transform = transforms.Compose([
        transforms.ToPILImage(),
        transforms.Resize(target_size),
        transforms.ToTensor()
    ])
    processed_frames = [transform(frame) for frame in frames]
    return torch.stack(processed_frames).permute(1, 0, 2, 3).numpy()  # (T, C, H, W) -> (C, T, H, W)