Spaces:

engajify
/

action_video

Sleeping

App Files Files Community

engajify commited on May 28, 2024

Commit

83c4da6

verified ·

1 Parent(s): 35b7b3f

Upload 4 files

Browse files

Files changed (4) hide show

README.md +21 -4
app.py +146 -0
gitattributes +35 -0
requirements.txt +6 -0

README.md CHANGED Viewed

@@ -1,12 +1,29 @@
 ---
-title: Action Video
-emoji: 🐠
-colorFrom: blue
-colorTo: purple
 sdk: gradio
 sdk_version: 4.31.5
 app_file: app.py
 pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Action Detection Video 2
+emoji: ⚡
+colorFrom: purple
+colorTo: indigo
 sdk: gradio
 sdk_version: 4.31.5
 app_file: app.py
 pinned: false
+license: mit
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+# Video Activity Classifier
+This is a Gradio interface that allows users to upload a video and specify an activity label to check if the activity is present in the video. The app uses a CLIP-based model to classify the video based on the provided label.
+## How to Use
+1. Upload a video.
+2. Enter an activity label to detect.
+3. The app will classify the video and display the results.
+## Example
+For instance, to check if a person is playing basketball in the video, you can enter the label "playing basketball".

app.py ADDED Viewed

	@@ -0,0 +1,146 @@

+import gradio as gr
+import torch
+import numpy as np
+from transformers import AutoProcessor, AutoModel
+from PIL import Image
+import cv2
+from pathlib import Path
+from tempfile import NamedTemporaryFile
+MODEL_NAME = "microsoft/xclip-base-patch16-zero-shot"
+CLIP_LEN = 32
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+processor = AutoProcessor.from_pretrained(MODEL_NAME)
+model = AutoModel.from_pretrained(MODEL_NAME).to(device)
+def get_video_length(file_path):
+    cap = cv2.VideoCapture(file_path)
+    length = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    cap.release()
+    return length
+def read_video_opencv(file_path, indices):
+    frames = []
+    failed_indices = []
+    cap = cv2.VideoCapture(file_path)
+    if not cap.isOpened():
+        print(f"Error opening video file: {file_path}")
+        return frames
+    max_index = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) - 1
+    for idx in indices:
+        if idx <= max_index:
+            frame = get_frame_with_opened_cap(cap, idx)
+            if frame is not None:
+                frames.append(frame)
+            else:
+                failed_indices.append(idx)
+        else:
+            failed_indices.append(idx)
+    cap.release()
+    if failed_indices:
+        print(f"Failed to extract frames at indices: {failed_indices}")
+    return frames
+def get_frame_with_opened_cap(cap, index):
+    cap.set(cv2.CAP_PROP_POS_FRAMES, index)
+    ret, frame = cap.read()
+    if ret:
+        return cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+    return None
+def sample_uniform_frame_indices(clip_len, seg_len):
+    if seg_len < clip_len:
+        repeat_factor = np.ceil(clip_len / seg_len).astype(int)
+        indices = np.arange(seg_len).tolist() * repeat_factor
+        indices = indices[:clip_len]
+    else:
+        spacing = seg_len // clip_len
+        indices = [i * spacing for i in range(clip_len)]
+    return np.array(indices).astype(np.int64)
+def concatenate_frames(frames, clip_len):
+    layout = { 32: (4, 8) }
+    rows, cols = layout[clip_len]
+    combined_image = Image.new('RGB', (frames[0].shape[1]*cols, frames[0].shape[0]*rows))
+    frame_iter = iter(frames)
+    y_offset = 0
+    for i in range(rows):
+        x_offset = 0
+        for j in range(cols):
+            img = Image.fromarray(next(frame_iter))
+            combined_image.paste(img, (x_offset, y_offset))
+            x_offset += frames[0].shape[1]
+        y_offset += frames[0].shape[0]
+    return combined_image
+def model_interface(uploaded_video, activity):
+    video_length = get_video_length(uploaded_video)
+    indices = sample_uniform_frame_indices(CLIP_LEN, seg_len=video_length)
+    video = read_video_opencv(uploaded_video, indices)
+    concatenated_image = concatenate_frames(video, CLIP_LEN)
+    activities_list = [activity, "other"]
+    inputs = processor(
+        text=activities_list,
+        videos=list(video),
+        return_tensors="pt",
+        padding=True,
+    )
+    for key, value in inputs.items():
+        if isinstance(value, torch.Tensor):
+            inputs[key] = value.to(device)
+    with torch.no_grad():
+        outputs = model(**inputs)
+    logits_per_video = outputs.logits_per_video
+    probs = logits_per_video.softmax(dim=1)
+    results_probs = []
+    results_logits = []
+    max_prob_index = torch.argmax(probs[0]).item()
+    for i in range(len(activities_list)):
+        current_activity = activities_list[i]
+        prob = float(probs[0][i].cpu())
+        logit = float(logits_per_video[0][i].cpu())
+        results_probs.append((current_activity, f"Probability: {prob * 100:.2f}%"))
+        results_logits.append((current_activity, f"Raw Score: {logit:.2f}"))
+    likely_label = activities_list[max_prob_index]
+    likely_probability = float(probs[0][max_prob_index].cpu()) * 100
+    return concatenated_image, results_probs, results_logits, [likely_label, likely_probability]
+iface = gr.Interface(
+    fn=model_interface,
+    inputs=[
+        gr.Video(label="Upload a Video"),
+        gr.Textbox(label="Activity to Detect")
+    ],
+    outputs=[
+        gr.Image(label="Concatenated Frames"),
+        gr.Dataframe(headers=["Activity", "Probability"], label="Probabilities"),
+        gr.Dataframe(headers=["Activity", "Raw Score"], label="Raw Scores"),
+        gr.Textbox(label="Most Likely Activity")
+    ],
+    title="Video Activity Classifier",
+    description="""
+    **Instructions:**
+    1. **Upload a Video**: Select a video file to upload.
+    2. **Enter Activity Label**: Specify the activity you want to detect in the video.
+    3. **View Results**:
+       - The concatenated frames from the video will be displayed.
+       - Probabilities and raw scores for the specified activity and the "other" category will be shown.
+       - The most likely activity detected in the video will be displayed.
+    """
+)
+if __name__ == "__main__":
+    iface.launch()

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio
+transformers
+torch
+numpy
+Pillow
+opencv-python