VideoMAE

App Files Files Community

kisatsg

akhaliq HF staff commited on Nov 30, 2022

Commit

86e55ad

•

0 Parent(s):

Duplicate from akhaliq/VideoMAE

Browse files

Co-authored-by: Ahsen Khaliq <akhaliq@users.noreply.huggingface.co>

Files changed (4) hide show

.gitattributes +31 -0
README.md +13 -0
app.py +52 -0
requirements.txt +4 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,31 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: VideoMAE
+emoji: 💩
+colorFrom: pink
+colorTo: pink
+sdk: gradio
+sdk_version: 3.1.7
+app_file: app.py
+pinned: false
+duplicated_from: akhaliq/VideoMAE
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from decord import VideoReader, cpu
+import torch
+import numpy as np
+from transformers import VideoMAEFeatureExtractor, VideoMAEForVideoClassification
+from huggingface_hub import hf_hub_download
+import gradio as gr
+np.random.seed(0)
+def sample_frame_indices(clip_len, frame_sample_rate, seg_len):
+    converted_len = int(clip_len * frame_sample_rate)
+    end_idx = np.random.randint(converted_len, seg_len)
+    start_idx = end_idx - converted_len
+    indices = np.linspace(start_idx, end_idx, num=clip_len)
+    indices = np.clip(indices, start_idx, end_idx - 1).astype(np.int64)
+    return indices
+def inference(file_path):
+  # video clip consists of 300 frames (10 seconds at 30 FPS)
+  videoreader = VideoReader(file_path, num_threads=1, ctx=cpu(0))
+  # sample 16 frames
+  videoreader.seek(0)
+  indices = sample_frame_indices(clip_len=16, frame_sample_rate=4, seg_len=len(videoreader))
+  video = videoreader.get_batch(indices).asnumpy()
+  feature_extractor = VideoMAEFeatureExtractor.from_pretrained("MCG-NJU/videomae-base-finetuned-kinetics")
+  model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-base-finetuned-kinetics")
+  inputs = feature_extractor(list(video), return_tensors="pt")
+  with torch.no_grad():
+      outputs = model(**inputs)
+      logits = outputs.logits
+  # model predicts one of the 400 Kinetics-400 classes
+  predicted_label = logits.argmax(-1).item()
+  return model.config.id2label[predicted_label]
+with gr.Blocks() as demo:
+    with gr.Row():
+        with gr.Column():
+            video = gr.Video()
+            btn = gr.Button(value="Run")
+        with gr.Column():
+            label = gr.Textbox(label="Predicted Label")
+    btn.click(inference, inputs=video, outputs=label)
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+decord
+transformers
+gradio
+torch