Spaces:

Pradheep1647
/

multi-modal-emotion-recognition

Sleeping

App Files Files Community

Pradheep1647 commited on Sep 23

Commit

cbf53ef

•

1 Parent(s): 9f703fc

updates the analyze video func

Browse files

Files changed (1) hide show

app.py +5 -9

app.py CHANGED Viewed

@@ -11,12 +11,11 @@ from transformers import AutoTokenizer, AutoModelForSequenceClassification
 from transformers import BlipProcessor, BlipForConditionalGeneration
 import cv2
-YOUTUBE_API_KEY = os.getenv('YOUTUBE_API_KEY')
 def download_youtube_video(video_url, api_key):
     ydl_opts = {
         'format': 'bestvideo+bestaudio',
         'outtmpl': os.path.join('./', '%(title)s.%(ext)s'),
     }
     with yt_dlp.YoutubeDL(ydl_opts) as ydl:
         ydl.download([video_url])
@@ -91,11 +90,8 @@ emotion_model_name = "j-hartmann/emotion-english-distilroberta-base"
 emotion_tokenizer = AutoTokenizer.from_pretrained(emotion_model_name)
 emotion_model = AutoModelForSequenceClassification.from_pretrained(emotion_model_name)
-def analyze_video(video_url):
-    global output_path
-    output_path = './'
-    video_path = download_youtube_video(video_url, YOUTUBE_API_KEY)
     mp4_path = convert_to_mp4(video_path)
     audio_path = extract_audio_from_video(mp4_path)
     audio_wav_path = convert_mp3_to_wav(audio_path)
@@ -122,7 +118,7 @@ def analyze_video(video_url):
         if frame_count_video % n_frame_interval == 0:
             pixel_values_video = preprocess_frame(frame_video)
             caption_video = generate_caption(pixel_values_video)
-            predicted_emotions_video, _ = predict_emotions(caption_video)
             emotion_vectors_video.append(np.array(list(predicted_emotions_video.values())))
         frame_count_video += 1
@@ -148,7 +144,7 @@ with gr.Blocks() as iface:
     with gr.Row():
         transcript_output = gr.Textbox(label="Transcript", interactive=False)
-        audio_emotion_output = gr.Textbox(label="Emotion from Audio", interactive=False)
         visual_emotion_output = gr.Textbox(label="Emotion from Video", interactive=False)
     submit_button.click(analyze_video, inputs=[video_url, api_key], outputs=[transcript_output, audio_emotion_output, visual_emotion_output])

 from transformers import BlipProcessor, BlipForConditionalGeneration
 import cv2
 def download_youtube_video(video_url, api_key):
     ydl_opts = {
         'format': 'bestvideo+bestaudio',
         'outtmpl': os.path.join('./', '%(title)s.%(ext)s'),
+        'quiet': True,
     }
     with yt_dlp.YoutubeDL(ydl_opts) as ydl:
         ydl.download([video_url])
 emotion_tokenizer = AutoTokenizer.from_pretrained(emotion_model_name)
 emotion_model = AutoModelForSequenceClassification.from_pretrained(emotion_model_name)
+def analyze_video(video_url, api_key):
+    video_path = download_youtube_video(video_url, api_key)
     mp4_path = convert_to_mp4(video_path)
     audio_path = extract_audio_from_video(mp4_path)
     audio_wav_path = convert_mp3_to_wav(audio_path)
         if frame_count_video % n_frame_interval == 0:
             pixel_values_video = preprocess_frame(frame_video)
             caption_video = generate_caption(pixel_values_video)
+            predicted_emotions_video = predict_emotions(caption_video)
             emotion_vectors_video.append(np.array(list(predicted_emotions_video.values())))
         frame_count_video += 1
     with gr.Row():
         transcript_output = gr.Textbox(label="Transcript", interactive=False)
+        audio_emotion_output = gr.Textbox(label="Emotion from Audio and Text", interactive=False)
         visual_emotion_output = gr.Textbox(label="Emotion from Video", interactive=False)
     submit_button.click(analyze_video, inputs=[video_url, api_key], outputs=[transcript_output, audio_emotion_output, visual_emotion_output])