Spaces:

salmanmapkar
/

audio-video-transcriber

Runtime error

App Files Files Community

salmanmapkar commited on Dec 25, 2022

Commit

2391914

•

1 Parent(s): 588b426

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -4

app.py CHANGED Viewed

@@ -25,6 +25,7 @@ import contextlib
 from sklearn.cluster import AgglomerativeClustering
 import numpy as np
 import json
 __FILES = set()
@@ -191,17 +192,17 @@ def Transcribe_V2(num_speakers, speaker_names, audio="temp_audio.wav"):
         for (i, segment) in enumerate(segments):
             # print(f"{i}, {segment["speaker"]}, {segments[i - 1]["speaker"]}, {}")
             if not len(conversation):
-                conversation.append([GetSpeaker(segment["speaker"]), segment["text"].lstrip()])
             elif conversation[-1][0] == GetSpeaker(segment["speaker"]):
-                conversation[-1][1] +=  segment["text"].lstrip()
             else:
-                conversation.append([GetSpeaker(segment["speaker"]), segment["text"].lstrip()])
             # if i == 0 or segments[i - 1]["speaker"] != segment["speaker"]:
             #     if i != 0:
             #         conversation.append([GetSpeaker(segment["speaker"]), segment["text"][1:]]) # segment["speaker"] + ' ' + str(time(segment["start"])) + '\n\n'
             # conversation[-1][1] += segment["text"][1:]
         # return output
-        return ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation])), ({ "data": [{"speaker": speaker, "text": text} for speaker, text in conversation]})
     def get_duration(path):
         with contextlib.closing(wave.open(path,'r')) as f:

 from sklearn.cluster import AgglomerativeClustering
 import numpy as np
 import json
+from datetime import timedelta
 __FILES = set()
         for (i, segment) in enumerate(segments):
             # print(f"{i}, {segment["speaker"]}, {segments[i - 1]["speaker"]}, {}")
             if not len(conversation):
+                conversation.append([str(timedelta(seconds=float(segment['start']))),str(timedelta(seconds=float(segment['end']))),GetSpeaker(segment["speaker"]), segment["text"].lstrip()])
             elif conversation[-1][0] == GetSpeaker(segment["speaker"]):
+                conversation[-1][3] +=  segment["text"].lstrip()
             else:
+                conversation.append([str(timedelta(seconds=float(segment['start']))),str(timedelta(seconds=float(segment['end']))),GetSpeaker(segment["speaker"]), segment["text"].lstrip()])
             # if i == 0 or segments[i - 1]["speaker"] != segment["speaker"]:
             #     if i != 0:
             #         conversation.append([GetSpeaker(segment["speaker"]), segment["text"][1:]]) # segment["speaker"] + ' ' + str(time(segment["start"])) + '\n\n'
             # conversation[-1][1] += segment["text"][1:]
         # return output
+        return ("".join([f"[{start}] - {speaker} \n{text}\n" for start, end, speaker, text in conversation])), ({ "data": [{"start": start, "end":end, "speaker": speaker, "text": text} for start, end, speaker, text in conversation]})
     def get_duration(path):
         with contextlib.closing(wave.open(path,'r')) as f: