Spaces:

ahmedabdelwahed
/

audible_summaries_ar

Running

App Files Files Community

Ahmedasd commited on Dec 19, 2023

Commit

83fcd99

1 Parent(s): e491cdb

first commit

Browse files

Files changed (3) hide show

app.py +143 -0
gradio intro.mp3 +0 -0
requirements.txt +91 -0

app.py ADDED Viewed

	@@ -0,0 +1,143 @@

+import torch
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+from datasets import load_dataset
+from duckduckgo_search import DDGS
+from newspaper import Article
+import scipy
+from transformers import (
+    MT5Tokenizer,
+    AdamW,
+    MT5ForConditionalGeneration,
+    pipeline
+)
+from transformers import VitsModel, AutoTokenizer
+import IPython.display as ipd
+import torch
+import numpy as np
+import gradio as gr
+import os
+class Webapp:
+  def __init__(self):
+    self.DEVICE = 0 if torch.cuda.is_available() else "cpu"
+    self.REF_MODEL = 'google/mt5-small'
+    self.MODEL_NAME = 'Ahmedasd/arabic-summarization-hhh-100-batches'
+    self.model_id = "openai/whisper-base"
+    self.tts_model_id = "SeyedAli/Arabic-Speech-synthesis"
+    self.tts_model = VitsModel.from_pretrained(self.tts_model_id).to(self.DEVICE)
+    self.tts_tokenizer = AutoTokenizer.from_pretrained(self.tts_model_id)
+    self.summ_tokenizer = MT5Tokenizer.from_pretrained(self.REF_MODEL)
+    self.summ_model = MT5ForConditionalGeneration.from_pretrained(self.MODEL_NAME).to(self.DEVICE)
+    self.torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+    self.stt_model = WhisperForConditionalGeneration.from_pretrained(self.model_id)
+    self.stt_model.to(self.DEVICE)
+    self.processor = WhisperProcessor.from_pretrained(self.model_id)
+    self.forced_decoder_ids = self.processor.get_decoder_prompt_ids(language="arabic", task="transcribe")
+  def speech_to_text(self, input):
+    print('gradio audio type: ', type(input))
+    print('gradio audio: ', input)
+    new_sample_rate = 16000
+    new_length = int(len(input[1]) * new_sample_rate / 48000)
+    audio_sr_16000 = scipy.signal.resample(input[1], new_length)
+    print('input audio16000: ', audio_sr_16000)
+    input_features = self.processor(audio_sr_16000, sampling_rate=new_sample_rate, return_tensors="pt").input_features.to(self.DEVICE)
+    predicted_ids = self.stt_model.generate(input_features, forced_decoder_ids=self.forced_decoder_ids)
+    transcription = self.processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription
+  def get_articles(self, query, num):
+    with DDGS(timeout=20) as ddgs:
+      try:
+        results = ddgs.news(query, max_results=num)
+        urls = [r['url'] for r in results]
+        print('successful connection!')
+      except Exception as error:
+        urls = ['https://www.bbc.com/arabic/media-65576589']
+    articles = []
+    for url in urls:
+      article = Article(url)
+      article.download()
+      article.parse()
+      articles.append(article.text.replace('\n',''))
+    return articles
+  def summarize(self, text, model):
+    text_encoding = self.summ_tokenizer(
+        text,
+        max_length=512,
+        padding='max_length',
+        truncation=True,
+        return_attention_mask=True,
+        add_special_tokens=True,
+        return_tensors='pt'
+    )
+    generated_ids = self.summ_model.generate(
+        input_ids=text_encoding['input_ids'].to(self.DEVICE),
+        attention_mask = text_encoding['attention_mask'].to(self.DEVICE),
+        max_length=128,
+        # num_beams=2,
+        repetition_penalty=2.5,
+        # length_penalty=1.0,
+        # early_stopping=True
+    )
+    preds = [self.summ_tokenizer.decode(gen_id, skip_special_tokens=True, clean_up_tokenization_spaces=True)
+            for gen_id in generated_ids
+            ]
+    return "".join(preds)
+  def summarize_articles(self, articles: int, model):
+    summaries = []
+    for article in articles:
+      summaries.append(self.summarize(article, model))
+    return summaries
+  def text_to_speech(self, text):
+    inputs = self.tts_tokenizer(text, return_tensors="pt").to(self.DEVICE)
+    print('text_to_speech text: ', text)
+    with torch.no_grad():
+        wav = self.tts_model(**inputs).waveform
+    print('text_to_speech wav: ', wav)
+    return {'wav':wav, 'rate':self.tts_model.config.sampling_rate}
+  def topic_voice_to_summary_voices(self, topic_voice, number_articles):
+    topic = self.speech_to_text(topic_voice)
+    print('topic: ', topic)
+    articles = self.get_articles(topic, number_articles)
+    print('articles: ', articles)
+    summaries = self.summarize_articles(articles, self.summ_model)
+    print('summaries: ', summaries)
+    voices_wav_rate = [self.text_to_speech(summary) for summary in summaries]
+    return voices_wav_rate
+  def run(self):
+    with gr.Blocks(title = 'أخبار مسموعة', analytics_enabled=True, theme = gr.themes.Glass, css = 'dir: rtl;') as demo:
+      gr.Markdown(
+      """
+      # أخبار مسموعة
+      اذكر الموضوع الذي تريد البحث عنه وسوف نخبرك بملخصات الأخبار بشأنه.
+      """, rtl = True)
+      intro_voice = gr.Audio(type='filepath', value = os.getcwd() + '/gradio intro.mp3', visible = False, autoplay = True)
+      topic_voice = gr.Audio(type="numpy", sources = 'microphone', label ='سجل موضوع للبحث')
+      num_articles = gr.Slider(minimum=1, maximum=10, value=1, step = 1, label = "عدد المقالات")
+      output_audio = gr.Audio(streaming = True, autoplay = True, label = 'الملخصات')
+      # Events
+      # generate summaries
+      @topic_voice.stop_recording(inputs = [topic_voice, num_articles], outputs = output_audio)
+      def get_summ_audio(topic_voice, num_articles):
+        summ_voices = self.topic_voice_to_summary_voices(topic_voice, num_articles)
+        m =15000
+        print('summ voices: ', summ_voices)
+        print('wav: ')
+        print('max: ', (np.array(summ_voices[0]['wav'][0].cpu()*m, dtype = np.int16)).max())
+        print('min: ', (np.array(summ_voices[0]['wav'][0].cpu()*m, dtype = np.int16)).min())
+        print('len: ', len(np.array(summ_voices[0]['wav'][0].cpu(), dtype = np.int16)))
+        summ_audio = [(voice['rate'], np.squeeze(np.array(voice['wav'].cpu()*m, dtype = np.int16))) for voice in summ_voices]
+        return summ_audio[0] #only first
+      return demo
+app = Webapp()
+app.run().launch()

gradio intro.mp3 ADDED Viewed

Binary file (69.6 kB). View file

requirements.txt ADDED Viewed

	@@ -0,0 +1,91 @@

+traitlets==5.7.1
+pygments==2.16.1
+ptyprocess==0.7.0
+pexpect==4.9.0
+pathlib==1.0.1
+decorator==4.4.2
+pickleshare==0.7.5
+backcall==0.2.0
+wcwidth==0.2.12
+platformdirs==4.1.0
+ipykernel==5.5.6
+tornado==6.3.2
+six==1.16.0
+setuptools==67.7.2
+psutil==5.9.5
+pyparsing==3.1.1
+certifi==2023.11.17
+httplib2==0.22.0
+numpy==1.23.5
+packaging==23.2
+defusedxml==0.7.1
+cffi==1.16.0
+cycler==0.12.1
+kiwisolver==1.4.5
+debugpy==1.6.6
+portpicker==1.5.2
+astunparse==1.6.3
+tqdm==4.66.1
+mpmath==1.3.0
+sympy==1.12
+pydot==1.4.2
+torch==2.1.0+cu121
+urllib3==2.0.7
+chardet==5.2.0
+idna==3.6
+requests==2.31.0
+ipywidgets==7.7.1
+pydantic==1.10.13
+filelock==3.13.1
+cloudpickle==2.2.1
+etils==1.6.0
+rich==13.7.0
+transformers==4.35.2
+tokenizers==0.15.0
+safetensors==0.4.1
+regex==2023.6.3
+fsspec==2023.6.0
+pytz==2023.3.post1
+pyarrow==10.0.1
+numexpr==2.8.8
+pandas==1.5.3
+soundfile==0.12.1
+multidict==6.0.4
+yarl==1.9.4
+frozenlist==1.4.0
+aiosignal==1.3.1
+aiohttp==3.9.1
+xxhash==3.4.1
+lxml==4.9.3
+soupsieve==2.5
+webencodings==0.5.1
+html5lib==1.1
+scipy==1.11.4
+wrapt==1.14.1
+gast==0.5.4
+termcolor==2.4.0
+cryptography==41.0.7
+cachetools==5.3.2
+uritemplate==4.1.1
+oauth2client==4.1.3
+pyasn1==0.5.1
+rsa==4.9
+tblib==3.0.0
+h5py==3.9.0
+flatbuffers==23.5.26
+joblib==1.3.2
+threadpoolctl==3.2.0
+sniffio==1.3.0
+anyio==3.7.1
+click==8.1.7
+markupsafe==2.1.3
+jinja2==3.1.2
+attrs==23.1.0
+referencing==0.32.0
+webcolors==1.13
+jsonschema==4.19.2
+entrypoints==0.4
+toolz==0.12.0
+altair==4.2.2
+mdurl==0.1.2
+typer==0.9.0