Ayy_summarization

Runtime error

App Files Files Community

xzxyx

malmarjeh commited on Mar 27, 2023

Commit

cfa1e90

•

0 Parent(s):

Duplicate from malmarjeh/arabic-text-summarization

Browse files

Co-authored-by: Mohammad Bani Almarjeh <malmarjeh@users.noreply.huggingface.co>

Files changed (8) hide show

.gitattributes +27 -0
README.md +14 -0
__pycache__/preprocess.cpython-310.pyc +0 -0
__pycache__/summarize.cpython-310.pyc +0 -0
app.py +103 -0
preprocess.py +383 -0
requirements.txt +10 -0
summarize.py +150 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Arabic Text Summarization
+emoji: 👀
+colorFrom: indigo
+colorTo: blue
+sdk: streamlit
+sdk_version: 1.10.0
+app_file: app.py
+pinned: false
+license: mpl-2.0
+duplicated_from: malmarjeh/arabic-text-summarization
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

__pycache__/preprocess.cpython-310.pyc ADDED Viewed

Binary file (11.2 kB). View file

__pycache__/summarize.cpython-310.pyc ADDED Viewed

Binary file (3.43 kB). View file

app.py ADDED Viewed

	@@ -0,0 +1,103 @@

+from urllib.parse import unquote
+import arabic_reshaper
+import streamlit as st
+from bidi.algorithm import get_display
+st.set_page_config(
+    page_title="Arabic Text Summarization",
+    page_icon="📖",
+    initial_sidebar_state="expanded"
+    # layout="wide"
+)
+from summarize import get_results
+rtl = lambda w: get_display(f"{arabic_reshaper.reshape(w)}")
+st.title("تَلْخِيصُ اَلنُّصُوصِ بِاللُّغَةِ اَلْعَرَبِيَّةِ")
+st.markdown(
+    """
+<style>
+@import url(https://fonts.googleapis.com/earlyaccess/scheherazade.css);
+section.main {
+    background-color: beige;
+}
+.stMarkdown h1, .main .element-container.css-o7ulmj.e1tzin5v3 {
+    text-align: right;
+}
+.stMarkdown div.css-nlntq9.e16nr0p33 {
+    font-weight: bold;
+}
+textarea {
+    direction: rtl;
+    height: 140px;
+}
+.stTextArea .css-qrbaxs {
+    float: right;
+    font-size: 23px;
+}
+h1 {
+    font-family: 'Scheherazade', serif;
+}
+.main div.css-nlntq9.e16nr0p33 > p {
+    direction: rtl;
+}
+.main .stMarkdown div.css-nlntq9 p {
+    font-size: 22px;
+}
+.main .stMarkdown div.css-nlntq9 {
+    direction: rtl;
+}
+.main p, .main div, .main input, .main label {
+  text-align: right;
+  direction: rtl;
+}
+.main  div>h1>div {
+    left: 0;
+}
+.main button {
+    font-size: 22px;
+}
+</style>
+    """,
+    unsafe_allow_html=True,
+)
+st.sidebar.write("Arabic Text Summarization")
+st.sidebar.write("Contact: banimarje@gmail.com")
+st.sidebar.write("\n")
+model_selected = st.sidebar.selectbox(
+     'Select a model',
+     ('T5','BERT2BERT', 'GPT-2', 'mBERT2mBERT','Transformer'))
+st.sidebar.write("\n")
+num_beams = st.sidebar.slider(
+    "Number of beams", min_value=1, max_value=10, value=3, step=1
+)
+length_pe_slider_disabled = False
+if model_selected == "GPT-2":
+    length_pe_slider_disabled = True
+st.sidebar.write("\n")
+length_penalty = st.sidebar.slider(
+    "Length penalty ", min_value=0.1, max_value=3.0, value=1.0, step=0.1, disabled=length_pe_slider_disabled
+)
+txt = """يجري علماء في بريطانيا تجربة لاختبار فعالية عقار إيبوبروفين لمساعدة المصابين بفيروس كورونا. وذكرت هيئة الإذاعة البريطانية "بي بي سي" أن فريق مشترك من أطباء مستشفيات "جاي" و"سانت توماس" و"كينغز كوليدج" في لندن يعتقد أن إيبوبروفين، وهو مضاد للالتهابات ومسكن للألم، يمكن أن يعالج صعوبات التنفس.
+ويأمل العلماء أن يساعد هذا العلاج المنخفض التكلفة المرضى في الاستغناء عن أجهزة التنفس الصناعي. وذكرت أنه خلال فترة الاختبار، سيحصل نصف المرضى على إيبوبروفين بالإضافة إلى الرعاية المعتادة، حيث سيتم استخدام تركيبة خاصة من إيبوبروفين بدلا من الأقراص العادية التي قد يشتريها الناس عادة."""
+text = st.text_area("أدخل نص ليتم تلخيصه", value=txt)
+run_query = st.button("لخّص")
+if run_query:
+    # https://discuss.streamlit.io/t/showing-a-gif-while-st-spinner-runs/5084
+    with st.spinner("جاري التلخيص ..."):
+        result = get_results(text, model_selected, num_beams, length_penalty)
+    if len(result) > 0:
+        st.write(result)
+    else:
+        st.write("")

preprocess.py ADDED Viewed

	@@ -0,0 +1,383 @@

+import html
+import logging
+import re
+import pyarabic.araby as araby
+ACCEPTED_MODELS = [
+    "bert-base-arabertv01",
+    "bert-base-arabert",
+    "bert-base-arabertv02",
+    "bert-base-arabertv2",
+    "bert-large-arabertv02",
+    "bert-large-arabertv2",
+    "araelectra-base",
+    "araelectra-base-discriminator",
+    "araelectra-base-generator",
+    "aragpt2-base",
+    "aragpt2-medium",
+    "aragpt2-large",
+    "aragpt2-mega",
+]
+SEGMENTED_MODELS = [
+    "bert-base-arabert",
+    "bert-base-arabertv2",
+    "bert-large-arabertv2",
+]
+class ArabertPreprocessor:
+    """
+    A Preprocessor class that cleans and preprocesses text for all models in the AraBERT repo.
+    It also can unprocess the text ouput of the generated text
+    Args:
+        model_name (:obj:`str`): model name from the HuggingFace Models page without the aubmindlab tag. Defaults to "bert-base-arabertv02". Current accepted models are:
+            - :obj:`"bert-base-arabertv01"`: No farasa segmentation.
+            - :obj:`"bert-base-arabert"`: with farasa segmentation.
+            - :obj:`"bert-base-arabertv02"`: No farasas egmentation.
+            - :obj:`"bert-base-arabertv2"`: with farasa segmentation.
+            - :obj:`"bert-large-arabertv02"`: No farasas egmentation.
+            - :obj:`"bert-large-arabertv2"`: with farasa segmentation.
+            - :obj:`"araelectra-base"`: No farasa segmentation.
+            - :obj:`"araelectra-base-discriminator"`: No farasa segmentation.
+            - :obj:`"araelectra-base-generator"`: No farasa segmentation.
+            - :obj:`"aragpt2-base"`: No farasa segmentation.
+            - :obj:`"aragpt2-medium"`: No farasa segmentation.
+            - :obj:`"aragpt2-large"`: No farasa segmentation.
+            - :obj:`"aragpt2-mega"`: No farasa segmentation.
+        keep_emojis(:obj: `bool`): don't remove emojis while preprocessing. Defaults to False
+        remove_html_markup(:obj: `bool`): Whether to remove html artfacts, should be set to False when preprocessing TyDi QA. Defaults to True
+        replace_urls_emails_mentions(:obj: `bool`): Whether to replace email urls and mentions by special tokens. Defaults to True
+        strip_tashkeel(:obj: `bool`): remove diacritics (FATHATAN, DAMMATAN, KASRATAN, FATHA, DAMMA, KASRA, SUKUN, SHADDA)
+        strip_tatweel(:obj: `bool`): remove tatweel '\\u0640'
+        insert_white_spaces(:obj: `bool`): insert whitespace before and after all non Arabic digits or English digits or Arabic and English Alphabet or the 2 brackets, then inserts whitespace between words and numbers or numbers and words
+        remove_elongation(:obj: `bool`): replace repetition of more than 2 non-digit character with 2 of this character
+    Returns:
+        ArabertPreprocessor: the preprocessor class
+    Example:
+        from preprocess import ArabertPreprocessor
+        arabert_prep = ArabertPreprocessor("aubmindlab/bert-base-arabertv2")
+        arabert_prep.preprocess("SOME ARABIC TEXT")
+    """
+    def __init__(
+        self,
+        model_name,
+        keep_emojis=False,
+        remove_html_markup=True,
+        replace_urls_emails_mentions=True,
+        strip_tashkeel=True,
+        strip_tatweel=True,
+        insert_white_spaces=True,
+        remove_elongation=True,
+    ):
+        """
+        model_name (:obj:`str`): model name from the HuggingFace Models page without the aubmindlab tag. Defaults to "bert-base-arabertv02". Current accepted models are:
+            - :obj:`"bert-base-arabertv01"`: No farasa segmentation.
+            - :obj:`"bert-base-arabert"`: with farasa segmentation.
+            - :obj:`"bert-base-arabertv02"`: No farasas egmentation.
+            - :obj:`"bert-base-arabertv2"`: with farasa segmentation.
+            - :obj:`"bert-large-arabertv02"`: No farasas egmentation.
+            - :obj:`"bert-large-arabertv2"`: with farasa segmentation.
+            - :obj:`"araelectra-base"`: No farasa segmentation.
+            - :obj:`"araelectra-base-discriminator"`: No farasa segmentation.
+            - :obj:`"araelectra-base-generator"`: No farasa segmentation.
+            - :obj:`"aragpt2-base"`: No farasa segmentation.
+            - :obj:`"aragpt2-medium"`: No farasa segmentation.
+            - :obj:`"aragpt2-large"`: No farasa segmentation.
+            - :obj:`"aragpt2-mega"`: No farasa segmentation.
+        keep_emojis(:obj: `bool`): don't remove emojis while preprocessing. Defaults to False
+        remove_html_markup(:obj: `bool`): Whether to remove html artfacts, should be set to False when preprocessing TyDi QA. Defaults to True
+        replace_urls_emails_mentions(:obj: `bool`): Whether to replace email urls and mentions by special tokens. Defaults to True
+        strip_tashkeel(:obj: `bool`): remove diacritics (FATHATAN, DAMMATAN, KASRATAN, FATHA, DAMMA, KASRA, SUKUN, SHADDA)
+        strip_tatweel(:obj: `bool`): remove tatweel '\\u0640'
+        insert_white_spaces(:obj: `bool`): insert whitespace before and after all non Arabic digits or English digits or Arabic and English Alphabet or the 2 brackets, then inserts whitespace between words and numbers or numbers and words
+        remove_elongation(:obj: `bool`): replace repetition of more than 2 non-digit character with 2 of this character
+        """
+        model_name = model_name.replace("aubmindlab/", "")
+        if model_name not in ACCEPTED_MODELS:
+            logging.warning(
+                "Model provided is not in the accepted model list. Assuming you don't want Farasa Segmentation"
+            )
+            self.model_name = "bert-base-arabertv02"
+        else:
+            self.model_name = model_name
+        self.keep_emojis = keep_emojis
+        self.remove_html_markup = remove_html_markup
+        self.replace_urls_emails_mentions = replace_urls_emails_mentions
+        self.strip_tashkeel = strip_tashkeel
+        self.strip_tatweel = strip_tatweel
+        self.insert_white_spaces = insert_white_spaces
+        self.remove_elongation = remove_elongation
+    def preprocess(self, text):
+        """
+        Preprocess takes an input text line an applies the same preprocessing used in AraBERT
+                            pretraining
+        Args:
+            text (:obj:`str`): inout text string
+        Returns:
+            string: A preprocessed string depending on which model was selected
+        """
+        text = str(text)
+        text = html.unescape(text)
+        if self.strip_tashkeel:
+            text = araby.strip_tashkeel(text)
+        if self.strip_tatweel:
+            text = araby.strip_tatweel(text)
+        if self.replace_urls_emails_mentions:
+            # replace all possible URLs
+            for reg in url_regexes:
+                text = re.sub(reg, " [رابط] ", text)
+            # REplace Emails with [بريد]
+            for reg in email_regexes:
+                text = re.sub(reg, " [بريد] ", text)
+            # replace mentions with [مستخدم]
+            text = re.sub(user_mention_regex, " [مستخدم] ", text)
+        if self.remove_html_markup:
+            # remove html line breaks
+            text = re.sub("<br />", " ", text)
+            # remove html markup
+            text = re.sub("</?[^>]+>", " ", text)
+        # remove repeated characters >2
+        if self.remove_elongation:
+            text = self._remove_elongation(text)
+        # insert whitespace before and after all non Arabic digits or English Digits and Alphabet and the 2 brackets
+        if self.insert_white_spaces:
+            text = re.sub(
+                "([^0-9\u0621-\u063A\u0641-\u064A\u0660-\u0669a-zA-Z\[\]])",
+                r" \1 ",
+                text,
+            )
+            # insert whitespace between words and numbers or numbers and words
+            text = re.sub(
+                "(\d+)([\u0621-\u063A\u0641-\u064A\u0660-\u066C]+)", r" \1 \2 ", text
+            )
+            text = re.sub(
+                "([\u0621-\u063A\u0641-\u064A\u0660-\u066C]+)(\d+)", r" \1 \2 ", text
+            )
+        text = re.sub(rejected_chars_regex, " ", text)
+        # remove extra spaces
+        text = " ".join(text.replace("\uFE0F", "").split())
+        # ALl the other models dont require Farasa Segmentation
+        return text
+    def unpreprocess(self, text, desegment=True):
+        """Re-formats the text to a classic format where punctuations, brackets, parenthesis are not seperated by whitespaces.
+        The objective is to make the generated text of any model appear natural and not preprocessed.
+        Args:
+            text (str): input text to be un-preprocessed
+            desegment (bool, optional): [whether or not to remove farasa pre-segmentation before]. Defaults to True.
+        Returns:
+            str: The unpreprocessed (and possibly Farasa-desegmented) text.
+        """
+        # removes the spaces around quotation marks ex: i " ate " an apple --> i "ate" an apple
+        # https://stackoverflow.com/a/53436792/5381220
+        text = re.sub(white_spaced_double_quotation_regex, '"' + r"\1" + '"', text)
+        text = re.sub(white_spaced_single_quotation_regex, "'" + r"\1" + "'", text)
+        text = re.sub(white_spaced_back_quotation_regex, "\`" + r"\1" + "\`", text)
+        text = re.sub(white_spaced_back_quotation_regex, "\—" + r"\1" + "\—", text)
+        # during generation, sometimes the models don't put a space after the dot, this handles it
+        text = text.replace(".", " . ")
+        text = " ".join(text.split())
+        # handle decimals
+        text = re.sub(r"(\d+) \. (\d+)", r"\1.\2", text)
+        text = re.sub(r"(\d+) \, (\d+)", r"\1,\2", text)
+        text = re.sub(left_and_right_spaced_chars, r"\1", text)
+        text = re.sub(left_spaced_chars, r"\1", text)
+        text = re.sub(right_spaced_chars, r"\1", text)
+        return text
+    def _remove_elongation(self, text):
+        """
+        :param text:  the input text to remove elongation
+        :return: delongated text
+        """
+        # loop over the number of times the regex matched the text
+        for index_ in range(len(re.findall(regex_tatweel, text))):
+            elongation = re.search(regex_tatweel, text)
+            if elongation:
+                elongation_pattern = elongation.group()
+                elongation_replacement = elongation_pattern[0]
+                elongation_pattern = re.escape(elongation_pattern)
+                text = re.sub(
+                    elongation_pattern, elongation_replacement, text, flags=re.MULTILINE
+                )
+            else:
+                break
+        return text
+    def _remove_redundant_punct(self, text):
+        text_ = text
+        result = re.search(redundant_punct_pattern, text)
+        dif = 0
+        while result:
+            sub = result.group()
+            sub = sorted(set(sub), key=sub.index)
+            sub = " " + "".join(list(sub)) + " "
+            text = "".join(
+                (text[: result.span()[0] + dif], sub, text[result.span()[1] + dif :])
+            )
+            text_ = "".join(
+                (text_[: result.span()[0]], text_[result.span()[1] :])
+            ).strip()
+            dif = abs(len(text) - len(text_))
+            result = re.search(redundant_punct_pattern, text_)
+        text = re.sub(r"\s+", " ", text)
+        return text.strip()
+prefix_list = [
+    "ال",
+    "و",
+    "ف",
+    "ب",
+    "ك",
+    "ل",
+    "لل",
+    "\u0627\u0644",
+    "\u0648",
+    "\u0641",
+    "\u0628",
+    "\u0643",
+    "\u0644",
+    "\u0644\u0644",
+    "س",
+]
+suffix_list = [
+    "ه",
+    "ها",
+    "ك",
+    "ي",
+    "هما",
+    "كما",
+    "نا",
+    "كم",
+    "هم",
+    "هن",
+    "كن",
+    "ا",
+    "ان",
+    "ين",
+    "ون",
+    "وا",
+    "ات",
+    "ت",
+    "ن",
+    "ة",
+    "\u0647",
+    "\u0647\u0627",
+    "\u0643",
+    "\u064a",
+    "\u0647\u0645\u0627",
+    "\u0643\u0645\u0627",
+    "\u0646\u0627",
+    "\u0643\u0645",
+    "\u0647\u0645",
+    "\u0647\u0646",
+    "\u0643\u0646",
+    "\u0627",
+    "\u0627\u0646",
+    "\u064a\u0646",
+    "\u0648\u0646",
+    "\u0648\u0627",
+    "\u0627\u062a",
+    "\u062a",
+    "\u0646",
+    "\u0629",
+]
+other_tokens = ["[رابط]", "[مستخدم]", "[بريد]"]
+# the never_split list is ussed with the transformers library
+prefix_symbols = [x + "+" for x in prefix_list]
+suffix_symblos = ["+" + x for x in suffix_list]
+never_split_tokens = list(set(prefix_symbols + suffix_symblos + other_tokens))
+url_regexes = [
+    r"(http(s)?:\/\/.)?(www\.)?[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#?&//=]*)",
+    r"@(https?|ftp)://(-\.)?([^\s/?\.#-]+\.?)+(/[^\s]*)?$@iS",
+    r"http[s]?://[a-zA-Z0-9_\-./~\?=%&]+",
+    r"www[a-zA-Z0-9_\-?=%&/.~]+",
+    r"[a-zA-Z]+\.com",
+    r"(?=http)[^\s]+",
+    r"(?=www)[^\s]+",
+    r"://",
+]
+user_mention_regex = r"@[\w\d]+"
+email_regexes = [r"[\w-]+@([\w-]+\.)+[\w-]+", r"\S+@\S+"]
+redundant_punct_pattern = (
+    r"([!\"#\$%\'\(\)\*\+,\.:;\-<=·>?@\[\\\]\^_ـ`{\|}~—٪’،؟`୍“؛”ۚ【»؛\s+«–…‘]{2,})"
+)
+regex_tatweel = r"(\D)\1{2,}"
+rejected_chars_regex = r"[^0-9\u0621-\u063A\u0640-\u066C\u0671-\u0674a-zA-Z\[\]!\"#\$%\'\(\)\*\+,\.:;\-<=·>?@\[\\\]\^_ـ`{\|}~—٪’،؟`୍“؛”ۚ»؛\s+«–…‘]"
+regex_url_step1 = r"(?=http)[^\s]+"
+regex_url_step2 = r"(?=www)[^\s]+"
+regex_url = r"(http(s)?:\/\/.)?(www\.)?[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#?&//=]*)"
+regex_mention = r"@[\w\d]+"
+regex_email = r"\S+@\S+"
+chars_regex = r"0-9\u0621-\u063A\u0640-\u066C\u0671-\u0674a-zA-Z\[\]!\"#\$%\'\(\)\*\+,\.:;\-<=·>?@\[\\\]\^_ـ`{\|}~—٪’،؟`୍“؛”ۚ»؛\s+«–…‘"
+white_spaced_double_quotation_regex = r'\"\s+([^"]+)\s+\"'
+white_spaced_single_quotation_regex = r"\'\s+([^']+)\s+\'"
+white_spaced_back_quotation_regex = r"\`\s+([^`]+)\s+\`"
+white_spaced_em_dash = r"\—\s+([^—]+)\s+\—"
+left_spaced_chars = r" ([\]!#\$%\),\.:;\?}٪’،؟”؛…»·])"
+right_spaced_chars = r"([\[\(\{“«‘*\~]) "
+left_and_right_spaced_chars = r" ([\+\-\<\=\>\@\\\^\_\|\–]) "

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+altair
+pandas
+streamlit
+transformers[sentencepiece]
+tokenizers
+arabic-reshaper==2.1.3
+python-bidi==0.4.2
+PyArabic
+torch
+codetiming==1.3.0

summarize.py ADDED Viewed

	@@ -0,0 +1,150 @@

+import logging
+import os
+import re
+from functools import lru_cache
+from urllib.parse import unquote
+import streamlit as st
+from codetiming import Timer
+from transformers import pipeline
+from preprocess import ArabertPreprocessor
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForCausalLM
+from transformers import GPT2TokenizerFast, BertTokenizer
+import tokenizers
+logger = logging.getLogger(__name__)
+os.environ["TOKENIZERS_PARALLELISM"] = "false"
+logger.info("Loading models...")
+reader_time = Timer("loading", text="Time: {:.2f}", logger=logging.info)
+reader_time.start()
+#####
+@st.cache(ttl=24*3600, hash_funcs={AutoModelForSeq2SeqLM: lambda _: None})
+def load_seq2seqLM_model(model_path): #This function is not used
+    return AutoModelForSeq2SeqLM.from_pretrained(model_path)
+@st.cache(ttl=24*3600, hash_funcs={AutoModelForCausalLM: lambda _: None})
+def load_casualLM_model(model_path):
+    return AutoModelForCausalLM.from_pretrained(model_path)
+@st.cache(ttl=24*3600, hash_funcs={tokenizers.Tokenizer: lambda _: None})
+def load_autotokenizer_model(tokenizer_path):
+    return AutoTokenizer.from_pretrained(tokenizer_path)
+@st.cache(ttl=24*3600, hash_funcs={BertTokenizer: lambda _: None})
+def load_berttokenizer_model(tokenizer_path):
+    return BertTokenizer.from_pretrained(tokenizer_path)
+@st.cache(ttl=24*3600, hash_funcs={GPT2TokenizerFast: lambda _: None})
+def load_gpt2tokenizer_model(tokenizer_path):
+    return GPT2TokenizerFast.from_pretrained(tokenizer_path)
+@st.cache(ttl=24*3600, allow_output_mutation=True, hash_funcs={pipeline: lambda _: None, tokenizers.Tokenizer: lambda _: None})
+def load_generation_pipeline(model_path):
+    if model_path == "malmarjeh/mbert2mbert-arabic-text-summarization":
+        tokenizer = load_berttokenizer_model(model_path)
+    else:
+        tokenizer = load_autotokenizer_model(model_path)
+    #model = load_seq2seqLM_model(model_path)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
+    return pipeline("text2text-generation",model=model,tokenizer=tokenizer)
+@st.cache(ttl=24*3600, hash_funcs={ArabertPreprocessor: lambda _: None})
+def load_preprocessor():
+    return ArabertPreprocessor(model_name="")
+tokenizer = load_autotokenizer_model("malmarjeh/bert2bert")
+generation_pipeline = load_generation_pipeline("malmarjeh/bert2bert")
+logger.info("BERT2BERT is loaded")
+tokenizer_mbert = load_berttokenizer_model("malmarjeh/mbert2mbert-arabic-text-summarization")
+generation_pipeline_mbert = load_generation_pipeline("malmarjeh/mbert2mbert-arabic-text-summarization")
+logger.info("mBERT2mBERT is loaded")
+tokenizer_t5 = load_autotokenizer_model("malmarjeh/t5-arabic-text-summarization")
+generation_pipeline_t5 = load_generation_pipeline("malmarjeh/t5-arabic-text-summarization")
+logger.info("T5 is loaded")
+tokenizer_transformer = load_autotokenizer_model("malmarjeh/transformer")
+generation_pipeline_transformer = load_generation_pipeline("malmarjeh/transformer")
+logger.info("Transformer is loaded")
+tokenizer_gpt2 = load_gpt2tokenizer_model("aubmindlab/aragpt2-base")
+model_gpt2 = load_casualLM_model("malmarjeh/gpt2")
+logger.info("GPT-2 is loaded")
+reader_time.stop()
+preprocessor = load_preprocessor()
+logger.info("Finished loading the models...")
+logger.info(f"Time spent loading: {reader_time.last}")
+@lru_cache(maxsize=200)
+def get_results(text, model_selected, num_beams, length_penalty):
+    logger.info("\n=================================================================")
+    logger.info(f"Text: {text}")
+    logger.info(f"model_selected: {model_selected}")
+    logger.info(f"length_penalty: {length_penalty}")
+    reader_time = Timer("summarize", text="Time: {:.2f}", logger=logging.info)
+    reader_time.start()
+    if model_selected == 'GPT-2':
+        number_of_tokens_limit = 80
+    else:
+        number_of_tokens_limit = 150
+    text = preprocessor.preprocess(text)
+    logger.info(f"input length: {len(text.split())}")
+    text = ' '.join(text.split()[:number_of_tokens_limit])
+    if model_selected == 'Transformer':
+        result = generation_pipeline_transformer(text,
+            pad_token_id=tokenizer_transformer.eos_token_id,
+            num_beams=num_beams,
+            repetition_penalty=3.0,
+            max_length=200,
+            length_penalty=length_penalty,
+            no_repeat_ngram_size = 3)[0]['generated_text']
+        logger.info('Transformer')
+    elif model_selected == 'GPT-2':
+        text_processed = '\n النص: ' + text + ' \n الملخص: \n '
+        tokenizer_gpt2.add_special_tokens({'pad_token': '<pad>'})
+        text_tokens = tokenizer_gpt2.batch_encode_plus([text_processed], return_tensors='pt', padding='max_length', max_length=100)
+        output_ = model_gpt2.generate(input_ids=text_tokens['input_ids'],repetition_penalty=3.0, num_beams=num_beams, max_length=140, pad_token_id=2, eos_token_id=0, bos_token_id=10611)
+        result = tokenizer_gpt2.decode(output_[0][100:], skip_special_tokens=True).strip()
+        logger.info('GPT-2')
+    elif model_selected == 'mBERT2mBERT':
+        result = generation_pipeline_mbert(text,
+            pad_token_id=tokenizer_mbert.eos_token_id,
+            num_beams=num_beams,
+            repetition_penalty=3.0,
+            max_length=200,
+            length_penalty=length_penalty,
+            no_repeat_ngram_size = 3)[0]['generated_text']
+        logger.info('mBERT')
+    elif model_selected == 'T5':
+        result = generation_pipeline_t5(text,
+            pad_token_id=tokenizer_t5.eos_token_id,
+            num_beams=num_beams,
+            repetition_penalty=3.0,
+            max_length=200,
+            length_penalty=length_penalty,
+            no_repeat_ngram_size = 3)[0]['generated_text']
+        logger.info('t5')
+    elif model_selected == 'BERT2BERT':
+        result = generation_pipeline(text,
+            pad_token_id=tokenizer.eos_token_id,
+            num_beams=num_beams,
+            repetition_penalty=3.0,
+            max_length=200,
+            length_penalty=length_penalty,
+            no_repeat_ngram_size = 3)[0]['generated_text']
+        logger.info('bert2bert')
+    else:
+        result = "الرجاء اختيار نموذج"
+    reader_time.stop()
+    logger.info(f"Time spent summarizing: {reader_time.last}")
+    return result
+if __name__ == "__main__":
+    results_dict = ""