Spaces:

Yehor
/

normalize-text-uk

Sleeping

App Files Files Community

Yehor Smoliakov commited on Jul 28

Commit

af58cc7

•

1 Parent(s): 8ca8f7e

Init

Browse files

Files changed (8) hide show

.dockerignore +2 -0
.gitattributes +0 -35
.gitignore +5 -0
Dockerfile +61 -0
README.md +27 -5
app.py +190 -0
requirements-dev.txt +1 -0
requirements.txt +4 -0

.dockerignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ .ruff_cache/
2	+ .venv/

.gitattributes CHANGED Viewed

@@ -1,35 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,5 @@

+.idea/
+.venv/
+.ruff_cache/
+flagged/

Dockerfile ADDED Viewed

	@@ -0,0 +1,61 @@

+FROM nvidia/cuda:11.7.1-cudnn8-devel-ubuntu22.04
+ENV DEBIAN_FRONTEND=noninteractive
+RUN apt-get update && \
+    apt-get upgrade -y && \
+    apt-get install -y --no-install-recommends \
+    git \
+    git-lfs \
+    wget \
+    curl \
+    # python build dependencies \
+    build-essential \
+    libssl-dev \
+    zlib1g-dev \
+    libbz2-dev \
+    libreadline-dev \
+    libsqlite3-dev \
+    libncursesw5-dev \
+    xz-utils \
+    tk-dev \
+    libxml2-dev \
+    libxmlsec1-dev \
+    libffi-dev \
+    liblzma-dev \
+    # gradio dependencies \
+    ffmpeg \
+    && apt-get clean \
+    && rm -rf /var/lib/apt/lists/*
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:${PATH}
+WORKDIR ${HOME}/app
+RUN curl https://pyenv.run | bash
+ENV PATH=${HOME}/.pyenv/shims:${HOME}/.pyenv/bin:${PATH}
+ARG PYTHON_VERSION=3.10.12
+RUN pyenv install ${PYTHON_VERSION} && \
+    pyenv global ${PYTHON_VERSION} && \
+    pyenv rehash && \
+    pip install --no-cache-dir -U pip setuptools wheel && \
+    pip install packaging ninja
+COPY --chown=1000 ./requirements.txt /tmp/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /tmp/requirements.txt
+RUN git clone --depth 1 https://huggingface.co/skypro1111/mbart-large-50-verbalization ${HOME}/app/mbart-large-50-verbalization
+COPY --chown=1000 . ${HOME}/app
+ENV PYTHONPATH=${HOME}/app \
+    PYTHONUNBUFFERED=1 \
+    GRADIO_ALLOW_FLAGGING=never \
+    GRADIO_NUM_PORTS=1 \
+    GRADIO_SERVER_NAME=0.0.0.0 \
+    GRADIO_THEME=huggingface \
+    SYSTEM=spaces
+CMD ["python", "app.py"]

README.md CHANGED Viewed

@@ -1,11 +1,33 @@
 ---
-title: Normalize Text Uk
-emoji: 🔥
 colorFrom: blue
-colorTo: pink
 sdk: docker
 pinned: false
-license: apache-2.0
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Normalize Text for Ukrainian
+emoji: 📝
 colorFrom: blue
+colorTo: yellow
 sdk: docker
 pinned: false
 ---
+## Install
+```shell
+uv venv --python 3.10
+source .venv/bin/activate
+uv pip install -r requirements.txt
+# in development mode
+uv pip install -r requirements-dev.txt
+```
+## Build image
+```shell
+docker build -t normalize-text-uk .
+```
+## Run
+```shell
+docker run -it --rm -p 8888:7860 normalize-text-uk
+```

app.py ADDED Viewed

	@@ -0,0 +1,190 @@

+import sys
+import time
+from importlib.metadata import version
+import torch
+import gradio as gr
+from transformers import MBartForConditionalGeneration, AutoTokenizer
+# Config
+model_name = "/home/user/app/mbart-large-50-verbalization"
+concurrency_limit = 5
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Load the model
+model = MBartForConditionalGeneration.from_pretrained(
+    model_name,
+    low_cpu_mem_usage=True,
+    device_map=device,
+)
+model.eval()
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+tokenizer.src_lang = "uk_XX"
+tokenizer.tgt_lang = "uk_XX"
+examples = [
+    "WP: F-16 навряд чи значно змінять ситуацію на полі бою",
+    "Над Україною збили ракету та 7 з 8 Шахедів",
+    "Олімпійські ігри-2024. Розклад змагань українських спортсменів на 28 липня",
+    "Кампанія Гарріс менш як за тиждень зібрала понад $200 млн",
+    "За тиждень Нацбанк продав майже 800 мільйонів доларів на міжбанку",
+    "Париж-2024. День 2. Текстова трансляція",
+]
+title = "Normalize Text for Ukrainian"
+# https://www.tablesgenerator.com/markdown_tables
+authors_table = """
+## Authors
+Follow them on social networks and **contact** if you need any help or have any questions:
+| <img src="https://avatars.githubusercontent.com/u/7875085?v=4" width="100"> **Yehor Smoliakov** |
+|-------------------------------------------------------------------------------------------------|
+| https://t.me/smlkw in Telegram                                                                  |
+| https://x.com/yehor_smoliakov at X                                                              |
+| https://github.com/egorsmkv at GitHub                                                           |
+| https://huggingface.co/Yehor at Hugging Face                                                    |
+| or use egorsmkv@gmail.com                                                                       |
+""".strip()
+description_head = f"""
+# {title}
+## Overview
+This space uses https://huggingface.co/skypro1111/mbart-large-50-verbalization model.
+Paste the text you want to enhance.
+""".strip()
+description_foot = f"""
+{authors_table}
+""".strip()
+normalized_text_value = """
+Normalized text will appear here.
+Choose **an example** below the Normalize button or paste **your text**.
+""".strip()
+tech_env = f"""
+#### Environment
+- Python: {sys.version}
+""".strip()
+tech_libraries = f"""
+#### Libraries
+- gradio: {version('gradio')}
+""".strip()
+def inference(text, progress=gr.Progress()):
+    if not text:
+        raise gr.Error("Please paste your text.")
+    gr.Info("Starting normalizing", duration=2)
+    progress(0, desc="Normalizing...")
+    results = []
+    sentences = [
+        text,
+    ]
+    for sentence in progress.tqdm(sentences, desc="Normalizing...", unit="sentence"):
+        sentence = sentence.strip()
+        if len(sentence) == 0:
+            continue
+        t0 = time.time()
+        input_text = "<verbalization>:" + sentence
+        encoded_input = tokenizer(
+            input_text,
+            return_tensors="pt",
+            padding=True,
+            truncation=True,
+            max_length=1024,
+        ).to(device)
+        output_ids = model.generate(
+            **encoded_input, max_length=1024, num_beams=5, early_stopping=True
+        )
+        normalized_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+        if not normalized_text:
+            normalized_text = "-"
+        elapsed_time = round(time.time() - t0, 2)
+        normalized_text = normalized_text.strip()
+        results.append(
+            {
+                "sentence": sentence,
+                "normalized_text": normalized_text,
+                "elapsed_time": elapsed_time,
+            }
+        )
+    gr.Info("Finished!", duration=2)
+    result_texts = []
+    for result in results:
+        result_texts.append(f'> {result["normalized_text"]}')
+        result_texts.append("\n")
+    sum_elapsed_text = sum([result["elapsed_time"] for result in results])
+    result_texts.append(f"Elapsed time: {sum_elapsed_text} seconds")
+    return "\n".join(result_texts)
+demo = gr.Blocks(
+    title=title,
+    analytics_enabled=False,
+    # theme="huggingface",
+    theme=gr.themes.Base(),
+)
+with demo:
+    gr.Markdown(description_head)
+    gr.Markdown("## Usage")
+    with gr.Row():
+        text = gr.Textbox(label="Text", autofocus=True, max_lines=1)
+        normalized_text = gr.Textbox(
+            label="Normalized text",
+            placeholder=normalized_text_value,
+            show_copy_button=True,
+        )
+    gr.Button("Normalize").click(
+        inference,
+        concurrency_limit=concurrency_limit,
+        inputs=text,
+        outputs=normalized_text,
+    )
+    with gr.Row():
+        gr.Examples(label="Choose an example", inputs=text, examples=examples)
+    gr.Markdown(description_foot)
+    gr.Markdown("### Gradio app uses the following technologies:")
+    gr.Markdown(tech_env)
+    gr.Markdown(tech_libraries)
+if __name__ == "__main__":
+    demo.queue()
+    demo.launch()

requirements-dev.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ruff

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+gradio
+transformers
+accelerate