Spaces:

DimaKoshman
/

ML2TransformerApp

Runtime error

App Files Files Community

dkoshman commited on Apr 18, 2022

Commit

e33424f

•

1 Parent(s): 02f3832

dataset, preprocessing, gitignore

Browse files

Files changed (4) hide show

.gitignore +2 -0
app.py +14 -1
data_preprocessing.py +107 -0
resources/latex.json +1 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *.ipynb
2	+ /__pycache__

app.py CHANGED Viewed

@@ -1,4 +1,17 @@
 import streamlit as st
 st.markdown("### Hello, world!")
-st.write("hello")

 import streamlit as st
 st.markdown("### Hello, world!")
+st.markdown("<img width=200px src='https://rozetked.me/images/uploads/dwoilp3BVjlE.jpg'>", unsafe_allow_html=True)
+# ^-- можно показывать пользователю текст, картинки, ограниченное подмножество html - всё как в jupyter
+text = st.text_area("TEXT HERE")
+# ^-- показать текстовое поле. В поле text лежит строка, которая находится там в данный момент
+# from transformers import pipeline
+# pipe = pipeline("ner", "Davlan/distilbert-base-multilingual-cased-ner-hrl")
+# raw_predictions = pipe(text)
+# тут уже знакомый вам код с huggingface.transformers -- его можно заменить на что угодно от fairseq до catboost
+# st.markdown(f"{raw_predictions}")
+st.markdown(f"Simon says {text}!")
+# выводим результаты модели в текстовое поле, на потеху пользователю

data_preprocessing.py ADDED Viewed

	@@ -0,0 +1,107 @@

+import os
+import re
+import tokenizers
+import torch
+import torchvision
+import torchvision.transforms as T
+import tqdm
+import PIL
+from torch.utils.data import Dataset, DataLoader
+directory = "/external2/dkkoshman/repos/ML2TransformerApp/data/"
+class TexImageDataset(Dataset):
+    """Image to tex dataset."""
+    def __init__(self, root_dir, image_preprocessing=None, tex_preprocessing=None):
+        """
+        Args:
+            root_dir (string): Directory with all the images and tex files.
+            transform (callable, optional): Optional transform to be applied
+                on a sample.
+            image_preprocessing: callable image preprocessing
+            tex_preprocessing: callable tex preprocessing
+        """
+        torch.multiprocessing.set_sharing_strategy('file_system')
+        self.root_dir = root_dir
+        filenames = sorted(
+            set(os.path.splitext(filename)[0] for filename in os.listdir(root_dir) if filename.endswith('png'))
+        )
+        self.data = []
+        for filename in tqdm.tqdm(filenames):
+            tex_path = self.root_dir + filename + '.tex'
+            image_path = self.root_dir + filename + '.png'
+            with open(tex_path) as file:
+                tex = file.read()
+            if tex_preprocessing:
+                tex = tex_preprocessing(tex)
+            image = torchvision.io.read_image(image_path)
+            if image_preprocessing:
+                image = image_preprocessing(image)
+            self.data.append((image, tex))
+    def __len__(self):
+        return len(self.data)
+    def __getitem__(self, idx):
+        image, tex = self.data[idx]
+        return {"image": image, "tex": tex}
+class StandardizeImage(object):
+    """Pad and crop image to a given size, invert and normalize"""
+    def __init__(self, width=1024, height=128):
+        self.transform = T.Compose((
+            T.Resize(height),
+            T.Grayscale(),
+            T.functional.invert,
+            T.CenterCrop((height, width))
+        ))
+    def __call__(self, image):
+        image = self.transform(image)
+        return image
+class RandomTransformImage(object):
+    """Standardize image and randomly augment"""
+    def __init__(self, standardize, random_magnitude=5):
+        self.brighten = T.ColorJitter(brightness=(1/random_magnitude, 1 + 1/random_magnitude))
+        self.standardize = standardize
+        self.rand_aug = T.RandAugment(magnitude=random_magnitude)
+    def __call__(self, image):
+        image = self.brighten(image)
+        image = self.standardize(image)
+        image = image.contiguous()
+        image = self.rand_aug(image)
+        return image
+def generate_tex_tokenizer(dataset):
+    """Returns a tokeniser trained on tex strings from dataset"""
+    tokenizer = tokenizers.Tokenizer(tokenizers.models.BPE(unk_token="[UNK]"))
+    tokenizer_trainer = tokenizers.trainers.BpeTrainer(
+        vocab_size=300,
+        special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
+    )
+    tokenizer.pre_tokenizer = tokenizers.pre_tokenizers.Whitespace()
+    tokenizer.train_from_iterator((item['tex'] for item in dataset), trainer=tokenizer_trainer)
+    tokenizer.post_processor = tokenizers.processors.TemplateProcessing(
+        single="$A [SEP]",
+        special_tokens=[("[SEP]", tokenizer.token_to_id("[SEP]"))]
+    )
+    tokenizer.enable_padding(pad_id=tokenizer.token_to_id("[PAD]"), pad_token="[PAD]")
+    return tokenizer

resources/latex.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"special": {"dollar": "$", "underscore": "_", "caret": "^", "left_bracket": "{", "right_bracket": "}", "ampersand": "&"}, "chars": "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!\"'()*+,-./:;<=>?@[]`|~", "greek": ["\\alpha", "\\beta", "\\gamma", "\\delta", "\\epsilon", "\\varepsilon", "\\zeta", "\\eta", "\\theta", "\\vartheta", "\\iota", "\\kappa", "\\lambda", "\\mu", "\\nu", "\\xi", "\\pi", "\\varpi", "\\rho", "\\varrho", "\\sigma", "\\varsigma", "\\tau", "\\upsilon", "\\phi", "\\varphi", "\\chi", "\\psi", "\\omega", "\\Gamma", "\\Delta", "\\Theta", "\\Lambda", "\\Xi", "\\Pi", "\\Sigma", "\\Upsilon", "\\Phi", "\\Psi", "\\Omega"], "functions": ["\\forall", "\\exists", "\\arccos", "\\arcsin", "\\arctan", "\\cos", "\\cosh", "\\cot", "\\coth", "\\csc", "\\deg", "\\det", "\\dim", "\\exp", "\\gcd", "\\hom", "\\inf", "\\ker", "\\lg", "\\lim", "\\liminf", "\\limsup", "\\ln", "\\log", "\\max", "\\min", "\\sec", "\\sin", "\\sinh", "\\sup", "\\tan", "\\tanh"], "operators": ["--", "---", "\\pm", "\\mp", "\\times", "\\div", "\\ast", "\\star", "\\bullet", "\\circ", "\\cdot", "\\leq", "\\ll", "\\subset", "\\geq", "\\gg", "\\equiv", "\\sim", "\\simeq", "\\approx", "\\neq", "\\propto", "\\not", "\\mid", "\\leftarrow", "\\Leftarrow", "\\longleftarrow", "\\Longleftarrow", "\\rightarrow", "\\Rightarrow", "\\longrightarrow", "\\Longrightarrow", "\\leftrightarrow", "\\Leftrightarrow", "\\longleftrightarrow", "\\uparrow", "\\downarrow", "\\Uparrow", "\\cdots", "\\ddots", "\\ldots", "\\vdots"], "pairs": [["\\left(", "\\right)"], ["\\left[", "\\right]"], ["\\left\\{", "\\right\\}"], ["\\langle", "\\rangle"]], "spaces": ["\\;", "\\:", "\\,", "\\!"], "fonts": [["sfmath", []], ["lmodern", []], ["eulervm", []], ["euler", []], ["beton", []], ["drm", []], ["boisik", []], ["gfsartemisia-euler", []], ["gfsartemisia", []], ["arev", []], ["anttor", ["math", "light,math", "condensed,math", "light,condensed,math"]]], "fontsizes": [6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20], "template": "\\documentclass[preview]{standalone}\n\\usepackage[$font_option]{$font}\n\\usepackage[T1]{fontenc}\n\\begin{document}\n{\\fontsize{$fontsize pt}{12 pt}\\selectfont \n\\[\n$equation\n\\]\n}\n\\end{document}", "scopes": {"single": ["^", "_", "\\sqrt", "\\underbrace", "\\underline", "\\boldmath", "\\hat", "\\widehat", "\\check", "\\tilde", "\\widetilde", "\\acute", "\\grave", "\\dot", "\\ddot", "\\breve", "\\bar", "\\vec"], "double_with_delimiters": ["\"\\sum", "\\prod", "\\int", "\\bigcup", "\\bigcap"], "double_no_delimiters": ["\\frac", "\\stackrel"]}}