Spaces:

mikachou
/

stackoverflow

Sleeping

App Files Files Community

mikachou commited on May 19, 2022

Commit

9a7645a

1 Parent(s): 821e7db

first working app with Tf-Idf

Browse files

Files changed (7) hide show

.gitignore +5 -0
app.py +42 -0
model.joblib +3 -0
requirements.txt +77 -0
stack_overflow_functions.py +54 -0
tags.joblib +3 -0
tfidf.joblib +3 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,5 @@

+venv
+node_modules/
+package-lock.json
+package.json
+__pycache__

app.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import gradio as gr
+import joblib
+import spacy
+import numpy as np
+from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
+from sklearn.preprocessing import MultiLabelBinarizer
+from sklearn.base import BaseEstimator, TransformerMixin
+nlp = spacy.load('en_core_web_sm')
+tfidf = joblib.load('./tfidf.joblib')
+model = joblib.load('./model.joblib')
+tags_binarizer = joblib.load('./tags.joblib')
+def lemmatize(s: str) -> iter:
+    # tokenize
+    doc = nlp(s)
+    # remove punct and stopwords
+    tokens = filter(lambda token: not token.is_space and not token.is_punct and not token.is_stop and not token.is_digit, doc)
+    # lemmatize
+    return map(lambda token: token.lemma_.lower(), tokens)
+def predict(title: str , post: str):
+    text = title + " " + post
+    lemmes = np.array([' '.join(list(lemmatize(text)))])
+    X = tfidf.transform(lemmes)
+    y_bin = model.predict(X)
+    y_tags = tags_binarizer.inverse_transform(y_bin)
+    return y_tags
+demo = gr.Interface(
+    fn=predict,
+    inputs=[
+        gr.Textbox(lines=1, placeholder="Title..."),
+        gr.Textbox(lines=10, placeholder="Post...")],
+    outputs=gr.Textbox(lines=10))
+demo.launch()

model.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df6f5341aa2cc2d2223bbe960deadfc9f42de174040415429b2ca5e9fb0c5ba7
+size 2355322

requirements.txt ADDED Viewed

	@@ -0,0 +1,77 @@

+aiohttp==3.8.1
+aiosignal==1.2.0
+analytics-python==1.4.0
+anyio==3.6.1
+asgiref==3.5.2
+async-timeout==4.0.2
+attrs==21.4.0
+backoff==1.10.0
+bcrypt==3.2.2
+blis==0.7.7
+catalogue==2.0.7
+certifi==2022.5.18
+cffi==1.15.0
+charset-normalizer==2.0.12
+click==8.1.3
+cryptography==37.0.2
+cycler==0.11.0
+cymem==2.0.6
+en-core-web-sm @ https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.3.0/en_core_web_sm-3.3.0-py3-none-any.whl
+fastapi==0.78.0
+ffmpy==0.3.0
+fonttools==4.33.3
+frozenlist==1.3.0
+gradio==3.0.2
+h11==0.13.0
+idna==3.3
+Jinja2==3.1.2
+joblib==1.1.0
+kiwisolver==1.4.2
+langcodes==3.3.0
+linkify-it-py==1.0.3
+markdown-it-py==2.1.0
+MarkupSafe==2.1.1
+matplotlib==3.5.2
+mdit-py-plugins==0.3.0
+mdurl==0.1.1
+monotonic==1.6
+multidict==6.0.2
+murmurhash==1.0.7
+numpy==1.22.3
+orjson==3.6.8
+packaging==21.3
+pandas==1.4.2
+paramiko==2.11.0
+pathy==0.6.1
+Pillow==9.1.1
+preshed==3.0.6
+pycparser==2.21
+pycryptodome==3.14.1
+pydantic==1.8.2
+pydub==0.25.1
+PyNaCl==1.5.0
+pyparsing==3.0.9
+python-dateutil==2.8.2
+python-multipart==0.0.5
+pytz==2022.1
+requests==2.27.1
+scikit-learn==1.0.2
+scipy==1.8.1
+six==1.16.0
+smart-open==5.2.1
+sniffio==1.2.0
+spacy==3.3.0
+spacy-legacy==3.0.9
+spacy-loggers==1.0.2
+srsly==2.4.3
+starlette==0.19.1
+thinc==8.0.16
+threadpoolctl==3.1.0
+tqdm==4.64.0
+typer==0.4.1
+typing_extensions==4.2.0
+uc-micro-py==1.0.1
+urllib3==1.26.9
+uvicorn==0.17.6
+wasabi==0.9.1
+yarl==1.7.2

stack_overflow_functions.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import numpy as np
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.base import BaseEstimator, TransformerMixin
+from sklearn.preprocessing import MultiLabelBinarizer
+def top_topics(tags_list: iter, part: float) -> dict:
+    cv = CountVectorizer(token_pattern='\S+')
+    tags_vect = cv.fit_transform(tags_list)
+    tags_vect_sum = np.sum(tags_vect.todense(), axis=0)
+    return { k: v for (k, v) in sorted(list(zip(cv.get_feature_names_out(),np.array(tags_vect_sum)[0].tolist())), key=lambda tup: tup[1], reverse=True) if v >= part * len(list(tags_list)) }
+def simplified_tags(orig_tags: list, allowed_tags: list, alternative: str = None, only_empty: bool = False) -> list:
+    # intersection
+    simplified_tags = list(set(orig_tags) & set(allowed_tags))
+    # other missing tags = alternative param
+    if alternative is not None:
+        if (only_empty and len(simplified_tags) == 0) \
+        or (not only_empty and len(simplified_tags) < len(orig_tags)):
+            simplified_tags.append(alternative) # default = "other"
+    return simplified_tags
+class TagsSimplifier(BaseEstimator, TransformerMixin):
+    def __init__(self, part=0.01):
+        self.part = part
+    def fit(self, X, y=None):
+        self.count = top_topics(X, self.part)
+        return self
+    def transform(self, X, y=None):
+        return X.apply(lambda tags: simplified_tags(tags.split(), self.count.keys())).values
+    def inverse_transform(self, X, y=None):
+        return X
+class TagsBinarizer(BaseEstimator, TransformerMixin):
+    def __init__(self, part=0.01):
+        self.part = part
+        self.ts = TagsSimplifier(part=self.part)
+        self.mlb = MultiLabelBinarizer()
+    def fit(self, X, y=None):
+        simp_X = self.ts.fit_transform(X)
+        self.mlb.fit(simp_X)
+        return self
+    def transform(self, X, y=None):
+        simp_X = self.ts.transform(X)
+        return self.mlb.transform(simp_X)
+    def inverse_transform(self, X, y=None):
+        return self.mlb.inverse_transform(X)

tags.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b499dfe2b050eff9f02a6eb42567fbcdeb64c1b259038e6226781c2cbcffc5b
+size 1107

tfidf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95ca7956c176afbb3de6eddad6c0079ca542129f8d779e8b767a1d224ef482e6
+size 268451