Spaces:

armvectores
/

arm_language_variety_classifier

Sleeping

App Files Files Community

David Kagramanyan commited on Aug 6, 2023

Commit

ed13494

•

1 Parent(s): 2050a8d

initial

Browse files

Files changed (4) hide show

app.py +54 -0
classifier.ipynb +210 -0
rfc_30_0.95.joblib +3 -0
src.py +89 -0

app.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import gradio as gr
+from transformers.utils import logging
+import time
+import joblib
+import re
+import numpy as np
+from transformers.utils import logging
+from src import get_lexical_desc,get_morphemic_desc, preprocess
+logging.set_verbosity_info()
+logger = logging.get_logger("transformers")
+def classify(input_text_message: str):
+    logger.info(time.strftime("%Y.%m.%d, %H:%M:%S")+' '+'input text message: '+input_text_message)
+    words=preprocess(input_text_message)
+    desc_lexical=get_lexical_desc(words).reshape((1,-1))
+    desc_morphemic=get_morphemic_desc(words).reshape((1,-1))
+    data=np.concatenate([desc_morphemic,desc_lexical],axis=1)
+    prediction=loaded_rf.predict_proba(data)[0]
+    confidences = {labels[i]: float(prediction[i]) for i in range(3)}
+    return confidences
+labels = ['eastern armenian', 'western armenian', 'grabar (classic) armenian']
+loaded_rf = joblib.load("rfc_30_0.95.joblib")
+text='western - Աստուած ըսաւ. «Մեր պատկերով, մեր նմանութեան պէս մարդ ընենք, որ տիրապետէն ծովու ձուկերուն, երկինքի թռչուններուն եւ ընտանի անասուններուն, ամբողջ երկրին, ու երկրի վրայ ըսողացող բոլոր սողուններուն».* 27 Աստուած իր պատկերով ստեղծեց մարդը'
+examples=[text]
+with gr.Blocks() as demo:
+    gr.Markdown("Check your text for compliance with the NVC rules")
+    with gr.Tab("Text analysis"):
+        text_input = gr.Textbox(lines=2, placeholder="Enter your text here")
+        text_button = gr.Button("Define dialect group")
+        examples_block = gr.Examples(examples=examples,
+                                     inputs=[text_input], )
+        rec_output = gr.Label(label='Labels', num_top_classes=3)
+        text_button.click(classify, inputs=text_input,
+                          outputs=[rec_output])
+demo.launch(share=False, debug=True)

classifier.ipynb ADDED Viewed

	@@ -0,0 +1,210 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "initial_id",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2023-08-06T22:05:00.259026Z",
+     "start_time": "2023-08-06T22:05:00.224444Z"
+    },
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "import gradio as gr\n",
+    "from transformers.utils import logging\n",
+    "import time\n",
+    "import joblib\n",
+    "import re\n",
+    "import numpy as np\n",
+    "\n",
+    "from src import get_lexical_desc,get_morphemic_desc, preprocess\n",
+    "\n",
+    "logging.set_verbosity_info()\n",
+    "logger = logging.get_logger(\"transformers\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "5ac71e99efcd2995",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2023-08-06T22:05:01.601612Z",
+     "start_time": "2023-08-06T22:05:01.084800Z"
+    },
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:    0.0s\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "array([0.07140597, 0.85206542, 0.07652861])"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "loaded_rf = joblib.load(\"rfc_30_0.95.joblib\")\n",
+    "folders = ['eastern', 'western', 'grabar']\n",
+    "\n",
+    "text='western - Աստուած ըսաւ. «Մեր պատկերով, մեր նմանութեան պէս մարդ ընենք, որ տիրապետէն ծովու ձուկերուն, երկինքի թռչուններուն եւ ընտանի անասուններուն, ամբողջ երկրին, ու երկրի վրայ ըսողացող բոլոր սողուններուն».* 27 Աստուած իր պատկերով ստեղծեց մարդը'\n",
+    "\n",
+    "\n",
+    "words=preprocess(text)\n",
+    "desc_lexical=get_lexical_desc(words).reshape((1,-1))\n",
+    "desc_morphemic=get_morphemic_desc(words).reshape((1,-1))\n",
+    "\n",
+    "\n",
+    "data=np.concatenate([desc_morphemic,desc_lexical],axis=1)\n",
+    "\n",
+    "loaded_rf.predict_proba(data)[0]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "6db9ac824255b9f3",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2023-08-06T22:07:50.931031Z",
+     "start_time": "2023-08-06T22:07:11.927454Z"
+    },
+    "collapsed": false
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Running on local URL:  http://127.0.0.1:7860\n",
+      "Running on public URL: https://f0de872179e31656f7.gradio.live\n",
+      "\n",
+      "This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div><iframe src=\"https://f0de872179e31656f7.gradio.live\" width=\"100%\" height=\"500\" allow=\"autoplay; camera; microphone; clipboard-read; clipboard-write;\" frameborder=\"0\" allowfullscreen></iframe></div>"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2023.08.07, 01:06:33 input text message: western - Աստուած ըսաւ. «Մեր պատկերով, մեր նմանութեան պէս մարդ ընենք, որ տիրապետէն ծովու ձուկերուն, երկինքի թռչուններուն եւ ընտանի անասուններուն, ամբողջ երկրին, ու երկրի վրայ ըսողացող բոլոր սողուններուն».* 27 Աստուած իր պատկերով ստեղծեց մարդը\n",
+      "[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:    0.0s\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Keyboard interruption in main thread... closing server.\n",
+      "Killing tunnel 127.0.0.1:7860 <> https://f0de872179e31656f7.gradio.live\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": []
+     },
+     "execution_count": 5,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "def classify(input_text_message: str):\n",
+    "\n",
+    "    logger.info(time.strftime(\"%Y.%m.%d, %H:%M:%S\")+' '+'input text message: '+input_text_message)\n",
+    "\n",
+    "    words=preprocess(input_text_message)\n",
+    "    desc_lexical=get_lexical_desc(words).reshape((1,-1))\n",
+    "    desc_morphemic=get_morphemic_desc(words).reshape((1,-1))\n",
+    "    \n",
+    "    data=np.concatenate([desc_morphemic,desc_lexical],axis=1)\n",
+    "    prediction=loaded_rf.predict_proba(data)[0]\n",
+    "\n",
+    "    confidences = {labels[i]: float(prediction[i]) for i in range(3)}\n",
+    "    \n",
+    "    return confidences\n",
+    "\n",
+    "labels = ['eastern armenian', 'western armenian', 'grabar (classic) armenian']\n",
+    "\n",
+    "loaded_rf = joblib.load(\"rfc_30_0.95.joblib\")\n",
+    "\n",
+    "text='western - Աստուած ըսաւ. «Մեր պատկերով, մեր նմանութեան պէս մարդ ընենք, որ տիրապետէն ծովու ձուկերուն, երկինքի թռչուններուն եւ ընտանի անասուններուն, ամբողջ երկրին, ու երկրի վրայ ըսողացող բոլոր սողուններուն».* 27 Աստուած իր պատկերով ստեղծեց մարդը'\n",
+    "\n",
+    "examples=[text]\n",
+    "\n",
+    "with gr.Blocks() as demo:\n",
+    "    gr.Markdown(\"Check your text for compliance with the NVC rules\")\n",
+    "\n",
+    "\n",
+    "    with gr.Tab(\"Single message analysis\"):\n",
+    "        text_input = gr.Textbox(lines=2, placeholder=\"Enter your text here\")\n",
+    "        text_button = gr.Button(\"Define dialect group\")\n",
+    "        examples_block = gr.Examples(examples=examples,\n",
+    "                                     inputs=[text_input], )\n",
+    "\n",
+    "        rec_output = gr.Label(label='Labels', num_top_classes=3)\n",
+    "\n",
+    "        text_button.click(classify, inputs=text_input,\n",
+    "                          outputs=[rec_output])\n",
+    "\n",
+    "\n",
+    "demo.launch(share=True, debug=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "675f27ee2cd8dcc",
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "torch",
+   "language": "python",
+   "name": "torch"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 2
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython2",
+   "version": "2.7.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

rfc_30_0.95.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5ce28a74fa4b30546216dde10089eff055e8083830372d3228da751242abba5
+size 78544897

src.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import gradio as gr
+from transformers.utils import logging
+import time
+import joblib
+import re
+import numpy as np
+logging.set_verbosity_info()
+logger = logging.get_logger("transformers")
+western_stop = ['ենք', 'էի', 'թ', 'ին', 'մենք', 'որոնք', 'պիտի', 'և', 'որպեսզի', 'վրայ', 'կ՚', 'կը', 'մը', 'մըն',
+                'անոր', 'ալ', 'ան', 'քեզ', 'եթէ', 'թէ', 'որպէս']
+grabar_stop = ['դու', 'եք', 'ըստ', 'նա', 'պիտի', 'վրայ', 'զի', 'ընդ', 'քո', 'քեզ', 'եթէ', 'թէ', 'որպէս']
+eastern_stop = ['դու', 'ենք', 'եք', 'էի', 'ըստ', 'ին', 'հետո', 'մենք', 'մեջ', 'նա', 'նաև', 'նրա', 'նրանք', 'որը',
+                'որոնք', 'որպես', 'ում', 'վրա', 'և', 'որպեսզի']
+western_stop = set(western_stop)
+grabar_stop = set(grabar_stop)
+eastern_stop = set(eastern_stop)
+def get_lexical_desc(words):
+    intersect_western = len(set(words) & western_stop) / len(western_stop)
+    intersect_grabar = len(set(words) & grabar_stop) / len(grabar_stop)
+    intersect_eastern = len(set(words) & eastern_stop) // len(eastern_stop)
+    return np.array([intersect_western, intersect_grabar, intersect_eastern])
+grabar_suffixes = ['աւք', 'եալ', 'եան', 'իւք', 'ոյց', 'ովք', 'ուց', 'ուցան']
+grabar_prefixes = ['ապա', 'արտ', 'բաղ', 'բաղա', 'դեր', 'ենթ', 'ենթա', 'ընթա', ' համ', 'համա', 'հան', 'հոմ', 'հոմա',
+                   'տար', 'տարա']
+eastern_suffixes = ['աբար', 'ագին', 'ագույն', 'ածո', 'ածու', 'ական', 'ակերտ', 'ային', 'անակ', 'անի', 'անոց', 'անք',
+                    'ապան', 'ապանակ', 'ապատ', 'ապես', 'աստան', 'ավետ', 'ավուն', 'արան', 'արար', 'արեն', 'արք', 'ացի',
+                    'ացն-', 'ացու', 'բան', 'բար', 'գին', 'գույն', 'եղեն', 'ենի', 'երեն', 'երորդ', 'եցն-', 'լիկ', 'կերտ',
+                    'կոտ', 'մունք ', 'յալ', 'յակ', 'յան', 'յանց', 'յուն նախա-', 'ներ', 'նոց', 'ոնք', 'ովին', 'որդ',
+                    'որեն', 'ոցի', 'ուք', 'պան', 'պանակ', 'ստան', 'ված', 'վածք', 'ավոր', 'վոր', 'ություն', 'ուլ', 'ուկ',
+                    'ուհի', 'ում', 'ույթ', 'ույր', 'ուն', 'ուտ', 'ուրդ', 'ուց']
+eastern_prefixes = ['ամենա', 'այսր', 'անդր', 'ապա', 'ավտո', 'արտ', 'արտա', 'բենզա', ', գեր', 'գերա', 'դեր', 'ենթա',
+                    'եվրա', ' էլեկտրա', 'թեր', 'թերա', 'կենս', 'կինո', 'հակ', 'հակա', 'համ', 'համա', 'հար', 'հարա',
+                    'հեռա', 'հեռուստա', 'հոմա', 'մակ', 'մակրո', 'միկրո', 'միջ', 'նախ', 'ներ', 'ստոր', 'վեր', 'վերա',
+                    'տար', 'տարա', 'փոխ', 'քառ', 'քառա']
+western_reform = ['իլ', 'իուն', 'եան', 'յ', 'օ', 'է', 'յ', 'վո', 'ոյ', 'եա', 'եօ', 'իւ', 'ու', 'ւ,' 'յե', 'եյ', 'զի',
+                  'եւ', 'ել', 'յուն', 'յան', 'ում', 'ո', 'ե', 'հ', 'ո', 'ույ', 'յա', 'յո', 'յու', 'վ', 'ե', ]
+morphems=[]
+morphems.extend(grabar_suffixes)
+morphems.extend(grabar_prefixes)
+morphems.extend(eastern_suffixes)
+morphems.extend(eastern_prefixes)
+morphems.extend(western_reform)
+def get_morphemic_desc(words):
+    res=[]
+    for morphema in morphems:
+        positions = []
+        for word in words:
+            pos = word.find(morphema)
+            if pos != -1:
+                positions.append((pos+1)/len(word))
+        if len(positions)==0:
+            res.append(0)
+        else:
+            # std=np.std(positions)
+            res.append(np.mean(positions))
+    return np.array(res)
+def preprocess(text):
+    punctuation=['.','-',',','!','?','(','—',')','՛','։','՝','՜','’','«','»','*','\n','=',':','[',']','/',';','․','`','\t','%','$','\xa0','\r','_','●','՜', ',', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', '-', '—', '։','՞']
+    text=text.lower()
+    for spaced in punctuation:
+        text = text.replace(spaced, '')
+    text = re.sub(" +", " ", text)
+    txt = text.split(' ')
+    words = [t for t in txt if t != '']
+    return words