Spaces:

Shchushch
/

find_my_book

Sleeping

App Files Files Community

Shchushch commited on Aug 4, 2023

Commit

6851338

1 Parent(s): 7576ded

Upload 10 files

Browse files

Files changed (9) hide show

.gitattributes +2 -0
app.py +60 -36
embs+lem.pickle +3 -0
final+lem.csv +3 -0
find.py +127 -22
log.log +0 -0
packages.txt +211 -0
parsing.ipynb +3 -0
russian.txt +422 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+final+lem.csv filter=lfs diff=lfs merge=lfs -text
+parsing.ipynb filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -2,55 +2,79 @@ import streamlit as st
 import pandas as pd
 import random as rd
 import webbrowser as wb
-from find import find_similar,df
 st.set_page_config(
     page_title="Умный поиск книг",
-    page_icon="path/to/favicon.ico",
     layout="wide",
-    initial_sidebar_state="expanded"
 )
-df
 st.title('Умный поиск книг')
-form = st.form(key='search_form')
-input=form.text_input('Введите поисковый запрос')
-# if 'clicked' not in st.session_state:
-#     st.session_state.clicked = False
-#df= pd.read_csv('books_booksle.csv')
-items_per_page=form.number_input('Количество книг на странице',min_value=1,max_value=10,value=5)
-search_but=form.form_submit_button('Искать')
 # if search_but:
 #     st.session_state.clicked = True
-@st.cache_data(experimental_allow_widgets=True)
-def books_show(books,sims):
     col=[]
-    for i in range(len(books)):
-        col.append(st.columns([0.2,0.8]))
         '---'
-        url=books.iloc[i,0]#'page_url'][i]
-        col[i][0].image(books['image_url'][i],width=200)
-        col[i][0].markdown('<a href={url} target="_blank">Ссылка на книгу</a>', unsafe_allow_html=True)
-        col[i][0].markdown(f'**Степень похожести:** {books["sims"][i]:.4f}')
         #col[i][0].button('Купить',key=books['page_url'][i],on_click=lambda: wb.open_new_tab(books['page_url'][i]))
-        col[i][1].markdown('## '+ f"{books['title'][i]}")
-        col[i][1].markdown('**Автор:** ' +books['author'][i])
-        col[i][1].markdown('**Аннотация:** '  +books['annotation'][i])
 if search_but:
-    sims,books_idx=find_similar(input)
-    #sims
-    books=df.copy()
-    books['sims']=sims
-    books=books.iloc[books_idx].iloc[:items_per_page]
-    #books=books.iloc[:items_per_page]
-    #books=df.iloc[books_idx]
-    #[:items_per_page]
-    #sims
-    books
-    #books['sims'][0]
-    books_show(books,sims)

 import pandas as pd
 import random as rd
 import webbrowser as wb
+import numpy as np
+from find import find_similar,df,lems_eng,lems_rus,clean,find_unsimilar
 st.set_page_config(
     page_title="Умный поиск книг",
+    page_icon="📖",
     layout="wide",
+    #initial_sidebar_state="expanded"
 )
+with st.expander('Исходный датафрейм'):
+    if st.checkbox('С лемматизацией'):
+        df
+    else:
+        df.iloc[:,:-1]
 st.title('Умный поиск книг')
+#negability= st.checkbox('Негативный промт (beta)')
+with st.form(key='search_form'):
+    input=st.text_input('Введите поисковый запрос','Пример запроса')
+    # if negability:
+    #     neg=st.text_input('Введите отрицательный запрос')
+    search_but=st.form_submit_button('Искать')
+items_per_page=st.number_input('Количество книг на странице',min_value=1,max_value=10,value=5)
 # if search_but:
 #     st.session_state.clicked = True
+#st.toast('Уфф')
+#@st.cache_data(experimental_allow_widgets=True)
+def books_show(books_idx,sim,n=items_per_page):
     col=[]
+    books=df.copy().iloc[books_idx][:n]
+    for author in books['author']:
+        if author.find('Донцова')!=-1:
+            #st.toast('Уфф')
+            pass
+    books['sims']=sims[:n]
+    with st.expander('Датафрейм с результатами'):
+        books
+    #print(books.index)
+    for i,book_id in enumerate(books_idx[:n]):
+        pic_col,text_col=st.columns([0.2,0.8])
         '---'
+        url=books.loc[book_id][0]
+        #url
+        pic_col.image(books.loc[book_id,'image_url'],use_column_width=True)
+        pic_col.markdown(f'<a href={url} target="_blank">Ссылка на книгу</a>', unsafe_allow_html=True)
+        pic_col.markdown(f'**Степень похожести:** {books.loc[book_id,"sims"]:.4f}')
         #col[i][0].button('Купить',key=books['page_url'][i],on_click=lambda: wb.open_new_tab(books['page_url'][i]))
+        text_col.markdown('## ' + books.loc[book_id, 'title'])
+        text_col.markdown('**Автор:** ' + books.loc[book_id, 'author'])
+        text_col.markdown('**Жанр:** ' + books.loc[book_id, 'genre'])
+        text_col.markdown('**Аннотация:** ' + books.loc[book_id, 'annotation'])
 if search_but:
+    neg_mark=input.find(' -')
+    cleaned_input=clean(lems_eng(lems_rus(input[:neg_mark])))
+    cleaned_neg=clean(lems_eng(lems_rus(input[neg_mark+2:])))
+    #print(cleaned_neg.split(),df.loc[15390,'lemmatized'].split())
+    with st.spinner('Wait for it...'):
+        if neg_mark!=-1:
+            st.markdown(f'**Лемматизированный запрос:** {cleaned_input} \n\n **Лемматизированый негативный запрос:** {cleaned_neg}')
+            sims,books_idx=find_similar(cleaned_input,50)
+            for book in books_idx:
+                if any(word in cleaned_neg.split() for word in df.loc[book,'lemmatized'].split()):
+                    books_idx=np.delete(books_idx,np.where(books_idx==book))
+        else:
+            st.markdown(f'**Лемматизированный запрос:** {cleaned_input}')
+            sims,books_idx=find_similar(cleaned_input)
+        print(f'Похожести:\n{sims}\nИндексы:\n{books_idx}')
+        books_show(books_idx,sims)

embs+lem.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70b09c1da9bf9301fa2190a356e36b3dbe651b98a18d196c5d54e41beb97386f
+size 83429968

final+lem.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2f5008c8734513ce810bd588277c233402be603535ab4c06a07c23957a28716
+size 170696424

find.py CHANGED Viewed

@@ -2,11 +2,26 @@ import torch
 import pandas as pd
 from transformers import AutoTokenizer, AutoModel
 import numpy as np
 tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
 model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
-def embed_bert_cls(text, model=model, tokenizer=tokenizer):
     """
     Встраивает входной текст с использованием модели на основе BERT.
@@ -36,16 +51,89 @@ def embed_bert_cls(text, model=model, tokenizer=tokenizer):
     # Преобразуем встроенные представления в массив numpy и возвращаем первый элемент
     return embeddings
-df=pd.read_csv('books_sample.csv',index_col=0)
-embs=[]
-for annotation in df['annotation']:
-   # embd=
-    #print(embd)
-    embs.append(embed_bert_cls(annotation))
-    #embs.append(embed_bert_cls(annotation))
 embs =np.array(embs)
-def find_similar(text, embeddings=embs, threshold=0.5):
     """
     Находит похожие тексты на основе косинусного сходства.
@@ -57,17 +145,34 @@ def find_similar(text, embeddings=embs, threshold=0.5):
     Возвращает:
         numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
     """
     # Встраиваем входной текст
-    embedding = embed_bert_cls(text)
-    # Вычисляем косинусное сходство между встроенным представлением входного текста и всеми встроенными представлениями
-    similarities = embeddings.dot(embedding)
-    sorted_indeces=similarities.argsort()[::-1]#[::1]
-    return similarities,sorted_indeces
-print(find_similar('пук',embeddings=embs))

 import pandas as pd
 from transformers import AutoTokenizer, AutoModel
 import numpy as np
+import pickle
+# import sklearn
+from nltk.stem import WordNetLemmatizer
+from nltk.tag import pos_tag
+from nltk.corpus import stopwords
+from pymystem3 import Mystem
+from functools import lru_cache
+import string
+import faiss
+from tqdm import tqdm
 tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
 model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+eng_stop_words = stopwords.words('english')
+with open('russian.txt', 'r') as f:
+    ru_stop_words = f.read()
+ru_stop_words=ru_stop_words.split('\n')
+allow="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя0123456789-' \n\t"
+#Задаём стеммер
+m= Mystem()
+def embed_bert_cls(text, model=model, tokenizer=tokenizer)->np.array:
     """
     Встраивает входной текст с использованием модели на основе BERT.
     # Преобразуем встроенные представления в массив numpy и возвращаем первый элемент
     return embeddings
+def lems_eng(text):
+    if type(text)==type('text'):
+        text=text.split()
+    wnl= WordNetLemmatizer()
+    lemmatized= []
+    pos_map = {
+        'NN': 'n',  # существительное
+        'NNS': 'n',  # существительное (множественное число)
+        'NNP': 'n',  # собственное имя (единственное число)
+        'NNPS': 'n',  # собственное имя (множественное число)
+        'VB': 'v',  # глагол (инфинитив)
+        'VBD': 'v',  # глагол (прошедшее время)
+        'VBG': 'v',  # глагол (настоящее причастие/герундий)
+        'VBN': 'v',  # глагол (прошедшее причастие)
+        'JJ': 'a',  # прилагательное
+        'JJR': 'a',  # прилагательное (сравнительная степень)
+        'JJS': 'a',  # прилагательное (превосходная степень)
+        'RB': 'r',  # наречие
+        'RBR': 'r',  # наречие (сравнительная степень)
+        'RBS': 'r',  # наречие (превосходная степень)
+        'PRP': 'n',  # личное местоимение
+        'PRP$': 'n',  # притяжательное местоимение
+        'DT': 'n'  # определитель
+    }
+    pos_tags = pos_tag(text)
+    lemmas = []
+    for token, pos in pos_tags:
+        pos = pos_map.get(pos,'n')
+        lemma = wnl.lemmatize(token, pos=pos)
+        lemmas.append(lemma)
+    return ' '.join(lemmas)
+def lems_rus(texts):
+    if type(texts)==type([]):
+        texts=' '.join(texts)
+    #lemmatized =[]
+    lemmas = m.lemmatize(texts)
+    return ''.join(lemmas)
+def clean(text: str)-> str:
+    text = ''.join(c for c in text if c in allow)
+    text= text.split()
+    text = [word for word in text if word.lower() not in ru_stop_words]
+    text = [word for word in text if word.lower() not in eng_stop_words]
+    return ' '.join(text)
+def improved_lemmatizer(texts,batch_size=1000):
+    if type(texts)==type('text'):
+        texts=texts.split()
+#Читаем датасет книжек
+df=pd.read_csv('final+lem.csv',index_col=0).reset_index(drop=True)
+# embs=[]
+# for i in tqdm(df.index):
+#     embs.append(embed_bert_cls(df['lemmatized'][i]))
+# with open('embs+lem.pickle', 'wb') as f:
+#     pickle.dump(embs, f)
+#Читаем эмбединги
+with open('embs+lem.pickle', 'rb') as f:
+    embs = pickle.load(f)
+#df['']
 embs =np.array(embs)
+print('Тип выхода:',type(embs),'Размер выхода: ',embs.shape)
+#Читаем стоп-слова
+index=faiss.IndexFlatIP(embs.shape[1])
+index.add(embs)
+@lru_cache()
+def find_similar(text, k=10):
     """
     Находит похожие тексты на основе косинусного сходства.
     Возвращает:
         numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
     """
     # Встраиваем входной текст
+    text_emb = embed_bert_cls(text)
+    text_emb = np.expand_dims(text_emb, axis=0)
+    print(f'Тип поискового запроса: {type(text_emb)}\nРазмер полученного запроса: {text_emb.shape}')#\nСам запрос:\n{text_emb}\n')
+    dist,idx=index.search(text_emb,k)
+    return dist.squeeze(),idx.squeeze()#,idx
+@lru_cache()
+def find_unsimilar(text,n=10, d=embs.shape[0]):
+    """
+    Находит похожие тексты на основе косинусного сходства.
+    Аргументы:
+        text (str): Входной текст для поиска похожих текстов.
+        embeddings (numpy.ndarray): Предварительно вычисленные встроенные представления текстов.
+        threshold (float): Порог, выше которого тексты считаются похожими.
+    Возвращает:
+        numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
+    """
+    # Встраиваем входной текст
+    text_emb = embed_bert_cls(text)
+    text_emb = np.expand_dims(text_emb, axis=0)
+    print(f'Тип поискового запроса: {type(text_emb)}\nРазмер полученного запроса: {text_emb.shape}')#\nСам запрос:\n{text_emb}\n')
+    dist,idx=index.search(text_emb,d)
+    dist=dist.flatten()[::-1]
+    idx=idx.flatten()[::-1]
+    return dist[:n],idx[:n]#,idx

log.log ADDED Viewed

The diff for this file is too large to render. See raw diff

packages.txt ADDED Viewed

	@@ -0,0 +1,211 @@

+# packages in environment at /Users/evgeniyshchurkin/anaconda3/envs/faiss_env:
+#
+# Name                    Version                   Build  Channel
+aiohttp                   3.8.5            py38hb192615_0    conda-forge
+aiosignal                 1.3.1              pyhd8ed1ab_0    conda-forge
+altair                    5.0.1              pyhd8ed1ab_1    conda-forge
+appnope                   0.1.3              pyhd8ed1ab_0    conda-forge
+asttokens                 2.2.1              pyhd8ed1ab_0    conda-forge
+async-timeout             4.0.2              pyhd8ed1ab_0    conda-forge
+attrs                     23.1.0             pyh71513ae_1    conda-forge
+aws-c-auth                0.7.0                hf4e22b4_2    conda-forge
+aws-c-cal                 0.6.0                h43a37b4_0    conda-forge
+aws-c-common              0.8.23               hb547adb_0    conda-forge
+aws-c-compression         0.2.17               h31a6291_1    conda-forge
+aws-c-event-stream        0.3.1                h1e1aaf7_1    conda-forge
+aws-c-http                0.7.11               h3107daf_0    conda-forge
+aws-c-io                  0.13.28              hf096fb3_0    conda-forge
+aws-c-mqtt                0.8.14               h9418dbe_2    conda-forge
+aws-c-s3                  0.3.13               h79b0d72_2    conda-forge
+aws-c-sdkutils            0.1.11               h31a6291_1    conda-forge
+aws-checksums             0.1.16               h31a6291_1    conda-forge
+aws-crt-cpp               0.20.3               h0918d87_4    conda-forge
+aws-sdk-cpp               1.10.57             h6f3a27c_17    conda-forge
+backcall                  0.2.0              pyh9f0ad1d_0    conda-forge
+backports                 1.0                pyhd8ed1ab_3    conda-forge
+backports.functools_lru_cache 1.6.5              pyhd8ed1ab_0    conda-forge
+backports.zoneinfo        0.2.1            py38hb991d35_7    conda-forge
+blinker                   1.6.2              pyhd8ed1ab_0    conda-forge
+brotli-python             1.0.9            py38h2b1e499_9    conda-forge
+bzip2                     1.0.8                h3422bc3_4    conda-forge
+c-ares                    1.19.1               hb547adb_0    conda-forge
+ca-certificates           2023.7.22            hf0a4a13_0    conda-forge
+cachetools                5.3.1              pyhd8ed1ab_0    conda-forge
+certifi                   2023.7.22          pyhd8ed1ab_0    conda-forge
+charset-normalizer        3.2.0              pyhd8ed1ab_0    conda-forge
+click                     8.1.6           unix_pyh707e725_0    conda-forge
+colorama                  0.4.6              pyhd8ed1ab_0    conda-forge
+comm                      0.1.3              pyhd8ed1ab_0    conda-forge
+dataclasses               0.8                pyhc8e2a94_3    conda-forge
+datasets                  2.13.1             pyhd8ed1ab_0    conda-forge
+debugpy                   1.6.7            py38h2b1e499_0    conda-forge
+decorator                 5.1.1              pyhd8ed1ab_0    conda-forge
+dill                      0.3.6              pyhd8ed1ab_1    conda-forge
+executing                 1.2.0              pyhd8ed1ab_0    conda-forge
+faiss-cpu                 1.7.4           py3.8_h34215f8_0_cpu    pytorch
+filelock                  3.12.2             pyhd8ed1ab_0    conda-forge
+freetype                  2.12.1               hd633e50_1    conda-forge
+frozenlist                1.4.0            py38hb192615_0    conda-forge
+fsspec                    2023.6.0           pyh1a96a4e_0    conda-forge
+gflags                    2.2.2             hc88da5d_1004    conda-forge
+gitdb                     4.0.10             pyhd8ed1ab_0    conda-forge
+gitpython                 3.1.32             pyhd8ed1ab_0    conda-forge
+glog                      0.6.0                h6da1cb0_0    conda-forge
+gmp                       6.2.1                h9f76cd9_0    conda-forge
+gmpy2                     2.1.2            py38h904d018_1    conda-forge
+huggingface_hub           0.16.4             pyhd8ed1ab_0    conda-forge
+idna                      3.4                pyhd8ed1ab_0    conda-forge
+importlib-metadata        6.8.0              pyha770c72_0    conda-forge
+importlib_metadata        6.8.0                hd8ed1ab_0    conda-forge
+importlib_resources       6.0.0              pyhd8ed1ab_1    conda-forge
+ipykernel                 6.25.0             pyh5fb750a_0    conda-forge
+ipython                   8.12.2             pyhd1c38e8_0    conda-forge
+ipywidgets                8.0.7              pyhd8ed1ab_0    conda-forge
+jedi                      0.18.2             pyhd8ed1ab_0    conda-forge
+jinja2                    3.1.2              pyhd8ed1ab_1    conda-forge
+joblib                    1.3.0              pyhd8ed1ab_1    conda-forge
+jsonschema                4.18.4             pyhd8ed1ab_0    conda-forge
+jsonschema-specifications 2023.7.1           pyhd8ed1ab_0    conda-forge
+jupyter_client            8.3.0              pyhd8ed1ab_0    conda-forge
+jupyter_core              5.3.1            py38h10201cd_0    conda-forge
+jupyterlab_widgets        3.0.8              pyhd8ed1ab_0    conda-forge
+krb5                      1.21.1               h92f50d5_0    conda-forge
+lcms2                     2.15                 hd835a16_1    conda-forge
+lerc                      4.0.0                h9a09cb3_0    conda-forge
+libabseil                 20230125.3      cxx17_h13dd4ca_0    conda-forge
+libarrow                  12.0.1           h59b625a_6_cpu    conda-forge
+libblas                   3.9.0           17_osxarm64_openblas    conda-forge
+libbrotlicommon           1.0.9                h1a8c8d9_9    conda-forge
+libbrotlidec              1.0.9                h1a8c8d9_9    conda-forge
+libbrotlienc              1.0.9                h1a8c8d9_9    conda-forge
+libcblas                  3.9.0           17_osxarm64_openblas    conda-forge
+libcrc32c                 1.1.2                hbdafb3b_0    conda-forge
+libcurl                   8.2.1                hc52a3a8_0    conda-forge
+libcxx                    16.0.6               h4653b0c_0    conda-forge
+libdeflate                1.18                 h1a8c8d9_0    conda-forge
+libedit                   3.1.20191231         hc8eb9b7_2    conda-forge
+libev                     4.33                 h642e427_1    conda-forge
+libevent                  2.1.12               h2757513_1    conda-forge
+libfaiss                  1.7.4            hcb8d3e5_0_cpu    pytorch
+libffi                    3.4.2                h3422bc3_5    conda-forge
+libgfortran               5.0.0           12_3_0_hd922786_1    conda-forge
+libgfortran5              12.3.0               ha3a6a3e_1    conda-forge
+libgoogle-cloud           2.12.0               he22f4c0_1    conda-forge
+libgrpc                   1.54.2               h0a338ca_2    conda-forge
+libjpeg-turbo             2.1.5.1              h1a8c8d9_0    conda-forge
+liblapack                 3.9.0           17_osxarm64_openblas    conda-forge
+libnghttp2                1.52.0               hae82a92_0    conda-forge
+libopenblas               0.3.23          openmp_hc731615_0    conda-forge
+libpng                    1.6.39               h76d750c_0    conda-forge
+libprotobuf               3.21.12              hb5ab8b9_0    conda-forge
+libsodium                 1.0.18               h27ca646_1    conda-forge
+libsqlite                 3.42.0               hb31c410_0    conda-forge
+libssh2                   1.11.0               h7a5bd25_0    conda-forge
+libthrift                 0.18.1               ha061701_2    conda-forge
+libtiff                   4.5.1                h23a1a89_0    conda-forge
+libutf8proc               2.8.0                h1a8c8d9_0    conda-forge
+libwebp-base              1.3.1                hb547adb_0    conda-forge
+libxcb                    1.15                 hf346824_0    conda-forge
+libzlib                   1.2.13               h53f4e23_5    conda-forge
+llvm-openmp               16.0.6               h1c12783_0    conda-forge
+lz4-c                     1.9.4                hb7217d7_0    conda-forge
+markdown-it-py            3.0.0              pyhd8ed1ab_0    conda-forge
+markupsafe                2.1.3            py38hb192615_0    conda-forge
+matplotlib-inline         0.1.6              pyhd8ed1ab_0    conda-forge
+mdurl                     0.1.0              pyhd8ed1ab_0    conda-forge
+mpc                       1.3.1                h91ba8db_0    conda-forge
+mpfr                      4.2.0                he09a6ba_0    conda-forge
+mpmath                    1.3.0              pyhd8ed1ab_0    conda-forge
+multidict                 6.0.4            py38hb991d35_0    conda-forge
+multiprocess              0.70.15          py38hb192615_0    conda-forge
+ncurses                   6.4                  h7ea286d_0    conda-forge
+nest-asyncio              1.5.6              pyhd8ed1ab_0    conda-forge
+networkx                  3.1                pyhd8ed1ab_0    conda-forge
+nltk                      3.8.1              pyhd8ed1ab_0    conda-forge
+numpy                     1.24.4           py38ha84db1f_0    conda-forge
+openjpeg                  2.5.0                hbc2ba62_2    conda-forge
+openssl                   3.1.1                h53f4e23_1    conda-forge
+orc                       1.9.0                ha98e9e8_1    conda-forge
+packaging                 23.1               pyhd8ed1ab_0    conda-forge
+pandas                    2.0.3            py38hefb543e_1    conda-forge
+parso                     0.8.3              pyhd8ed1ab_0    conda-forge
+pexpect                   4.8.0              pyh1a96a4e_2    conda-forge
+pickleshare               0.7.5                   py_1003    conda-forge
+pillow                    9.5.0            py38h3f590de_1    conda-forge
+pip                       23.2.1             pyhd8ed1ab_0    conda-forge
+pkgutil-resolve-name      1.3.10             pyhd8ed1ab_0    conda-forge
+platformdirs              3.9.1              pyhd8ed1ab_0    conda-forge
+pooch                     1.7.0              pyha770c72_3    conda-forge
+prompt-toolkit            3.0.39             pyha770c72_0    conda-forge
+prompt_toolkit            3.0.39               hd8ed1ab_0    conda-forge
+protobuf                  4.21.12          py38h2b1e499_0    conda-forge
+psutil                    5.9.5            py38hb991d35_0    conda-forge
+pthread-stubs             0.4               h27ca646_1001    conda-forge
+ptyprocess                0.7.0              pyhd3deb0d_0    conda-forge
+pure_eval                 0.2.2              pyhd8ed1ab_0    conda-forge
+pyarrow                   12.0.1          py38h5809dd6_6_cpu    conda-forge
+pydeck                    0.8.0              pyhd8ed1ab_0    conda-forge
+pygments                  2.15.1             pyhd8ed1ab_0    conda-forge
+pympler                   1.0.1              pyhd8ed1ab_0    conda-forge
+pymystem3                 0.2.0                    pypi_0    pypi
+pysocks                   1.7.1              pyha2e5f31_6    conda-forge
+python                    3.8.17          h3ba56d0_0_cpython    conda-forge
+python-dateutil           2.8.2              pyhd8ed1ab_0    conda-forge
+python-tzdata             2023.3             pyhd8ed1ab_0    conda-forge
+python-xxhash             3.2.0            py38hb991d35_0    conda-forge
+python_abi                3.8                      3_cp38    conda-forge
+pytorch                   2.0.0           cpu_py38hb5ed39e_0    conda-forge
+pytz                      2023.3             pyhd8ed1ab_0    conda-forge
+pytz-deprecation-shim     0.1.0.post0      py38h10201cd_3    conda-forge
+pyyaml                    6.0              py38hb991d35_5    conda-forge
+pyzmq                     25.1.0           py38hef91016_0    conda-forge
+re2                       2023.03.02           hc5e2d97_0    conda-forge
+readline                  8.2                  h92ec313_1    conda-forge
+referencing               0.30.0             pyhd8ed1ab_0    conda-forge
+regex                     2023.6.3         py38hb192615_0    conda-forge
+requests                  2.31.0             pyhd8ed1ab_0    conda-forge
+responses                 0.18.0             pyhd8ed1ab_0    conda-forge
+rich                      13.4.2             pyhd8ed1ab_0    conda-forge
+rpds-py                   0.9.2            py38hd0c8013_0    conda-forge
+sacremoses                0.0.53             pyhd8ed1ab_0    conda-forge
+safetensors               0.3.1            py38hd0c8013_0    conda-forge
+scikit-learn              1.0.2            py38h9197a36_1    anaconda
+scipy                     1.10.1           py38h038e806_3    conda-forge
+setuptools                68.0.0             pyhd8ed1ab_0    conda-forge
+six                       1.16.0             pyh6c4a22f_0    conda-forge
+sleef                     3.5.1                h156473d_2    conda-forge
+smmap                     3.0.5              pyh44b312d_0    conda-forge
+snappy                    1.1.10               h17c5cce_0    conda-forge
+stack_data                0.6.2              pyhd8ed1ab_0    conda-forge
+streamlit                 1.24.1             pyhd8ed1ab_1    conda-forge
+sympy                     1.12            pypyh9d50eac_103    conda-forge
+tenacity                  8.2.2              pyhd8ed1ab_0    conda-forge
+threadpoolctl             3.2.0              pyha21a80b_0    conda-forge
+tk                        8.6.12               he1e0b03_0    conda-forge
+tokenizers                0.13.3           py38hf11c49c_0    conda-forge
+toml                      0.10.2             pyhd8ed1ab_0    conda-forge
+toolz                     0.12.0             pyhd8ed1ab_0    conda-forge
+tornado                   6.3.2            py38hb192615_0    conda-forge
+tqdm                      4.65.0             pyhd8ed1ab_1    conda-forge
+traitlets                 5.9.0              pyhd8ed1ab_0    conda-forge
+transformers              4.31.0             pyhd8ed1ab_0    conda-forge
+typing-extensions         4.7.1                hd8ed1ab_0    conda-forge
+typing_extensions         4.7.1              pyha770c72_0    conda-forge
+tzdata                    2023c                h71feb2d_0    conda-forge
+tzlocal                   4.3              py38h10201cd_0    conda-forge
+urllib3                   2.0.4              pyhd8ed1ab_0    conda-forge
+validators                0.20.0             pyhd8ed1ab_0    conda-forge
+watchdog                  3.0.0            py38hb991d35_0    conda-forge
+wcwidth                   0.2.6              pyhd8ed1ab_0    conda-forge
+wheel                     0.41.0             pyhd8ed1ab_0    conda-forge
+widgetsnbextension        4.0.8              pyhd8ed1ab_0    conda-forge
+xorg-libxau               1.0.11               hb547adb_0    conda-forge
+xorg-libxdmcp             1.1.3                h27ca646_0    conda-forge
+xxhash                    0.8.1                h1a8c8d9_0    conda-forge
+xz                        5.2.6                h57fd34a_0    conda-forge
+yaml                      0.2.5                h3422bc3_2    conda-forge
+yarl                      1.9.2            py38hb192615_0    conda-forge
+zeromq                    4.3.4                hbdafb3b_1    conda-forge
+zipp                      3.16.2             pyhd8ed1ab_0    conda-forge
+zlib                      1.2.13               h53f4e23_5    conda-forge
+zstd                      1.5.2                h4f39d0f_7    conda-forge

parsing.ipynb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d53ae6965dd14459f5967a0302a3ee24261da328948f373fe2a9fc4cde70b3f7
+size 120076865

russian.txt ADDED Viewed

	@@ -0,0 +1,422 @@

+а
+в
+г
+е
+ж
+и
+к
+м
+о
+с
+т
+у
+я
+бы
+во
+вы
+да
+до
+ее
+ей
+ею
+её
+же
+за
+из
+им
+их
+ли
+мы
+на
+не
+ни
+но
+ну
+нх
+об
+он
+от
+по
+со
+та
+те
+то
+ту
+ты
+уж
+без
+был
+вам
+вас
+ваш
+вон
+вот
+все
+всю
+вся
+всё
+где
+год
+два
+две
+дел
+для
+его
+ему
+еще
+ещё
+или
+ими
+имя
+как
+кем
+ком
+кто
+лет
+мне
+мог
+мож
+мои
+мой
+мор
+моя
+моё
+над
+нам
+нас
+наш
+нее
+ней
+нем
+нет
+нею
+неё
+них
+оба
+она
+они
+оно
+под
+пор
+при
+про
+раз
+сам
+сих
+так
+там
+тем
+тех
+том
+тот
+тою
+три
+тут
+уже
+чем
+что
+эта
+эти
+это
+эту
+алло
+буду
+будь
+бывь
+была
+были
+было
+быть
+вами
+ваша
+ваше
+ваши
+ведь
+весь
+вниз
+всем
+всех
+всею
+года
+году
+даже
+двух
+день
+если
+есть
+зато
+кого
+кому
+куда
+лишь
+люди
+мало
+меля
+меня
+мимо
+мира
+мной
+мною
+мочь
+надо
+нами
+наша
+наше
+наши
+него
+нему
+ниже
+ними
+один
+пока
+пора
+пять
+рано
+сама
+сами
+само
+саму
+свое
+свои
+свою
+себе
+себя
+семь
+стал
+суть
+твой
+твоя
+твоё
+тебе
+тебя
+теми
+того
+тоже
+тому
+туда
+хоть
+хотя
+чаще
+чего
+чему
+чтоб
+чуть
+этим
+этих
+этой
+этом
+этот
+более
+будем
+будет
+будто
+будут
+вверх
+вдали
+вдруг
+везде
+внизу
+время
+всего
+всеми
+всему
+всюду
+давно
+даром
+долго
+друго
+жизнь
+занят
+затем
+зачем
+здесь
+иметь
+какая
+какой
+книга
+когда
+кроме
+лучше
+между
+менее
+много
+могут
+может
+можно
+можхо
+назад
+низко
+нужно
+одной
+около
+опять
+очень
+перед
+позже
+после
+потом
+почти
+пятый
+разве
+рядом
+самим
+самих
+самой
+самом
+своей
+своих
+сеаой
+снова
+собой
+собою
+такая
+также
+такие
+такое
+такой
+тобой
+тобою
+тогда
+тысяч
+уметь
+часто
+через
+чтобы
+шесть
+этими
+этого
+этому
+близко
+больше
+будете
+будешь
+бывает
+важная
+важное
+важные
+важный
+вокруг
+восемь
+всегда
+второй
+далеко
+дальше
+девять
+десять
+должно
+другая
+другие
+других
+другое
+другой
+занята
+занято
+заняты
+значит
+именно
+иногда
+каждая
+каждое
+каждые
+каждый
+кругом
+меньше
+начала
+нельзя
+нибудь
+никуда
+ничего
+обычно
+однако
+одного
+отсюда
+первый
+потому
+почему
+просто
+против
+раньше
+самими
+самого
+самому
+своего
+сейчас
+сказал
+совсем
+теперь
+только
+третий
+хорошо
+хотеть
+хочешь
+четыре
+шестой
+восьмой
+впрочем
+времени
+говорил
+говорит
+девятый
+десятый
+кажется
+конечно
+которая
+которой
+которые
+который
+которых
+наверху
+наконец
+недавно
+немного
+нередко
+никогда
+однажды
+посреди
+сегодня
+седьмой
+сказала
+сказать
+сколько
+слишком
+сначала
+спасибо
+человек
+двадцать
+довольно
+которого
+наиболее
+недалеко
+особенно
+отовсюду
+двадцатый
+миллионов
+несколько
+прекрасно
+процентов
+четвертый
+двенадцать
+непрерывно
+пожалуйста
+пятнадцать
+семнадцать
+тринадцать
+двенадцатый
+одиннадцать
+пятнадцатый
+семнадцатый
+тринадцатый
+шестнадцать
+восемнадцать
+девятнадцать
+одиннадцатый
+четырнадцать
+шестнадцатый
+восемнадцатый
+девятнадцатый
+действительно
+четырнадцатый
+многочисленная
+многочисленное
+многочисленные
+многочисленный