Spaces:

Shchushch
/

CV

Sleeping

App Files Files Community

Shchushch commited on Jan 30, 2024

Commit

d80f9cb

1 Parent(s): 66cc159

pages

Browse files

Files changed (4) hide show

pages/1 📖_Умный_поиск_книг.py +83 -0
pages/2 🤡_Генератор_анекдотов.py +155 -0
pages/3 ♋_Это_рак?.py +41 -0
pages/4 🖼️_Распознаватель_картинок.py +45 -0

pages/1 📖_Умный_поиск_книг.py ADDED Viewed

	@@ -0,0 +1,83 @@

+import streamlit as st
+import pandas as pd
+import random as rd
+import webbrowser as wb
+import numpy as np
+from assets.find import find_similar,df,lems_eng,lems_rus,clean
+st.set_page_config(
+    page_title="Умный поиск книг",
+    page_icon="📖",
+    layout="wide",
+)
+with st.expander('Исходный датафрейм'):
+        #print(list(df.columns))#df.columns())
+        columns= st.multiselect('Выберите колонки для отображения',options=list(df.columns),default=list(df.columns))
+        df.loc[:,columns]#'df.columns,default=df.columns)
+        #df.loc[:,columns]
+st.title('Умный поиск книг')
+#negability= st.checkbox('Негативный промт (beta)')
+with st.form(key='search_form'):
+    input=st.text_input('Введите поисковый запрос','Пример запроса')
+    # if negability:
+    #     neg=st.text_input('Введите отрицательный запрос')
+    search_but=st.form_submit_button('Искать')
+items_per_page=st.number_input('Количество книг на странице',min_value=1,max_value=10,value=5)
+# if search_but:
+#     st.session_state.clicked = True
+#st.toast('Уфф')
+#@st.cache_data(experimental_allow_widgets=True)
+def books_show(books_idx,sim,n=items_per_page):
+    col=[]
+    books=df.copy().iloc[books_idx][:n]
+    for author in books['author']:
+        if author.find('Донцова')!=-1:
+            #st.toast('Уфф')
+            pass
+    books['sims']=sims[:n]
+    with st.expander('Датафрейм с результатами'):
+        books.loc[:,columns.__add__(['sims'])]
+    #print(books.index)
+    for i,book_id in enumerate(books_idx[:n]):
+        pic_col,text_col=st.columns([0.2,0.8])
+        '---'
+        url=books.loc[book_id][0]
+        #url
+        pic_col.image(books.loc[book_id,'image_url'],use_column_width=True)
+        pic_col.markdown(f'<a href={url} target="_blank">Ссылка на книгу</a>', unsafe_allow_html=True)
+        pic_col.markdown(f'**Степень похожести:** {books.loc[book_id,"sims"]*100:.4f}%')
+        #col[i][0].button('Купить',key=books['page_url'][i],on_click=lambda: wb.open_new_tab(books['page_url'][i]))
+        text_col.markdown('## ' + books.loc[book_id, 'title'])
+        text_col.markdown('**Автор:** ' + books.loc[book_id, 'author'])
+        text_col.markdown('**Жанр:** ' + books.loc[book_id, 'genre'])
+        text_col.markdown('**Аннотация:** ' + books.loc[book_id, 'annotation'])
+if search_but:
+    neg_mark=input.find(' -')
+    if neg_mark==-1:
+        cleaned_input=clean(lems_eng(lems_rus(input)))
+    else:
+        cleaned_input=clean(lems_eng(lems_rus(input[:neg_mark])))
+        cleaned_neg=clean(lems_eng(lems_rus(input[neg_mark+2:])))
+    #print(cleaned_neg.split(),df.loc[15390,'lemmatized'].split())
+    with st.spinner('Wait for it...'):
+        if neg_mark!=-1:
+            st.markdown(f'**Лемматизированный запрос:** {cleaned_input} \n\n **Лемматизированый негативный запрос:** {cleaned_neg}')
+            sims,books_idx=find_similar(cleaned_input,50)
+            for book in books_idx:
+                if any(word in cleaned_neg.split() for word in df.loc[book,'lemmatized'].split()):
+                    books_idx=np.delete(books_idx,np.where(books_idx==book))
+        else:
+            st.markdown(f'**Лемматизированный запрос:** {cleaned_input}')
+            sims,books_idx=find_similar(input)
+        print(f'Похожести:\n{sims}\nИндексы:\n{books_idx}')
+        books_show(books_idx,sims)

pages/2 🤡_Генератор_анекдотов.py ADDED Viewed

	@@ -0,0 +1,155 @@

+import streamlit as st
+from transformers import GPT2Tokenizer, GPT2LMHeadModel
+import torch
+DEVICE = 'cpu'
+st.set_page_config(
+    page_title="Генератор анекдотов",
+    page_icon="🤡",
+    layout="wide",
+)
+st.title('Генератор анекдотов')
+@st.cache_resource
+def load_model():
+    model = GPT2LMHeadModel.from_pretrained(
+        'sberbank-ai/rugpt3small_based_on_gpt2',
+        output_attentions = False,
+        output_hidden_states = False,
+    )
+    # Вешаем сохраненнки весов на нашу модель
+    model.load_state_dict(torch.load('assets/aneks_model.pt',map_location=DEVICE))
+    return model.to(DEVICE)
+model = load_model()
+with st.expander("Пояснения"):
+    """
+    #### Это генератор анекдотов
+    Немного технической информации:
+    Здесь используется нейросеть модель **rugp3small_based_on_gpt2** обученная Сбером. Я дообучил её на датасете из 2220 категории Б.
+    Кроме тех параметров, которые можно регулировать в интерфейсе заданы do_sample=True, early_stopping=True, остальное оставил дефолтным, т.к. это привело меня к лучшему результату
+    """
+# Вешаем сохраненные веса на нашу модель
+#model.load_state_dict(torch.load('resources/model.pt',map_location=DEVICE))
+model_name='sberbank-ai/rugpt3small_based_on_gpt2'
+tokenizer = GPT2Tokenizer.from_pretrained(model_name)
+tokenizer.pad_token_id = tokenizer.eos_token_id
+input=st.text_area('Введи промт для генерации анека',value="Заходит бесконечное число математиков в бар", key='input')
+num_aneks= st.number_input('Количество анеков',min_value=1,max_value=5,value=3)
+token_nums= st.number_input('Максимум токенов вывода',min_value=1,max_value=500,value=200)
+with st.expander("А что такое токен?"):
+    """
+    Токен в контексте обработки естественного языка (Natural Language Processing, NLP) - это кусочек текста, который является частью большего текста. Токены могут быть очень короткими, например, отдельным символом, или более длинными, представляя собой целое слово или даже несколько слов.
+    Давайте рассмотрим несколько примеров:
+    1. В слове "кошка" есть 6 символов, и каждый символ может считаться токеном (к, о, ш, к, а).
+    2. В предложении "Я люблю кошек" токенами могут быть каждое слово: "Я", "люблю", "кошек".
+    3. В случае работы с буквами, каждая буква может считаться токеном. Например, в слове "HELLO" будут пять токенов: "H", "E", "L", "L", "O".
+    Когда мы говорим о токенах в машинном обучении, особенно в нейронных сетях для обработки текста, мы часто имеем в виду минимальные единицы, с которыми модель работает. В тексте каждое слово или символ обычно преобразуется в числовое представление, называемое токеном, чтобы модель могла эффективно обрабатывать текстовую информацию.
+    Конкретно в этом случае токеном считается слово или знак препинания, заканчивающий предложение
+    """
+length=st.number_input('Наказание за длину',min_value=0.0,max_value=10.0,value=0.2)
+with st.expander("А как это?"):
+    """
+    Коэффициент штрафа за длину, который управляет предпочтением более коротких или более длинных ответов. Значение length_penalty < 1.0 предпочитает более короткие ответы, а значение > 1.0 предпочитает более длинные ответы.
+    Общие значения для length_penalty могут варьироваться от 0.0 до положительного бесконечности. Различные значения могут оказывать разное влияние на результат:
+    - length_penalty = 1.0: Нейтральный эффект на выбор длины ответа.
+    - length_penalty < 1.0: Модель будет предпочитать генерировать более короткие ответы.
+    - length_penalty > 1.0: Модель будет предпочитать генерировать более длинные ответы.
+    """
+temp_num=st.number_input('Ввод температуры',min_value=0.1,max_value=5.0,value=2.0)
+with st.expander("А это что такое?"):
+    """
+    Когда мы говорим о "температуре" в контексте генерации текста с использованием нейронных сетей, таких как GPT, это относится к параметру, который влияет на случайность и разнообразие ответов модели.
+    Простыми словами, температура контролирует, насколько "сумасшедшие" или "предсказуемые" будут ответы. Вы можете представить это как настройку, которая регулирует, насколько вероятность различия между предсказаниями модели.
+    - **Высокая температура (например, 1.5):**
+    - Большая случайность в ответах.
+    - Модель может генерировать неожиданные и креативные тексты.
+    - Ответы могут быть менее связанными с контекстом.
+    - **Низкая температура (например, 0.5):**
+    - Меньшая случайность, более предсказуемые ответы.
+    - Модель склонна использовать более типичные и "осмысленные" фразы.
+    - Ответы более связаны с контекстом.
+    Итак, регулировка температуры помогает вам контролировать баланс между творчеством и структурой в генерируемых текстах."""
+def generator(prompt, max_new_tokens=token_nums, temperature=temp_num, num_aneks=num_aneks,length_penalty=length):
+    # Предполагается, что у вас уже есть определения model, tokenizer и DEVICE
+    prompt = tokenizer.encode(prompt, return_tensors='pt', truncation=True).to(DEVICE)
+    aneks = model.generate(
+        input_ids=prompt,
+        do_sample=True,
+        temperature=temperature,
+        num_return_sequences=num_aneks,
+        max_length=max_new_tokens,
+        length_penalty=length_penalty,
+        early_stopping=True
+    ).cpu().numpy()
+    # Используем строковый токенизатор для декодирования
+    out_list = [tokenizer.decode(seq, skip_special_tokens=True).split("\n")[0] for seq in aneks]
+    return out_list
+if "generated_text" not in st.session_state:
+    st.session_state.generated_text = ""
+if "disabled" not in st.session_state:
+    st.session_state.disabled = False
+def show_anekdot_generator():
+    rad= st.empty()
+    butt= st.empty()
+    age_confirmation = rad.radio("Вам есть 18 лет?", ("Да", "Нет"))
+    submit =butt.button("Подтвердить")
+    if submit:
+        if age_confirmation == "Да":
+            # Если пользователь подтвердил, что ему 18
+            st.session_state.disabled = True
+        elif age_confirmation == "Нет":
+            # Если пользователь ответил "Нет"
+            st.write("Вы не достигли 18 лет. Вас переадресовывают...")
+            st.markdown('<meta http-equiv="refresh" content="0;URL=\'https://www.youtube.com/watch?v=V8Er1uk4fcw\'" />', unsafe_allow_html=True)
+        rad.empty()
+        butt.empty()
+if not st.session_state.disabled:
+    show_anekdot_generator()
+if st.session_state.disabled:
+    generate_anek_button = st.button("Генерировать анек",key='gen')
+    if st.session_state.gen:
+        st.session_state.generated_text = ""
+        out= generator(input)
+        for out_ in out:
+            st.session_state.generated_text += out_+'\n\n'
+        st.session_state.generated_text

pages/3 ♋_Это_рак?.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import streamlit as st
+from PIL import Image
+from assets.skin import get_evil
+import requests
+st.set_page_config(
+    page_title="Это рак?",
+    page_icon="♋",
+    layout="wide",
+    #initial_sidebar_state="expanded"
+)
+st.title('Это рак?')
+with st.expander("Пояснения"):
+    """
+    #### Эта программа использует нейросеть чтобы определить, является ли кожное образование доброкачественным или злокачественным.
+    Немного технической информации:
+    Используется нейросеть **VGG_19_BN** дообученная на 660 фотографиях новообразований в течение **4 эпох**. **Точность** предсказания: **0.8327**
+    """
+"""Данные для обучения я брал [отсюда](https://www.kaggle.com/datasets/fanconic/skin-cancer-malignant-vs-benign), так что можно использовать их же для проверки работы программы, хоть это и не совсем чесно."""
+upload_method = st.radio("Выбери метод загрузки", ["Файл", "URL"],key='method')
+image = None
+if st.session_state['method'] == "Файл":
+    uploaded_file=st.file_uploader('Загрузи сюда картинку новообразования',type=["jpg", "jpeg", "png"])
+    if uploaded_file is not None:
+        image = Image.open(uploaded_file)
+        st.image(image, caption='Uploaded Image')
+elif st.session_state['method'] == "URL":
+    pic_url=st.text_input('Или вставь сюда ссылку на картинку',key='urls')
+    if pic_url != '':
+        try:
+            image = Image.open(requests.get(pic_url, stream=True).raw)
+            st.image(image)
+        except:
+            st.error('Не удалось загрузить картинку')
+if image is not None and st.button('Это что'):
+    st.success(get_evil(image))

pages/4 🖼️_Распознаватель_картинок.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import streamlit as st
+from PIL import Image
+from assets.imagenet import img_class
+import requests
+from io import BytesIO
+st.set_page_config(
+    page_title="Распознаватель изображений",
+    page_icon="🖼️",
+    layout="wide",
+)
+st.title('Распознаватель изображений')
+with st.expander("Пояснения"):
+    """
+    #### Нейросеть опознаёт, что изображено на картинке
+    Немного технической информации:
+    Используется нейросеть **inception_v3** с точностью **78.1%** на датасете [imagenet](https://www.image-net.org/). Никаких изменений не внесено, просто добавлен пользовательский интерфейс.
+    """
+upload_method = st.radio("Выбери метод загрузки", ["Файл", "URL"],key='method')
+if st.session_state['method'] == "Файл":
+    uploaded_file=st.file_uploader('# Загрузи сюда любую картинку',type=["jpg", "jpeg", "png","svg"],key='uploader')
+    if uploaded_file is not None:
+        st.image(uploaded_file)
+        image = Image.open(uploaded_file)
+elif st.session_state['method'] == "URL":
+    pic_url=st.text_input('Или вставь сюда ссылку на картинку',key='urls')
+    if pic_url != '':
+        try:
+            image = Image.open(requests.get(pic_url, stream=True).raw)
+            st.image(image, caption="Изображение по URL")
+        except:
+            st.error('Не удалось загрузить картинку')
+# try:
+if st.button('Определить'):
+    #st.write(image)
+    # st.image(image, caption='Uploaded Image', use_column_width=True)
+    st.success(img_class(image))
+# except:
+#     st.error('Не удалось обработать картинку')